Rubriky: Mozilla

Stav češtiny v projektu Common Voice

Projekt Common Voice sbírá hlasová data, na základě kterých bude možné trénovat modely a software pro rozpoznávání řeči. Všechna data jsou volně dostupná a pro zahrnutí češtiny potřebujeme i vaši pomoc.

První a zcela nezbytnou podmínkou je nasbírat dostatek textu, podle kterého budou vznikat hlasové nahrávky. Z našeho prvního pokusu nasbírat svépomocí dostatek vět jsme se přesunuli na nový nástroj Sentence Collector, který Mozilla k tomuto účelu připravila.

V době psaní článku máme v nástroji skoro dva a půl tisíce českých vět a stojí před námi dva úkoly.

  • Potřebujeme rozšířit počet vět v datové sadě, čím více, tím lépe.
  • Alespoň 5 tisíc vět musí být ručně ověřených několika lidmi, abychom se mohli dostat dále do fáze nahrávání hlasových záznamů.

Přidávání vět je velmi jednoduché. Stačí se přihlásit, nastavit v profilu češtinu a na adrese https://common-voice.github.io/sentence-collector/#/add psát nějaké smysluplné větičky. Důležitá je i licence všech textů, musí jít o volné dílo. Nepouštějte se tedy hned bezhlavě do opisování své knihovny ani kopírování textů z webových magazínů.

Druhou neméně záslužnou činností je ověřování vět. Aby nebyl celý dataset složený z gramaticky špatných nebo nesmyslných vět, vět, které vůbec nejsou česky nebo očividně nesplňujících podmínky licence, je probíhá ještě ruční kontrola. Tu můžete také dělat vy na adrese https://common-voice.github.io/sentence-collector/#/review/cs. Pro každou zobrazenou větu prostě rozhodnete, jestli je nebo není v pořádku, a formulář odešlete.

Schvalování vět

Podrobnější informace k přispívání skrze nový nástroj najdete zde. Pokud byste se chtěli na projektu Common Voice podílet více, ozvěte se nám.

3 komentářů k článku “Stav češtiny v projektu Common Voice”

  1. soustruh napsal(a)

    Ahoj, hned na obrázku v tomto článku vidím nesprávnou interpunkci (čárka před „než“), je to při schvalování vět problém? A co hovorové výrazy (líp, zelenej, tohohle)?

    1. Michal Stanke napsal(a)

      Podle pokynů by měly projít jen věty bez překlepů a gramaticky správné. Je otázka, jestli opravdu každý, kdo věty bude kontrolovat, dá pozor na čárky. V tomhle konkrétním případě ta čárka asi roli nehraje, ale mohla by

      Hovorové výrazy snad nevadí. Rozpoznávání hlasu je v reálném použití českými mluvčími potká a bude si s nimi muset poradit. Stejně jako se šumy z okolí a tak. Pro DeepSpeech je to IMO v pořádku, pro jiná použití nevím.

  2. Michal Hradiš napsal(a)

    Věty z mailů.

    Vytvořil jsem velmi nedokonalý prográmek na extrakci vět v určitém jazyce z eml souborů https://github.com/michal-hradis/eml_sentense_extractor. Je možné např. z Thunderbirdu exportovat emaily a hromadně z nich takto vytáhnout věty. Jen je dobré to pak přečíst a odstranit citlivé a osobní informace :).

    Použijte libovolně.