Projekt Common Voice sbírá hlasová data, na základě kterých bude možné trénovat modely a software pro rozpoznávání řeči. Všechna data jsou volně dostupná a pro zahrnutí češtiny potřebujeme i vaši pomoc.
První a zcela nezbytnou podmínkou je nasbírat dostatek textu, podle kterého budou vznikat hlasové nahrávky. Z našeho prvního pokusu nasbírat svépomocí dostatek vět jsme se přesunuli na nový nástroj Sentence Collector, který Mozilla k tomuto účelu připravila.
V době psaní článku máme v nástroji skoro dva a půl tisíce českých vět a stojí před námi dva úkoly.
- Potřebujeme rozšířit počet vět v datové sadě, čím více, tím lépe.
- Alespoň 5 tisíc vět musí být ručně ověřených několika lidmi, abychom se mohli dostat dále do fáze nahrávání hlasových záznamů.
Přidávání vět je velmi jednoduché. Stačí se přihlásit, nastavit v profilu češtinu a na adrese https://common-voice.github.io/sentence-collector/#/add psát nějaké smysluplné větičky. Důležitá je i licence všech textů, musí jít o volné dílo. Nepouštějte se tedy hned bezhlavě do opisování své knihovny ani kopírování textů z webových magazínů.
Druhou neméně záslužnou činností je ověřování vět. Aby nebyl celý dataset složený z gramaticky špatných nebo nesmyslných vět, vět, které vůbec nejsou česky nebo očividně nesplňujících podmínky licence, je probíhá ještě ruční kontrola. Tu můžete také dělat vy na adrese https://common-voice.github.io/sentence-collector/#/review/cs. Pro každou zobrazenou větu prostě rozhodnete, jestli je nebo není v pořádku, a formulář odešlete.
Podrobnější informace k přispívání skrze nový nástroj najdete zde. Pokud byste se chtěli na projektu Common Voice podílet více, ozvěte se nám.
soustruh napsal(a)
Michal Stanke napsal(a)
Michal Hradiš napsal(a)