Rozšíření výchozího datasetu pro Mozilla Common Voice

K dnešnímu dni je již možno v rámci projektu Mozilla Common Voice číst věty ze zápisů Evropského parlamentu a z Wikipedie.

Projekt Common Voice je iniciativa Mozilly, která pomáhá strojům učit se, jak mluví skuteční lidé.

Co je to Common Voice?

Citováno z oficiální stránky projektu Common Voice, „Projekt Common Voice je iniciativa Mozilly, která pomáhá strojům učit se, jak mluví skuteční lidé.“ Ve zkratce, projekt Common Voice vytváří databázi hlasových nahrávek zveřejňovanou pod tou nejsvobodnější licencí, to jest jako volné dílo. Tyto nahrávky sbírá od všech možných dobrovolníků, a dává je k dispozici komukoliv na jakékoliv použití, typicky například různé projekty strojového učení. Na rozdíl od některých podobných projektů se navíc nesnaží získat perfektně čisté nahrávky hlasu, ale spíše se orientuje na nahrávky takříkajíc z reálného života, kde lidé mluví na nekvalitní mikrofony v hlučném prostředí, a často navíc ještě z opačného konce místnosti. Tímto a svou otevřeností se tedy jedná o vskutku ojedinělý projekt.

Co se událo?

Do české lokalizace projektu Common Voice byly nedávno v krátké době zahrnuty věty ze dvou různých významných otevřených zdrojů – napřed věty vysbírané ze zápisů zasedání Evropského parlamentu, a posléze věty vysbírané ze samotné české Wikipedie. Dohromady tyto zdroje zvětšily rozsah databáze vět ke čtení přibližně devadesátkrát. Toto by mělo ve výsledku přinést výraznější pestrost nahrávek sesbíraných v rámci projektu.

Proč je to důležité?

Až do této doby bylo v databázi Common Voice pouze přibližně 6 tisíc českých vět, a přitom bylo pořízeno již přes 27 hodin zvukových záznamů. To znamená, že každá věta byla zaznamenána přibližně třikrát, což je ovšem z hlediska kvality výsledné databáze pro trénování systémů rozpoznávání hlasu velmi neideální (dochází pak k tzv. přetrénování). Toto rozšíření umožní opět nahrávat každou větu pouze jednou a tím zvýšit kvalitu databáze.

Připravované cílené segmenty

V současné době se připravují první cílené segmenty umožňující aktivní sběr hlasových dat přímo pro konkrétní použití. Jedním z takovýchto segmentů již spuštěných v některých jazycích je sběr dat pro Firefox Voice – projekt umožňující ovládání prohlížeče Mozilla Firefox prostřednictvím hlasu. Práce na spuštění tohoto segmentu pro češtinu již byla zahájena, stále ovšem čeká na schválení.

Blížící se vydání

Koncem června je plánováno nejbližší vydání datasetu Common Voice, mimochodem první vůbec zahrnující češtinu. Bude v něm obsaženo všech doposud 27 sesbíraných hodin záznamů, pokud byste však na poslední chvíli ještě chtěli pomoct s dalším rozšiřováním, čas máte až do 22. června. (Doporučujeme preferovat poslech a ověřování pro co možná nejpřímější přispívání do cílového datasetu) K 30. červnu by poté již dataset měl být volně ke stažení.