Když Mozilla spustila projekt Common Voice, ve kterém sbírá nahrávky pro vybudování otevřeného datasetu, na kterém bude moci kdokoli učit systémy pro převod řeči na text, ze všech stran jsme slyšeli stesky, že je projekt jen v angličtině.
Po pár měsících fungování se ale začal Common Voice připravovat na další jazyky. Už teď je celý přeložený do češtiny a ta bude s největší pravděpodobností jedním z prvních jazyků, které se v něm objeví. Aby se tak ale mohlo stát, je potřeba, aby Mozilla měla k dispozici dostatek vět, které nechá dobrovolníky předčítat.
Proto jsme v Mozilla.cz spustili web voice.mozilla.cz, na kterém právě takové věty sbíráme. Kromě samotného vložení vět oddělených na samostatné řádky můžete využít i nástroj pro cherry picking, tedy vybírání třešniček. Ten z dlouhého, souvislého textu sám vybere věty, které délkou a obsahem odpovídají tomu, co je potřeba pro Common Voice. Vy je poté jen zkontrolujete a odešlete.
K tomu, aby mohl začít sběr nahrávek, je potřeba alespoň 2 000 vět. Z toho už máme desetinu. Pokud nám chcete pomoci, nemusíte dlouze sedět a vymýšlet věty, stačí vzít třeba knihy, kterým vypršela autorská práva a publikuje je Městská knihovna v Praze, jejich text zkopírovat do nástroje pro cherry picking a jen odeslat vybrané třešničky. U všech textů je pouze nutné mít souhlas autorů k jejich publikaci pod licencí CC-0.
Charla napsal(a)
Michal Vašíček napsal(a)
davkol napsal(a)
Michal Vašíček napsal(a)
davkol napsal(a)