Der Fire­fox-Her­steller Mozil­la hat Audio­dat­en pub­liziert, um die Entwick­lung von Spracherken­nungssys­te­men zu fördern.

Die als Her­steller des pop­ulären Inter­net-Browsers Fire­fox bekan­nte Mozil­la Foun­da­tion arbeit­et an einem frei zugänglichen Sys­tem zur Spracherken­nung, das sich Deep Speech nen­nt. Für die Dat­en, um die Sprache-zu-Text-Engine zu trainieren, sorgt die gemein­nützige Organ­i­sa­tion mit dem flankieren­den Crowd­sourc­ing-Pro­jekt Com­mon Voice, zu dem jed­er Inter­net­nutzer mit sein­er Stimme beitra­gen kann.

Die so gesam­melten Audio­dat­en hat Mozil­la nun voll­ständig öffentlich gemacht. Nach Angaben der Stiftung umfasst die Daten­bank fast 1400 Stun­den aufgeze­ich­neter Sprach­dat­en von mehr als 42 000 Mitwirk­enden. 18 ver­schiedene Sprachen sind bere­its vertreten. Der Daten­satz ist laut Mozil­la nun «der grösste sein­er Art».

 

Grösster Datensatz menschlicher Stimmen

Den riesi­gen Satz an tran­skri­bierten Sprach­dat­en sollen Forsch­er, Star­tups und «alle anderen, die sich für sprachgestützte Tech­nolo­gien inter­essieren» nutzen kön­nen. Com­mon Voice enthält Sprach­beiträge in Englisch, Franzö­sisch, Deutsch und Man­darin, aber beispiel­sweise auch in Wal­i­sisch und Kabylisch. Mozil­la strebt dabei die grösst­mögliche Vielfalt an Stim­men an, damit in Zukun­ft jed­er mit Com­put­ern sprechen könne und auch ver­standen werde.

Laut eige­nen Angaben wur­den die Sprach­dat­en bere­its tausend­fach herun­terge­laden und für kom­merzielle Spracherken­nung­spro­duk­te genau­so wie von Open-Source-Soft­ware genutzt. Mit­tler­weile kann der Daten­satz auch mit Sprach-Sam­ples in Nieder­ländisch, Hakha Chin, Esperan­to, Far­si, Bask­isch und Spanisch gefüt­tert wer­den. Ausser­dem arbeit­et Mozil­la am Launch von 70 weit­eren Sprachver­sio­nen.

Beispiel­sweise kooperiert die Organ­i­sa­tion seit kurzem auch mit der Deutschen Gesellschaft für Inter­na­tionale Zusam­me­nar­beit (GIZ), um einen Sprachko­r­pus für Kin­yarwan­da zu erstellen. So soll es Entwick­lern in Rwan­da ermöglicht wer­den, Open-Source-Sprachtech­nolo­gien in ihrer eige­nen Sprache zu entwick­eln.

 

Freies System zur Spracherkennung

Die Mozil­la Foun­da­tion ist eine amerikanis­che Non­prof­i­tor­gan­i­sa­tion, die zur Unter­stützung kosten­los­er Soft­ware im Jahr 2003 ins Leben gerufen wurde. Das Deep-Speech-Sys­tem wurde in ein­er ersten Ver­sion Ende 2017 veröf­fentlicht und soll eine frei zugängliche Alter­na­tive zu Voice-Recog­ni­tion-Sys­te­men wie Siri oder Alexa bieten, mit denen die grossen Tech-Konz­erne den Markt beherrschen.

Die Engine der freien Spracherken­nung wird laut Mozil­la bere­its auch von anderen Organ­i­sa­tio­nen einge­set­zt – etwa im Pro­jekt Mycroft, einem sprach­basierten Open-Source-Assis­ten­ten.

Quelle: www.nzz.ch

Kostenlos - eBook digitale Kompetenz

digitalexpert-logo-newExklusiv bei digitalexpert.ch

Jetzt kostenlos bestellen:
Exklusiv bei digitalexpert.ch - eBook digitale Kompetenz

Ihre E-Mail-Adresse (Pflichtfeld)

Ich wünsche jeweils über neue kostenlose eBooks informiert zu werden

digitalexpert-logo-newExklusiv bei digitalexpert.ch

Jetzt kostenlos bestellen:
Exklusiv bei digitalexpert.ch — eBook digital comptence (english)

 

Ihre E-Mail-Adresse (Pflichtfeld)

Ich wünsche jeweils über neue kostenlose eBooks informiert zu werden