NETtalk

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

NETtalk ist ein künstliches neuronales Netz, das Mitte der 1980er Jahre von Terrence J. Sejnowski und Charles Rosenberg erstellt wurde und geschriebenen (englischsprachigen) Text in eine Codierung der Aussprache umwandelt (es werden also durch Sprachsynthese Grapheme in Phoneme umgewandelt).

NETtalk ist ein aus drei Schichten aufgebautes Multilagenperzeptron mit sieben Gruppen zu je 29 Neuronen in der Eingabe-, 80 Neuronen in der versteckten und 26 Neuronen in der Ausgabeschicht. Jede der Gruppen in der Eingabeschicht codiert einen Buchstaben des Eingabeworts (die 29 Neuronen entsprechen dabei den 26 Buchstaben des Alphabets und jeweils einem Neuron für Leerzeichen, Satzende und sonstiger Zeichensetzung), die vierte Gruppe repräsentiert dabei den Buchstaben, dessen zugehöriges Phonem das Netz ermitteln soll, die restlichen Gruppen stellen den für die korrekte Ermittlung unerlässlichen Kontext der drei vorhergehenden bzw. nachfolgenden Buchstaben dar.

Zum Training des Netzes wurden korrekte Graphem-Phonem-Kombinationen verwendet, es handelt sich also um eine Methode des überwachten Lernens.

Nach 50 Trainingsdurchläufen auf einem Datensatz von 1024 Wörtern erreichte das Netz eine Genauigkeit von 95 % auf den Trainings- und 78 % auf den Testdaten.

In den 1980er Jahren stellte NETtalk eine der aufsehenerregenden Anwendungen dar, die viele Wissenschaftler wieder dazu brachte, Forschung im Bereich des Konnektionismus durchzuführen. Kritiker bezweifeln allerdings, dass dies an der Qualität der Architektur lag (ähnliche Erfolge konnten auch mit 'herkömmlichen' Programmen erzielt werden). Vielmehr wird auf die Präsentation des Lernvorgangs des Netzes verwiesen: Die vom Netz ausgegebenen Phoneme wurden als gesprochene Sprache ausgegeben, das Programm begann also mit unverständlicher Aneinanderreihung von Lauten und verbesserte sich allmählich zu verständlicher Sprache. Darüber hinaus wurde für diese Präsentation eine Stimme mit hoher Tonlage verwendet, so dass sich für die Zuhörer der Eindruck ergab, ein Kind lerne zu sprechen.