NER-Modell

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Das NER-Modell ist eine Methode zur Bestimmung der Genauigkeit von Live-Untertiteln im Fernsehen oder bei Veranstaltungen, welche mit Spracherkennung erstellt werden. Die drei Buchstaben stehen für number, edition error und recognition error. Sie ist eine Alternative zum traditionellen WER-Modell (Word Error Rate, Wortakkuratheit).

Das NER-Modell beinhaltet eine Formel zur Bestimmung der Qualität von Live-Untertiteln: ein NER-Wert von 100 heißt, dass der Inhalt vollkommen richtig wiedergegeben wurde. Zur Berechnung wird die Gesamtzahl der Wörter der Live-Untertitel genommen und davon die Editier- und die Erkennungsfehler (verursacht durch mangelhafte Spracherkennung) abgezogen. Diese Zahl wird durch die Gesamtzahl der Wörter der Live-Untertitelung dividiert und mal hundert multipliziert.

.

Dabei bedeutet

  • N (number) = Gesamtzahl der Wörter der Live-Untertitelung
  • E (Edition error) = Editierfehler
  • R (Recognition error) = Erkennungsfehler

In der Schweiz wird dieses Messverfahren beim öffentlichen Fernsehen bereits angewendet. Andere Länder haben auch Interesse signalisiert.

Das traditionell verwendete WER-Modell hingegen ist statischer, weil es einfach die wörtliche Abweichung des Gesagten vom Geschriebenen misst, ohne dabei zu berücksichtigen, dass es editierte Live-Untertitel geben kann.

  • Pablo Romero-Fresco: Subtitling through Speech Recognition: Respeaking. Manchester: St. Jerome 2011, ISBN 9781905763283