Diskussion:Named-entity recognition
Letzter Kommentar: vor 6 Jahren von PlusMinuscule in Abschnitt Vorschläge für Erweiterungen
Vorschläge für Erweiterungen
[Quelltext bearbeiten]Ich möchte vorschlagen, den Artikel zu erweitern, bezüglich folgender Punkte:
- Einfügen eines kleinen Beispieltexts mit Eigennamen annotiert.
Ein ganz unverbindlicher Vorschlag für den Text: `Max Mustermann war von 2000 - 2010 Präsident von Fantasialand.` Man könnte darin die Entitäten 'Max Mustermann' (Person), '2000' (Datum/Zeitangabe), '2010' (Datum/Zeitangabe) und 'Fantasialand' (Land/Nation/Organisation?) finden.
Hierbei könnte auch darauf eingegangen werden, dass es nicht die eine und einzige feste Liste von Eigennamenkategorien gibt (Anzahl Kategorien und Granularität, siehe auch Kategorie für Fantasialand) und darauf hingewiesen werden, dass auch die Textsorte (Beiträge bei Twitter oder Kapitel eines Buches) eine Rolle bei der Art und Häufigkeit der auftretenden Eigennamen(kategorien) spielt.
Zudem ließe sich an diesem, oder einem anderen, Beispiel der Unterschied zwischen der Identifikation (Spanne von Zeichen) und der Klassifikation (Auswahl aus Eigennamenkategorien wie Person, Datum ...) verdeutlichen. - eventuell Erwähnung von domänenspezifischen Eigennamenkategorien (in der Biomedizin zB Gene, Proteine ...)
- Welche Ansätze für die automatische Eigennamenerkennung existieren?
Erwähnung von regelbasierten Ansätzen (reguläre Ausdrücke, Liste von Namen, ...) und probabilistischen Ansätzen (Conditional Random Fields, Long-Short-Term-Memory Neural Networks, ...) und Kombinationen von beiden. Dabei eventuell auch Unterscheidung zwischen der Betrachtung von NER als Sequenzklassifikation oder Klassifikation von Phrasen/Chunks.
Eventuell verbunden mit Links oder Hinweisen zu Software, die Eigennamen automatisch identifiziert und klassifiziert. - eventuell Erwähnung von Korpora, die mit Eigennamen annotiert sind. Gibt es ein Standard-Korpus für Eigennamenerkennung oder sehr häufig erwähnte/benutzte Korpora? (vielleicht auch zu subjektiv, domänenabhängig?)
- eventuell erwähnen, bei welchen Sorten Eigennamen die automatische Eigennamenerkennung aktuell noch Probleme bereitet?
- Verlinkung der Phrase F1 -Maß zu https://de.wikipedia.org/wiki/Beurteilung_eines_bin%C3%A4ren_Klassifikators#Kombinierte_Ma%C3%9Fe o.Ä.
Es wäre freundlich gegenüber weniger Computerlinguistik-Affinen, wenn es einen Hinweis geben würde, wo eine Erklärung zu dem Begriff zu finden ist oder eine Erklärung gleich mitgeliefert wird. - eventuell Erwähnung von neueren Konferenzen/Quellen als MUC (mittlerweile etwa zwei Jahrzehnte her)
Diese Punkte sind mir unter anderem aufgefallen, als ich den deutschen Artikel mit seinem englischen Pendant verglichen habe.