Text Engineering Software Laboratory

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
Tesla

Logo
Basisdaten

Entwickler Universität zu Köln
Betriebssystem plattformunabhängig
Programmier­sprache Java
Kategorie Natural language processing
Lizenz Eclipse Public License
tesla.spinfo.uni-koeln.de

Tesla (Text Engineering Software Laboratory, deutsch Labor zur Verarbeitung von Texten) ist eine Software, mit der reproduzierbare Experimente auf textuellen Daten durchgeführt werden können. Als textuelle Daten gelten dabei alle Arten von Daten, die sich durch eine Sequenz diskreter Einheiten darstellen lassen.

Tesla wird seit 2005 am Institut für Linguistik der Universität zu Köln (Abteilung Sprachliche Informationsverarbeitung) entwickelt und stellt eine Software-Umgebung für Wissenschaftler, die mit Texten arbeiten, zur Verfügung.

Der konzeptuelle Schwerpunkt des Frameworks liegt dabei auf experimenteller Daten- und Verfahrensanalyse; so werden Wissenschaftler dabei unterstützt,

  • etablierte ebenso wie neu entwickelte Verfahren auf diesen Texten anzuwenden und
  • die Experimente in einer Form zu dokumentieren, mit der sie nachvollzogen und wiederholt werden können.

Tesla ist als Komponentensystem in Java implementiert, das auf Basis einer Client-Server-Architektur realisiert wurde. Über den Eclipse-basierten Client kann der Nutzer Texte verwalten und Experimente entwerfen. Experimente bestehen aus dem zu analysierenden Ausgangsmaterial (einzelne Texte oder Textsammlungen) und Komponenten, die bestimmte Aufgaben der Textprozessierung (bspw. Tokenisierung, Part-of-speech-Tagging oder Sequenzalignment) übernehmen. Die Komponenten sind miteinander kombinierbar, wenn ihre Schnittstellen aufeinander abgestimmt sind. Schnittstellen der Komponenten sind die von ihnen erzeugten Ergebnisse, die als Annotationen mit den Rohdaten (Texte) verknüpft werden. Im Unterschied zu vergleichbaren Systemen wie UIMA sind die Ein- und Ausgabeschnittstellen von Tesla-Komponenten kaum restringiert, wodurch eine fein granulierte Komponenten-Kapselung ermöglicht wird, und es bspw. auch möglich ist, komplexe Datentypen (wie Graphen oder hochdimensionale Vektoren) als Annotationen zu verwenden.

Screenshot des Tesla-Clients mit geöffnetem graphischen Experiment-Editor
  • Jürgen Hermes, Stephan Schwiebert: „Classification of text processing components: The Tesla Role System.“ In: Fink, Lausen, Seidel und Ultsch: „Advances in Data Analysis, Data Handling and Business Intelligence“, Springer Verlag 2010 Abstract
  • Jürgen Hermes: „Textprozessierung: Design und Applikation.“ Dissertationsschrift, Universität zu Köln. PDF-Dokument
  • Stephan Schwiebert: „Tesla. Ein virtuelles Labor für experimentelle Computer- und Korpuslinguistik.“ Dissertationsschrift, Universität zu Köln. PDF-Dokument