Volltextindexierung
Volltextindexierung ist die (automatische) Erfassung sämtlicher Wörter eines Textes in einem Index. Ausgenommen davon sind in der Regel Stoppwörter.
Volltextindexierung wird entweder ergänzend zu intellektuell vergebenen Deskriptoren eingesetzt oder dient gänzlich als Ersatz für ein intellektuelles Ordnungssystem.
Ein populärer Irrglaube ist, dass automatisch erstellte Volltextindizes grundsätzlich besser sind als von Menschen erstellte Ordnungssysteme (intellektuelle Ordnungssysteme). Allerdings können Volltextindizes verwendet werden, wenn Zeit und Geld für ein funktionierendes Ordnungssystem fehlen. Volltextindizes fungieren, selbst wenn gepaart mit Ranking-Algorithmen, im Allgemeinen als wenig passable Retrieval-Werkzeuge und eher als Unterstützung von intellektuellen Ordnungssystemen. So hat zum Beispiel Google ein Verfahren entwickelt, bei dem mit Hilfe von Webcrawlern die gefundenen Links durchsucht und in den Suchindex aufgenommen werden. Dabei werden die Seiten nach Suchbegriffen und Schlüsselwörtern aufgegliedert.
Vorteile
[Bearbeiten | Quelltext bearbeiten]Indexierung mittels Volltextindexierung hat eine Erhöhung der Trefferquotes eines Retrievalsystems zur Folge, zumal dadurch im Normalfall die Anzahl der Stichwörter höher ist.
Der Rechercheur kann prinzipiell ohne Kenntnis des Ordnungssystems suchen.
Der Volltextindex kann als Ergänzung zu einem intellektuellen Ordnungssystem dienen.
Nachteile
[Bearbeiten | Quelltext bearbeiten]Die Treffergenauigkeit eines Retrievalsystems geht durch den Einsatz von Volltextindizierung enorm zurück. Wird ein Begriff in einem Text nur am Rande erwähnt, ist das Dokument trotzdem unter diesem zu finden.
Die Suche im Volltextindex dauert länger, da Volltextindizes inhärent größer sind als intellektuell erstellte. Das mag, auf eine einzelne Suche bezogen, zwar im Bereich von Bruchteilen von Sekunden liegen, ist aber mit steigender Nutzerzahl eines Retrievalsystems nicht mehr zu vernachlässigen.
Weblinks
[Bearbeiten | Quelltext bearbeiten]- Minimalbeispiel einer Volltextindexierung eines Textdokuments innerhalb eines Suchprogramms anhand des Python Moduls Whoosh