Thematische Suche

Als thematische Suche (engl. „Topic Search“ oder „Thematic Search“) wird im Bereich der Informationstechnologie eine spezielle Form der semantischen Suche bezeichnet, bei der die Nutzer im Web, in einer digitalen Bibliothek oder in einem lokalen Archiv nach Dokumenten suchen, die sich mit einem bestimmten Thema beschäftigen.

Hintergrundwissen

Beispielsweise können Benutzer daran interessiert sein, alle Dokumente zum Themenbereich „Herzkrankheiten“ (oder „Kriminalität“, „Astronomie“, „Nachkriegszeit“ etc.) zu finden. Suchmaschinen, die rein „stichwortbasiert“ arbeiten, können solche Dokumente nur dann finden, wenn das erwünschte Thema selbst wörtlich als Begriff im Text auftritt. Dies ist jedoch oft nicht der Fall: Viele interessante Texte behandeln einen speziellen Bereich oder Teilaspekt des betrachteten Themas, ohne dieses explizit zu nennen. So liefert ein Fachartikel über Vorhofflimmern interessante Informationen zu den Themen „Gesundheit“ oder „Herzkrankheiten“, auch wenn diese Wörter selbst im Text nicht auftreten. Ähnlich gehört ein Bericht über Galaxien zum Themenbereich „Astronomie“, auch wenn dieser Begriff nicht erwähnt ist. Übliche Volltext-Suchmaschinen sind nicht in der Lage, automatisiert Stichwörter dazugehörigen Themen zuzuordnen. Viele themenrelevante Dokumente werden darum schlicht nicht gefunden. Bessere Möglichkeiten bieten spezielle Suchtechniken und -Umgebungen, die thematische Zusammenhänge zwischen unterschiedlichen Begriffen systematisch erfassen und bei der Beschreibung von Dokumentinhalten im Suchindex und bei der Beantwortung von Nutzeranfragen mit berücksichtigen.

Die thematische Suche überträgt die durch Systematiken und Kataloge geprägte traditionelle Bibliothekssuche auf die computergesteuerte Welt digitaler Archive, Bibliotheken, Foren und Plattformen und erweitert und bereichert diese mit neuen Interaktionsformen. Fast alle Formen der Recherche in elektronischen Textbeständen, die über eine reine Stichwortsuche hinausgehen, stellen eine Form der thematischen Suche dar, wobei eine Kombination mit stichwortbasierter Suche durchaus sinnvoll sein kann. Beispielsweise mag es für einen Konzern interessant sein, alle Meldungen zum Themenbereich „Umwelt“ zu finden, in denen er erwähnt ist. Eine politische Partei könnte sich dafür interessieren, in welchen Presseartikeln zum Thema „Internet“, „Wirtschaft“ oder „Sozialbereich“ sie genannt wurde, und welche Artikel zum selben Themenbereich andere Parteien erwähnen. Ist der Zusammenhang zwischen Dokumenten und den dort auftretenden Themen in einer Suchmaschine elektronisch erfasst, so kann den Nutzern ein Überblick angeboten werden, welche Themen mit welcher Relevanz im erfassten Dokumentenbestand auftreten, interessante Dokumente können dann durch Navigation in Themenhierarchien gefunden werden. Eine Spezialform dieses visuellen thematischen Zugriffs stellen thematische „Tag Clouds“ (s. u.) dar. Sind die Meldungen oder Dokumente – wie bei Nachrichtenkollektionen – überdies mit Zeitstempeln versehen, so kann auch der zeitliche Verlauf der Wichtigkeit der Themen dargestellt werden. Je mehr im Hinblick auf die Nutzerinteressen die Gewinnung eines Überblicks, die Analyse vorhandener Themen unter verschiedenen Blickwinkeln und das Erkennen von Beziehungen zwischen Themen, unterschiedlichen Dokumenten und Quellen in den Vordergrund rücken, desto weniger stellt die Interaktion eine „Suche“ im eigentlichen Sinn dar, allgemeiner kann man daher von einem „thematischen Zugriff“ auf Inhalte sprechen.

Thematische Verschlagwortung, Tagging und Begriffswolken

Um eine thematische Suche zu ermöglichen, werden Beiträge und Artikel in vielen Internetforen manuell nach Themen verschlagwortet und mit Tags versehen. Beim „Social Tagging“ vergeben die Benutzer selbst die Tags. Oft werden den Nutzern zur visuellen Navigation im Dokumentenbestand dann „Tag Clouds“ präsentiert, die häufig vergebene Themen anzeigen. Das Anklicken eines Themas führt dann auf relevante Dokumente. Sofern alle Dokumente mit einer ausreichenden Anzahl qualitativ guter Tags versehen sind, ergibt sich dadurch eine interessante und intuitiv leicht verständliche Form der thematischen Suche. In der Praxis erweist sich die manuelle Verschlagwortung aber auch oft als unzureichend, da viele Dokumente ungetaggt bleiben. Werden dennoch Tag Clouds eingesetzt, bleibt das Ergebnis meist hinter den Erwartungen zurück.

Um von manuell vergebenen Labels unabhängig zu sein und alle Texte mitzuberücksichtigen, stellen primitivere Arten von Begriffswolken lediglich die häufigsten oder auffallendsten Begriffe der zugrundeliegenden Textsammlung dar. Hierbei werden dann allerdings nur Begriffe erfasst, die wörtlich im Text auftreten. Unterschiedliche Begriffe, die häufig gemeinsam auftreten, werden in den Wolken näher zueinander platziert. Das hierdurch vorgespielte „Weltwissen“, das den Zufälligkeiten der Dokumentkollektion entspringt, entpuppt sich bei näherer Betrachtungsweise jedoch oft als fragwürdig.

Eine vollautomatische thematische Verschlagwortung und Annotation von Dokumenten, die auf echtem Weltwissen beruht, ist mit höherem Aufwand verbunden. Sie kann durch die Verwendung spezieller semantischer Netze mit computerlinguistischer Fundierung erreicht werden. In solchen Netzen werden Stichwörter, Namen und Phrasen explizit thematischen Bereichen zugeordnet, wobei diese in Gestalt einer umfangreichen Themenhierarchie nach Ober- und Unterthemen geordnet sind. Mit dem Auftreten der Stichwörter in den Texten werden dann unter Rückgriff auf das im Netz gespeicherte Wissen auch die Themen der Dokumente erkannt. Um allgemein anwendbar zu sein, müssen erfasste Stichwörter und die Themenhierarchie eine enzyklopädische Abdeckungsbreite haben. Es gibt im Internet bereits Services zur vollautomatischen thematischen Verschlagwortung von Textdokumenten, die auf diesem Prinzip beruhen.

Literatur

Gabrilovich, Markovitch: Computing Semantic Relatedness Using Wikipedia-based Explicit Semantic Analysis. Januar 2007, S. 1606–1611 (Online).
Strube, Ponzetto: WikiRelate! Computing Semantic Relatedness Using Wikipedia. Juli 2006 (Online).
Chernov, Iofciu, Nejdl, Zhou: Extracting Semantic Relationships between Wikipedia Categories. Oktober 2013 (Online).
Brunner: Intelligente semantische Netze im Bereich Textklassifikation. Meidenbauer, 2009, ISBN 978-3-89975-693-7.
Zesch, Müller, Gurevych: Using Wiktionary for Computing Semantic Relatedness. Januar 2008.
Schulz: Der thematische Zugang zu Archiven und Dokumentbeständen – Grundprinzip und erweiterte Recherchemöglichkeiten. (PDF; 637 kB) Abgerufen am 1. Januar 2013.
Ringlstetter: Pimp my ECM – thematische Suche für intelligentes ECM. (PDF; 313 kB) Abgerufen am 1. Januar 2013.

Weblinks

Thematische Suche

Inhaltsverzeichnis

Hintergrundwissen

Thematische Verschlagwortung, Tagging und Begriffswolken

Verwandte Verfahren

Literatur

Weblinks

Navigationsmenü