Kosinus-Ähnlichkeit
Kosinus-Ähnlichkeit ist ein Maß für die Ähnlichkeit zweier Vektoren. Dabei wird der Kosinus des Winkels zwischen beiden Vektoren bestimmt. Der Kosinus des eingeschlossenen Nullwinkels ist eins; für jeden anderen Winkel ist der Kosinus des eingeschlossenen Winkels kleiner als eins. Er ist daher ein Maß dafür, wie ausgeprägt zwei Vektoren in die gleiche Richtung zeigen.
Typische Anwendungen finden sich im Vergleich von Dokumenten, von Multimedia-Objekten, im Textmining[1], im Data-Mining, im Auffinden von Plagiaten, bei Suchmaschinen oder in der Kryptographie bei der Entschlüsselung chiffrierter Texte. Durch Ermittlung der Kosinus-Ähnlichkeit der Zeichen-Platzierungsvektoren gelang 2011 die Entschlüsselung des Codex Copiale, eines Dokuments in Geheimschrift.
Im Englischen werden neben der wortwörtlichen Übersetzung „Cosine Similarity“ auch die Begriffe „Cosine Distance“, „Angular Cosine Distance“ und „Angular Cosine Similarity“ verwendet.[2]
Berechnung
[Bearbeiten | Quelltext bearbeiten]Der Winkel zwischen zwei Vektoren und kann mit dem Standardskalarprodukt und der euklidischen Norm hergeleitet werden. Unter Verwendung der verkürzten Schreibweise [A 1] gilt:
- .
Die Kosinus-Ähnlichkeit zweier Vektoren und ist der Kosinus des eingeschlossenen Winkels :
- .
Die Kosinus-Ähnlichkeit liegt zwischen −1 (genau entgegengerichtet) und 1 (genau gleichgerichtet). Ein Wert von 0 bedeutet üblicherweise Unabhängigkeit (Orthogonalität). Zwischenwerte zeigen Ähnlichkeit oder Unähnlichkeit an.
Bei Textvergleichen nimmt man als Attribut-Vektoren und üblicherweise Häufigkeits-Vektoren der Dokumente an, deren Gewicht nie negativ sein kann. Daher liegt die Kosinus-Ähnlichkeit in diesem Fall stets zwischen 0 und 1.
Siehe auch
[Bearbeiten | Quelltext bearbeiten]Anmerkungen
[Bearbeiten | Quelltext bearbeiten]- ↑ Vgl. hierzu die dahinterstehende p-Norm, die euklidische Norm stellt den Spezialfall mit p=2 dar.
Einzelnachweise
[Bearbeiten | Quelltext bearbeiten]- ↑ Amit Singhal: Modern Information Retrieval: A Brief Overview. In: IEEE Technical Committee on Data Engineering (Hrsg.): Bulletin of the Technical Committee on Data Engineering. Band 24, Nr. 4, Dezember 2001, S. 35–44, hier S. 36 unten bis 37 oben (englisch, Download [PDF; 424 kB; abgerufen am 12. November 2020]).
- ↑ COSINE DISTANCE – COSINE SIMILARITY – ANGULAR COSINE DISTANCE – ANGULAR COSINE SIMILARITY. National Institute of Standards and Technology (NIST), abgerufen am 7. November 2020 (englisch).