Duplicate Content

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Duplicate Content (engl. für „doppelter Inhalt“) bezeichnet die Darstellung von gleichem Inhalt auf verschiedenen Webseiten. Dies gilt sowohl für Webseiten der gleichen als auch unterschiedlichen Domains.

Suchmaschinen filtern Duplicate Content heraus oder bewerten ihn zum Teil sogar negativ.[1] Das Gegenteil von Duplicate Content stellt der Unique Content dar.

Duplicate Content kann entstehen, wenn mehrere URLs den gleichen Inhalt anzeigen. Dies kann beispielsweise so sein, wenn an eine URL noch GET-Parameter in unterschiedlicher Reihenfolge angehängt werden: www.example.com/index.php?a=1&b=2 und www.example.com/index.php?b=2&a=1 liefern normalerweise identische Seiten, sind aber verschiedene URLs. Suchmaschinen sehen also zwei Adressen, die dieselben Inhalte haben und werden bei entsprechenden Suchanfragen nur eine dieser Seiten anzeigen.

Eine weitere, häufig anzutreffende Form von Duplicate Content entsteht bei der Verfügbarkeit einer Webseite unter Angabe der www-Subdomain, wenn die Webseite gleichzeitig auch ohne diese Angabe erreichbar ist (also zum Beispiel http://www.example.com/ und http://example.com/). Dieses Problem tritt dabei in der Regel auf jeder einzelnen Unterseite einer Website automatisch auf.

Als Lösung bietet sich die Einrichtung einer Weiterleitung an, so dass zum Beispiel der Aufruf von http://www.example.com/ zu http://example.com/ weiterleitet. Dazu sollte http://www.example.com/ den HTTP-Statuscode 301 ausliefern, so dass die Webcrawler der Suchmaschinen die Weiterleitung erkennen.

Mit dem Canonical Link kann man für die Suchmaschine angeben, unter welcher URL die „Original“-Seite liegt. Die Verwendung dieses Tags bietet sich immer dann an, wenn die Erreichbarkeit über verschiedene URLs zwingend nötig ist, wie z. B. die Druckversionen einer Webseite, falls dafür nicht einfach CSS Media Queries, sondern separate Seiten verwendet wurden. Canonical-Tags lassen sich sowohl für HTML-Webseiten als auch für Nicht-HTML-Webseiten wie beispielsweise Office- oder PDF-Dokumente erstellen. Allerdings muss im letzteren Fall über die Konfiguration des Webservers dafür das Canonical-Tag in den HTTP-Header eingebaut werden. Zur Vermeidung von Problemen bei der Paginierung wird mit den RDFa-Tags rel="next" und rel="prev" gearbeitet, die die Beziehung zwischen einer Hauptkategorieseite und den Paginationsseiten herausstellen.[2]

Google unterscheidet zwischen böswillig und nicht böswillig dupliziertem Content. Zu nicht böswillig dupliziertem Content gehören beispielsweise eine Doppelung aufgrund verschiedener URLs für verschiedene Endgeräte, Lagerartikel, die über mehrere eindeutige URLs angezeigt bzw. referenziert werden oder Druckversionen von Webseiten. Doppelter Content kann jedoch unter bestimmten Bedingungen Probleme bei Google verursachen: „Gelegentlich wird Content jedoch bewusst auf verschiedenen Domains dupliziert mit der Absicht, das Ranking bei Suchmaschinen zu beeinflussen oder mehr Zugriffe auf sich zu ziehen. Derart unfaire Verhaltensweisen können zu einer negativen Nutzererfahrung führen, da den Besuchern im Grunde derselbe Content in einer Reihe von Suchergebnissen angezeigt wird.“[1]

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. a b Google: Duplizierter Content. Abgerufen am 23. November 2017.
  2. Seitennummerierung (Memento des Originals vom 16. Mai 2013 im Internet Archive)  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/support.google.com, Google Webmaster-Tools