Suchmaschinen
Digitalwelt wird von Lesern unterstützt; über die Links auf unserer Site verdienen wir teilweise an Affiliate-Provisionen. Mehr dazu

Was dürfen Suchmaschinen?

Bad Robot

Dr. William Sen

von Dr. William Sen
SEO-Experte seit 2001 | blue media marketing, Inc.

blue media marketing

Suchmaschinen dürfen nur Inhalte erfassen, die von dem Website-Betreiber zugelassen sind. Hierfür sorgt ein technischer Standard, den es von allen Suchmaschinen zu beachten gilt. In Deutschland ist dies für die Suchmaschinenbetreiber Pflicht, wenn sich die Server in Deutschland befinden und damit zugleich in deutschem Rechtsgebiet. Doch welche Suchmaschine hat schon seinen Sitz in Deutschland und wann wird dieser Fakt einfach ignoriert?

Setzt man hinter einer URL den Zusatz „/robots.txt“, erscheint eine für viele nicht verständliche Art von Text (zum Beispiel unter „www.heise.de/robots.txt“, einem der größten Newsportale des Heise Verlags und dem Herausgeber des bekanntesten Computerfachmagazins namens „c’t“). Hierbei handelt es sich um den sogenannten „Robots Exclusion Standard“. Diese Datei kann ein Website-Betreiber gewöhnlich mit einem Texteditor wie Notepad bearbeiten und unter seinem Webspace einfügen bzw. uploaden. Der Website-Betreiber hat in der robots.txt die Möglichkeit, den Suchmaschinen mitzuteilen, welche Inhalte sie indexieren dürfen und welche nicht.

Daneben kennt die robots.txt eine Fülle von weiteren Geboten und Verboten, die man Suchmaschinen mitteilen kann. So kann der Website-Betreiber zu Beispiel bestimmten Suchmaschinen die Indexierung ganz verbieten, während er anderen Tür und Tor öffnet. Möglich macht diese Einschränkung die besondere Fähigkeit der Suchmaschinen, sich mit Hilfe des sogenannten „Robot Identifier“ bei der Website als Suchmaschine erkenntlich zeigen zu können, sobald sie dort indexieren. Der „Robot Identifier“ ist wie die eigene Visitenkarte oder der Fingerabdruck der Suchmaschine und wird jedes Mal an den Web-site-Betreiber übermittelt, wenn die Suchmaschine auf seine Website zugreift. Sehen kann der Administrator meist in den Webstatistiken, wann welche Suchmaschine auf seiner Website war. Außerdem hat er die Möglichkeit zu erfahren, auf welche Unterverzeichnisse bzw. Webpages die Suchmaschine zugegriffen und auch mit welchem Tempo sie Daten indexiert hat. Zeigt beispielsweise eine Suchmaschine aus einer sehr hohen Bandbreite an einer Website Interesse und indexiert dort Inhalte mit einer außergewöhnlichen Geschwindigkeit, kann das für Website-Betreiber so belastend sein, dass die Website gar nicht mehr aufgerufen werden kann. Denn je mehr Traffic eine Suchmaschine auf der eigenen Website verursacht, desto weniger Bandbreite bleibt für die echten Nutzer. Auch hier vermag ein Website-Betreiber durch die Anweisung in der robots.txt gegenzusteuern: Mit dem „delay“-Befehl kann er bestimmte Suchmaschinen anweisen, dass sie nur in vorher definiertem Rhythmus indexieren sollen. Eine Order kann zum Beispiel sein, dass der Robot eine Page nur alle 10 Sekunden indexieren darf, was die Website merklich entlastet.

Müssen allerdings Suchmaschinen der robots.txt auch Folge leisten? Nein. Beim robots.txt von heise.de beispielsweise ist deutlich zu sehen, dass sie zwar allen anderen Suchmaschinen, aber nicht Google verbietet, ihre Foreninhalten zu indexieren. Und sucht man über Forensuchmaschinen die Inhalte von heise.de, tauchen Forenbeiträge dort trotzdem auf. Die Forderung von heise.de an die Robots, die Finger von den Inhalten zu lassen, wird also ignoriert.

Möglich ist eine „illegale“ Indexierung ohne Probleme. Schließlich ist die robots.txt keine technische Sperre, sondern lediglich eine Anweisung an den Robot der Suchmaschine. Der Website-Betreiber geht zunächst davon aus, dass Suchmaschinen seriös genug sind und fairerweise diese Anweisungen beachten.

Es sind vor allem diejenigen Suchmaschinen, die nicht im Rampenlicht der Öffentlichkeit stehen, die es sich nicht erlauben können, sich der robots.txt zu widersetzen. Während die großen bekannten dem auch Folge leisten, hat sich die große Mehrzahl der Suchmaschinen jedoch dazu entschlossen, solche Inhalte trotzdem zu erfassen. Immerhin kann man zumindest auf diese Weise einen Mehrwert gegenüber Riesen wie Google erzeugen. Somit gibt es auch im Ausland eine Menge weiterer Suchmaschinen, die beträchtliche Marktanteile besitzen. In Ländern wie China beispielsweise ist die Suchmaschine Baidu führend und wird primär als Suchmaschine benutzt. Yandex ist eine russische Suchmaschine, die dort fast 50 Prozent Marktanteile besitzt. In Japan findet ebenfalls Google kaum Verwendung und in Südkorea beherrscht die Suchmaschine Naver mit acht weiteren den asiatischen Markt. Der Erfolg dieser Suchmaschinen ist darauf zurückzuführen, dass sie noch vor Google in die jeweiligen Landessprachen investiert haben. Hinzu kommt der hohe örtliche Bekanntheitsgrad der landeseigenen Suchmaschinen. Und in all diesen Ländern hat das deutsche Urheberrecht im Grunde keinerlei Bedeutung.

Baidu

Die größte Suchmaschine in Asien ist Baidu

Doch nicht nur ausländische Suchmaschinen sind weltweit im Einsatz, sondern auch eine Vielzahl spezialisierter Suchmaschinen in verschiedenen Bereichen. Knapp 20 Metasuchmaschinen gehören neben Google und Yahoo zu den weltweiten Marktführern, von weiteren hunderten Metasuchmaschinen ganz zu schweigen, die mehr oder weniger bekannt sind. Hinzu kommen geographische und medizinische Suchmaschinen, Wirtschafts-, Job-, Nachrichten-, Personen-, Preisvergleichs-, Blog-, Foren- sowie Multimediasuchmaschinen und viele mehr. Alle greifen sie auf gewöhnliche Webinhalte zu und suchen sich dort die für sie relevanten Informationen. Eine Preissuchmaschine entert dabei ausschließlich Shops, während Personensuchmaschinen explizit in einer Website nach personenbezogenen Daten Ausschau halten. Im Gegensatz zu den sogenannten allgemeinen Suchmaschinen wie Google, suchen solche speziellen Suchmaschinen also nach den gewünschten und speziellen Inhalten und erheben nicht den Anspruch, den gesamten Inhalt aufzeichnen zu müssen. Viele dieser spezialisierten Suchmaschinen sind bekannt dafür, die robots.txt zu ignorieren.

Wehren können sich Website-Betreiber gegen diesen Zugriff von Robots und dem Ignorieren ihrer Anweisungen kaum. Zwar können sie die IP der Robots der jeweiligen Suchmaschinen sperren. Die meisten Suchmaschinen, die allerdings wissentlich die robots.txt ignorieren, sind gegen solche Sperren gewappnet und vermögen derartige Hindernisse mit zahlreichen technischen Tricks problemlos zu überwinden.

Aus rechtlicher Sicht ist die Indexierung einer Website ohne die Zustimmung des Website-Betreibers jedoch kritisch. Denn der Betreiber einer Website hat auf Struktur und Inhalt seiner Site ein Urheberrecht. Dies gilt auch dann, wenn er selber nicht Urheber der einzelnen Inhalte ist, wie beispielsweise in einem Presseportal.

Laut eines Urteils aus den Anfängen des Webs haben Suchmaschinen das Recht, auch ohne die direkte Erlaubnis des Web-site-Betreibers Inhalte zu indexieren. Dabei wird von einem konkludierenden Einverständnis des Betreibers ausgegangen, da man voraussetzt, dass eine Erfassung durch Suchmaschinen in seinem Interesse liegt und er gefunden werden möchte. In diesem Urteil fand allerdings frühzeitig indirekt auch die robots.txt Erwähnung. Denn es besagt, dass die Erfassung von Websites ohne die Erlaubnis des Website-Betreibers nur dann gelte, wenn dem Betreiber die technische Möglichkeit gegeben werde, der Indexierung zu widersprechen. Dazu solle er beispielsweise einen Passwortschutz benutzen – oder eben mit der robots.txt den Suchmaschinen entsprechende Anweisungen geben.

Suchmaschinen-Bot

Dieses Urteil und das deutsche Urheberrecht sind bindend. Trotzdem hindern beide viele Suchmaschinen nicht daran, Websites trotzdem zu indexieren: Wer an Daten kommen möchte und sein Geschäftsmodell darauf aufbaut, greift auf die Inhalte einfach aus einem anderen Land zu, wo das deutsche Urheberrecht keine Geltung hat. So gibt in den USA das Urteil beispielsweise nicht und auch das Urheberrecht unterscheidet sich merklich von unserem Rechtsverständnis.

Im Grunde nehmen solche Suchmaschinen in Deutschland eine Urheberrechtsverletzung vor, da die Inhalte über das Web und somit auch aus Deutschland erreichbar sind. Deutsche Internetprovider könnten theoretisch die Sperrung und Zensierung von URLs vornehmen, die gegen das deutsche Gesetz verstoßen. In der Praxis finden beide Vorgänge jedoch sehr selten und nur bei schwerwiegenden Fällen bzw. bei verfassungswidrigem Inhalten statt. Denn Zensuren werden in Deutschland stark kritisiert. Aus Urheberrechtsgründen Inhalte zu sperren, kann innerhalb weniger Stunden zu gewaltigen Shitstorms innerhalb der Netzcommunity führen. Die Diskussion um Netzneutralität und Freiheit der Information, die in Deutschland sehr große Befürworter haben, steht im Widerspruch zu dem gleichzeitig verlangten hohen Datenschutz. Abgesehen davon wäre die Kontrolle für Suchmaschinen nahezu unmöglich, denn zu der bereits riesigen Zahl an Suchmaschinen kommen ständig neue hinzu. Es wäre dann Aufgabe des Providers zu prüfen, welche Inhalte nun aufgrund des robots.txt gegen das Urheberrecht verstoßen. Eine unmögliche Aufgabe.

Bereits die kleinste Änderung an der robots.txt kann eine gesamte Suchmaschine legal bzw. illegal werden lassen. Daran lässt sich auch die Schwäche erkennen, die sowohl Recht als auch Urteil an dieser Stelle heute noch haben. Ferner wäre es gar nicht möglich, nur einzelne Inhalte zu sperren, es müssten dann ganze Suchmaschinen mit Milliarden von Inhalten der deutschen Bevölkerung vorenthalten werden, weil beispielsweise gegen das deutsche Urheberrecht eines einzigen Betreibers verstoßen wird, während dieses Recht in der übrigen Welt keine Bedeutung hat. Derartige Diskussionen sind dann für Juristen eine rechtliche Spielwiese, während sich philosophische Grundgedanken der Informationsfreiheit und gesellschaftliche Grundsatzdiskussionen um das öffentliche Interesse in die Debatte mit einbeziehen.

Der Fall „robots.txt“ gilt als ein ganz besonderer im deutschen Recht und ist einer der vielen Punkte, dem sich der Gesetzgeber in Zukunft noch wird widmen müssen. Immerhin gehört das deutsche Urheberrecht auch heute noch zu den am häufigsten geänderten Gesetzen, weil es nun einmal den Veränderungen in der Internettechnologie weit hinterherhängt. Die Innovationen, der Wachstum und die Veränderungen der Technologie sind schneller, als der Gesetzgeber in der Lage ist, sich ad hoc anzupassen. Aber das ist eine andere Geschichte …


Dr. William Sen

Dr. William Sen
SEO-Experte seit 2001 bei blue media marketing

blue media marketing

Dr. William Sen ist SEO seit 2001 und arbeitet für blue media marketing, Inc. in San Diego, Kalifornien. Bis heute (2024) betreute und verwaltete er in seiner Laufbahn SEO-Kampagnen und internationale Websites von kleinen, mittelständischen und großen Unternehmen, darunter Marken wie Procter & Gamble, Ford und Expedia.


Letzte Artikel über SEO ALLE ARTIKEL ANSCHAUEN
Letzte Artikel über Social Media ALLE ARTIKEL ANSCHAUEN

1 comment for “Was dürfen Suchmaschinen?

  1. Diana,
    8. Dezember, 2017 um 12:03

    Hallo,

    ist statt dem Auschluß über die robots.txt nicht die Meta Angabe „noindex“, wenn bestimmte Suchergebnisse nicht indexiert werden soll? Die robots.txt verbietet zwar das Crawling, aber sie nützt ja nicht mehr viel, wenn die Inhalte bereits im Index sind. Dann weiß die Suchmaschine ja gar nicht, dass die Seite aus dem Index entfernt werden soll. Siehe hier: onlinesolutionsgroup.de/blog/glossar/n/noindex/
    In dem Fall bleibt die Seite in den Suchergebnissen mit der unschönen Angabe „über robots.txt gesperrt“.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

* Please select reCAPTCHA