Was ist ein Webcrawler?

Definition Was ist ein Webcrawler?

12.04.2018Autor / Redakteur: Dipl.-Ing. (FH) Stefan Luber / Nico Litzel

Bei einem Webcrawler handelt es sich um ein Computerprogramm, das das Internet automatisch nach bestimmten Informationen durchsucht. Häufige Anwendung ist die Indexierung von Webseiten für Suchmaschinen. Es lassen sich aber auch andere Daten wie E-Mail-Adressen oder Produktinformationen mit einem Crawler sammeln.

Anbieter zum Thema

fsas-afc-horizontal-2-positive-rgb-nov24 (Fsas)

Fujitsu Technology Solutions GmbH

Disy Informationssysteme GmbH

Fivetran Germany GmbH

Webcrawler werden auch Searchbots, Spider oder Robots genannt. Der Begriff bezeichnet ein Computerprogramm, das in der Lage ist, das Internet automatisiert nach bestimmten Informationen und Daten zu durchsuchen. Die Daten lassen sich anschließend auswerten, nach vorgegebenen Kriterien sortieren und speichern.

Häufiger Anwendungsbereich von Webcrawlern ist die Indexierung von Webseiten für Suchmaschinen. Der Crawler findet und besucht Webseiten. Verschiedene Informationen über die Webseiten werden anschließend im Index gespeichert. Der Suchvorgang läuft weitgehend automatisch ab und wiederholt sich. Auch bereits gefundene Webseiten besucht der Crawler immer wieder, um Veränderungen festzustellen und den Index zu aktualisieren.

Nicht alle Informationen im Internet lassen sich durch Webcrawler erfassen. Daten, die sich hinter Suchmasken, in Datenbanken oder auf zugangsbeschränkten Portalen finden, erreicht der Crawler in der Regel nicht. Diese Bereiche des Internets bezeichnet man als Deep Web oder Hidden Web. Nach welchen Informationen ein Webcrawler im Internet sucht, hängt von seinem Einsatzzweck ab. Crawler können auch für das Sammeln von E-Mail-Adressen oder Produktinformationen wie Preisen verwendet werden.

Die Funktionsweise eines Webcrawlers

Ein Webcrawler führt seine Aufgaben wiederholt, kontinuierlich und nahezu komplett selbstständig aus. Der Crawler gelangt über einen Link auf eine Webseite und sammelt die gewünschten Informationen. Durch die auf den Webseiten gefunden Links ist er in der Lage, weitere Webseiten zu besuchen.

Der Crawler ruft die Seiten in einer programmierten Reihenfolge auf. Bereits besuchte Seiten werden nach einer bestimmten Zeit ebenfalls wieder angesteuert. Kommt der Crawler für die Indexierung von Webseiten zum Einsatz, fügt er die gefundenen Informationen nach genau definierten Regeln in den Index ein. Eine Internetseite ist anschließend unter bestimmten Suchbegriffen über die Suchmaschine auffindbar und in den Ergebnislisten aufgeführt.

Arten und Einsatzgebiete des Crawlers

Die klassische Aufgabe des Webcrawlers ist das Indizieren von Webseiten. Darüber hinaus ist der Crawler für andere Zwecke einsetzbar. Webcrawler suchen beispielsweise für Preisvergleichsportale speziell nach Produktdaten und Preisen, um sie anschließend auf dem Portal vergleichen zu können. Crawler können im Internet öffentlich bereitgestellte E-Mail-Adressen oder postalische Adressen sammeln und sie anschließend für Werbe- oder Marketingzwecke bereitstellen.

Weitere Einsatzbereiche von Crawlern sind das Sammeln von Nachrichten oder von statistischen Daten. Viele Crawler bewegen sich in einem rechtlichen Graubereich und missbrauchen gesammelte Daten. Beispielsweise kann die Nutzung von gesammelten E-Mail-Adressen für Werbezwecke rechtlich nicht zulässig sein. Einige Crawler durchsuchen das Internet gezielt nach urheberrechtlich geschützten Inhalten.

Schutz vor Webcrawlern

Damit eigene Internetseiten von Suchmaschinen auffindbar sind, ist der Besuch des Webcrawlers eines Suchanbieters prinzipiell erwünscht. In einigen Fällen sollen jedoch nicht alle bereitgestellten Seiten in den Index aufgenommen werden. Über eine auf dem Webspace hinterlegte Datei mit dem Namen robots.txt und über bestimmte Informationen im HTML-Header und in den Meta-Tags kann der Webseitenbetreiber mitteilen, welche Seiten zu indexieren sind. Ein Webcrawler kann diese Vorgaben unter Umständen ignorieren, wodurch die ausgeschlossenen Seiten dennoch im Index landen. Vor allem „bösartige“ Bots halten sich in der Regel nicht an die Vorgaben.

Sammelt ein Crawler unerwünscht E-Mail-Adressen einer Webseite, versuchen viele Webseitenbetreiber die E-Mail-Adressen so auf den Internetseiten zu hinterlegen, dass der Crawler diese nicht als E-Mail-Adresse erkennt. Die Adresse kann beispielsweise folgendermaßen geschrieben sein: beispiel(at)domain(dot)de.

Gegenüberstellung von Webcrawler und Scraper

Ein Scraper arbeitet ähnlich wie ein Webcrawler und durchsucht das Internet automatisiert nach bestimmten Daten. Der Scraper interessiert sich allerdings nicht für die Meta-Daten von Webseiten, sondern für die konkreten Inhalte. Diese veröffentlicht er anschließend in leicht veränderter Form auf eigenen Internetseiten. Ziel ist es, ohne großen Aufwand automatisiert Internetauftritte zu erstellen, die in Suchmaschinen gut platziert sind. Der Internetauftritt soll beispielsweise durch eingeblendete Werbung Geld verdienen.

Webcrawler und Suchmaschinenoptimierung

Webcrawler von Suchanbietern wie Google schaffen die Grundvoraussetzung für die Indexierung und das Finden von Internetseiten über Suchbegriffe. Internetseiten lassen sich für den Besuch der Crawler optimieren. Mit einer klaren Struktur, einfacher Navigation, guten internen Verlinkungen und den bereitgestellten Meta-Daten kann der Crawler die benötigten Informationen für die Indexierung schneller und einfacher finden und sammeln. Das Bereitstellen eine XML-Sitemap erleichtert dem Crawler ebenfalls die Arbeit. Hat eine Seite viele eingehenden Links und hohe Besucherzahlen, kann davon ausgegangen werden, dass der Crawler die Seiten öfter und länger besucht. Aktualisierungen und Veränderungen gelangen schneller in den Index.

(ID:45240431)