Definition

Was ist ein Webcrawler?

| Autor / Redakteur: Tutanch / Nico Litzel

(Bild: © aga7ta - stock.adobe.com)

Bei einem Webcrawler handelt es sich um ein Computerprogramm, das das Internet automatisch nach bestimmten Informationen durchsucht. Häufige Anwendung ist die Indexierung von Webseiten für Suchmaschinen. Es lassen sich aber auch andere Daten wie E-Mail-Adressen oder Produktinformationen mit einem Crawler sammeln.

Webcrawler werden auch Searchbots, Spider oder Robots genannt. Der Begriff bezeichnet ein Computerprogramm, das in der Lage ist, das Internet automatisiert nach bestimmten Informationen und Daten zu durchsuchen. Die Daten lassen sich anschließend auswerten, nach vorgegebenen Kriterien sortieren und speichern.

Häufiger Anwendungsbereich von Webcrawlern ist die Indexierung von Webseiten für Suchmaschinen. Der Crawler findet und besucht Webseiten. Verschiedene Informationen über die Webseiten werden anschließend im Index gespeichert. Der Suchvorgang läuft weitgehend automatisch ab und wiederholt sich. Auch bereits gefundene Webseiten besucht der Crawler immer wieder, um Veränderungen festzustellen und den Index zu aktualisieren.

Nicht alle Informationen im Internet lassen sich durch Webcrawler erfassen. Daten, die sich hinter Suchmasken, in Datenbanken oder auf zugangsbeschränkten Portalen finden, erreicht der Crawler in der Regel nicht. Diese Bereiche des Internets bezeichnet man als Deep Web oder Hidden Web. Nach welchen Informationen ein Webcrawler im Internet sucht, hängt von seinem Einsatzzweck ab. Crawler können auch für das Sammeln von E-Mail-Adressen oder Produktinformationen wie Preisen verwendet werden.

Die Funktionsweise eines Webcrawlers

Ein Webcrawler führt seine Aufgaben wiederholt, kontinuierlich und nahezu komplett selbstständig aus. Der Crawler gelangt über einen Link auf eine Webseite und sammelt die gewünschten Informationen. Durch die auf den Webseiten gefunden Links ist er in der Lage, weitere Webseiten zu besuchen.

Der Crawler ruft die Seiten in einer programmierten Reihenfolge auf. Bereits besuchte Seiten werden nach einer bestimmten Zeit ebenfalls wieder angesteuert. Kommt der Crawler für die Indexierung von Webseiten zum Einsatz, fügt er die gefundenen Informationen nach genau definierten Regeln in den Index ein. Eine Internetseite ist anschließend unter bestimmten Suchbegriffen über die Suchmaschine auffindbar und in den Ergebnislisten aufgeführt.

Arten und Einsatzgebiete des Crawlers

Die klassische Aufgabe des Webcrawlers ist das Indizieren von Webseiten. Darüber hinaus ist der Crawler für andere Zwecke einsetzbar. Webcrawler suchen beispielsweise für Preisvergleichsportale speziell nach Produktdaten und Preisen, um sie anschließend auf dem Portal vergleichen zu können. Crawler können im Internet öffentlich bereitgestellte E-Mail-Adressen oder postalische Adressen sammeln und sie anschließend für Werbe- oder Marketingzwecke bereitstellen.

Weitere Einsatzbereiche von Crawlern sind das Sammeln von Nachrichten oder von statistischen Daten. Viele Crawler bewegen sich in einem rechtlichen Graubereich und missbrauchen gesammelte Daten. Beispielsweise kann die Nutzung von gesammelten E-Mail-Adressen für Werbezwecke rechtlich nicht zulässig sein. Einige Crawler durchsuchen das Internet gezielt nach urheberrechtlich geschützten Inhalten.

Schutz vor Webcrawlern

Damit eigene Internetseiten von Suchmaschinen auffindbar sind, ist der Besuch des Webcrawlers eines Suchanbieters prinzipiell erwünscht. In einigen Fällen sollen jedoch nicht alle bereitgestellten Seiten in den Index aufgenommen werden. Über eine auf dem Webspace hinterlegte Datei mit dem Namen robots.txt und über bestimmte Informationen im HTML-Header und in den Meta-Tags kann der Webseitenbetreiber mitteilen, welche Seiten zu indexieren sind. Ein Webcrawler kann diese Vorgaben unter Umständen ignorieren, wodurch die ausgeschlossenen Seiten dennoch im Index landen. Vor allem „bösartige“ Bots halten sich in der Regel nicht an die Vorgaben.

Sammelt ein Crawler unerwünscht E-Mail-Adressen einer Webseite, versuchen viele Webseitenbetreiber die E-Mail-Adressen so auf den Internetseiten zu hinterlegen, dass der Crawler diese nicht als E-Mail-Adresse erkennt. Die Adresse kann beispielsweise folgendermaßen geschrieben sein: beispiel(at)domain(dot)de.

Gegenüberstellung von Webcrawler und Scraper

Ein Scraper arbeitet ähnlich wie ein Webcrawler und durchsucht das Internet automatisiert nach bestimmten Daten. Der Scraper interessiert sich allerdings nicht für die Meta-Daten von Webseiten, sondern für die konkreten Inhalte. Diese veröffentlicht er anschließend in leicht veränderter Form auf eigenen Internetseiten. Ziel ist es, ohne großen Aufwand automatisiert Internetauftritte zu erstellen, die in Suchmaschinen gut platziert sind. Der Internetauftritt soll beispielsweise durch eingeblendete Werbung Geld verdienen.

Webcrawler und Suchmaschinenoptimierung

Webcrawler von Suchanbietern wie Google schaffen die Grundvoraussetzung für die Indexierung und das Finden von Internetseiten über Suchbegriffe. Internetseiten lassen sich für den Besuch der Crawler optimieren. Mit einer klaren Struktur, einfacher Navigation, guten internen Verlinkungen und den bereitgestellten Meta-Daten kann der Crawler die benötigten Informationen für die Indexierung schneller und einfacher finden und sammeln. Das Bereitstellen eine XML-Sitemap erleichtert dem Crawler ebenfalls die Arbeit. Hat eine Seite viele eingehenden Links und hohe Besucherzahlen, kann davon ausgegangen werden, dass der Crawler die Seiten öfter und länger besucht. Aktualisierungen und Veränderungen gelangen schneller in den Index.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Aktuelle Beiträge zu diesem Thema

Bessere Business Insights mit Social Big Data

Kommentar von Philipp Rodewald, Webbosaurus

Bessere Business Insights mit Social Big Data

Neue soziale Netzwerke, eine intensivere Nutzung digitaler Plattformen und die Digitalisierung der Gesellschaft sorgen dafür, dass sich immer mehr Menschen online aufhalten und auf den unterschiedlichsten Kanälen Informationen veröffentlichen. Dabei handelt es sich meist um Meinungen, Bewertungen und Kommentare von Konsumenten zu Produkten, Marken oder Themen. Mithilfe von Social Media Monitoring haben Unternehmen nun erstmals die Möglichkeit, diese Daten auszuwerten und gewinnbringend einzusetzen. lesen

Was eine Enterprise Search können sollte

Enterprise Search, Teil 2

Was eine Enterprise Search können sollte

Welche Faktoren zeichnen eine gute Enterprise Search-Lösung aus? Sie muss in der Lage sein, Unternehmenswebsites vollständig zu durchsuchen – einschließlich interner, nicht öffentlicher Dokumente - unter Berücksichtigung der Zugriffsrechte. Das geht nicht ohne die passende Architektur. lesen

Warum Alternativen zu Google nötig sind

Enterprise Search, Teil 1

Warum Alternativen zu Google nötig sind

Google hat unser aller Leben radikal verändert. Die Zeiten, in denen die Brockhaus Enzyklopädie in das Bücherregal jedes bürgerlichen Haushalts gehörte, sind passé. Nicht umfassende Nachschlagewerke wie die Encyclopaedia Britannica oder der Brockhaus sind heute unser Tor zur Welt, sondern Google. Doch nur auf das schnelle Finden zu achten, führt in die Sackgasse. lesen

Wie Big-Data-Analyse den US-Geheimdiensten hilft

Welche Informationen über uns gesammelt werden – Teil 1

Wie Big-Data-Analyse den US-Geheimdiensten hilft

„Um die Nadel zu finden, benötigt man den Heuhaufen“, so die angebliche Überzeugung von Keith Alexander, Direktor der National Security Agency (NSA). Doch welche Daten tragen die US-Geheimdienste überhaupt zusammen? Und wie schaffen sie es, den Berg an Informationen nach relevanten Hinweisen zu durchforsten? lesen

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45240431 / Definitionen)