Crawler

Aus Social-Media-ABC
Zur Navigation springen Zur Suche springen

Crawler (Webcrawler, auch Searchrobot, Spider, Robots, Bot) sind automatisierte Computerprogramme von Suchmaschinen, die sich über Hyperlinks spinnengleich durch das Netz von Website zu Website bewegen. Auf diese Weise werden das WWW durchsucht, Websites analysiert und für Suchmaschinen nach vorgegebenen Kriterien ein Index erstellt – eine stetige, immer wiederkehrende Aufgabe.

Durch Crawler abgefragte Daten einer Website werden automatisch in der Suchmaschinen-Datenbank hinterlegt. Keine Beachtung finden dabei externe Websitedaten wie z.B. Bilder, Style-Sheets und JavaScript Dateien.

Ausschluss

Um bei einer Suchanfrage berücksichtigt und auf den Ergebnisseiten gelistet zu werden, müssen Websites im Index einer Suchmaschine erfasst sein. Seiten, die nicht im Index hinterlegt sind, werden bei einer Suchanfrage nicht ausgegeben. D.h. Seiten, die vom Crawler nicht gefunden werden, existieren auch für Suchmaschinen nicht. Das ist z.B. der Fall bei Seiten, die nicht über Links sondern über Suchmasken oder Passwort geschützte Bereiche erreicht werden Deep Web. Aber auch nur für das Auge des Users optimierte (z.B. rein auf Flash basierte) Seiten bieten dem Crawler keinen Zugriff auf den notwendigen Kontent und Links. Die Seite ist somit für den Crawler und die Suchmaschine nicht existent [1]. Auch durch den Robot Exclusion Standard in einer robots.txt Datei können Websites oder einzelne Seiten in der Regel für Crawler per Meta-Tag im HTML-Header unsichtbar gemacht und somit Crawler ausgeschlossen werden [2].

Verwendungsarten

Neben den universellen Crawlern gibt es auch „focused crawlers“ (thematisch fokussierte Webcrawler), die mit künstlicher Intelligenz – d.h. mit Hintergrundwissen – ausgestattet sind. Hier wird das Augenmerk der Web-Suche nicht nur auf die Klassifizierung der Website sondern auch auf die Klassifizierung der Hyperlinks gelegt, wodurch nur wirklich relevante Bereiche im Web indiziert werden. [3]

Mit dem „Googlebot“ setzt Google auf einen speziellen Crawler, der sich täglich durch Milliarden von Seiten arbeitet und diese nach vorgegebenen Algorithmen auszuwerten, setzt Google auf einen speziellen Crawler, den „Googlebot“ [4] [5]

Nicht nur für Suchmaschinen sondern auch für die Abfrage von RSS-Feeds und das Abgreifen von E-Mail-Adressen werden Crawler eingesetzt. Das Absammeln der E-Mail-Adressen erfolgt meist mit sogenannte „Harvestern“, mit denen die Adressen einfach „abgeerntet“ und an Spammer weiterverkauft werden.

Als Schutz gegen solche Adressen-Abgriffe können E-Mail-Adressen als solche unkenntlich gemacht werden, z.B. durch [6]:

  • Schreibweise: a@beispiel.com = a (at) beispiel (dot) com
  • Als Bild: E-Mail-Adresse in ein Bild mit pixeligem Hintergrund stellen.
  • Captcha: Bei Kontaktformularen das Absenden nur mit Eingabe des Captcha-Schutzes ermöglichen

Geschichte

Schon 1994 nimmt der erste Webcrawler seine Arbeit auf, als Namensgeber diente die Suchmaschine „Web Crawler“. Der Vorläufer des Crawlers wird 1993 von Metthew Gray am Massachusetts Institut of Technology entwickelt und 1995 wieder eingestellt. Unter dem Namen „World Wide Web Wanderer“ hat er die Aufgabe, das Internet in Bezug auf Größe und Zuwachs zu vermessen [7]

Weblinks

Suchmaschinen Doktor: Robots / Crawler [8]

Wikipedia: Webcrawler [9]

Gründerszene: Crawler [10]

WebCrawler's History: [11]