Crawler: Unterschied zwischen den Versionen

Version vom 4. November 2013, 02:34 Uhr

Crawler (Webcrawler, auch Searchrobot, Spider, Robots, Bot) sind automatisierte Computerprogramme von Suchmaschinen, die sich über Hyperlinks spinnengleich durch das Netz von Website zu Website bewegen. Auf diese Weise wird das WWW durchsucht, Websites analysiert und für Suchmaschinen nach vorgegebenen Kriterien ein Index erstellt – eine immer wiederkehrende, sich wiederholende Aufgabe.

Durch Crawler abgefragte Daten einer Website werden automatisch in der Suchmaschinen Datenbank hinterlegt. Nicht berücksichtig werden externe Websitedaten wie z.B. Bilder, Style-Sheets und JavaScript Dateien.

Ausschluss

Um bei einer Suchanfrage berücksichtigt und auf den Ergebnisseiten gelistet zu werden, müssen Websites im Index einer Suchmaschine erfasst sein. Seiten, die nicht im Index hinterlegt sind, werden bei einer Suchanfrage nicht ausgegeben. D.h. Seiten, die vom Crawler nicht gefunden werden, existieren auch für Suchmaschinen nicht. Das ist z.B. der Fall bei Seiten, die nicht über Links sondern über Suchmasken oder Passwort geschützte Bereiche erreicht werden Deep Web. Auch durch den Robot Exclusion Standard in einer robots.txt Datei können Websites oder einzelne Seiten in der Regel für Crawler per Meta-Tag im HTML-Header unsichtbar gemacht und somit Crawler ausgeschlossen werden.

Verwendungsarten

Neben den universellen Crawlern gibt es auch „focused crawlers“ (thematisch fokussierte Webcrawler), die mit künstlicher Intelligenz – d.h. mit Hintergrundwissen – ausgestattet sind. Hier wird das Augenmerk der Web-Suche nicht nur auf die Klassifizierung der Website sondern auch auf die Klassifizierung der Hyperlinks gelegt, wodurch nur wirklich relevante Bereiche im Web indiziert werden. [1]

Mit dem „Googlebot“ setzt Google auf einen speziellen Crawler, der sich täglich durch Milliarden von Seiten arbeitet und diese nach vorgegebenen Algorithmen auszuwerten, setzt Google auf einen speziellen Crawler, den „Googlebot“ [2] [3]

Nicht nur für Suchmaschinen sonder auch für die Abfrage von RSS-Feeds und das Abgreifen von E-Mail-Adressen für den Weiterverkauf werden Crawler eingesetzt. Das Absammeln der E-Mail-Adressen erfolgt meist mit sogenannte „Harvestern“, mit denen die Adressen einfach „abgeerntet“ werden.

Als Schutz gegen solche Adressen-Abgriffe können E-Mail-Adressen als solche unkenntlich gemacht werden, z.B. durch [4]:

Schreibweise: a@beispiel.com = a (at) beispiel (dot) com
Als Bild: E-Mail-Adresse in ein Bild mit pixeligem Hintergrund stellen.
Captcha: Bei Kontaktformularen das Absenden nur mit Eingabe des Captcha-Schutzes ermöglichen

Geschichte

Schon 1994 nimmt der erste Webcrawler seine Arbeit auf, als Namensgeber diente die Suchmaschine „Web Crawler“. Der Vorläufer des Crawlers wird 1993 von Metthew Gray am Massachusetts Institut of Technology entwickelt und 1995 wieder eingestellt. Unter dem Namen „World Wide Web Wanderer“ hat er die Aufgabe, das Internet in Bezug auf Größe und Zuwachs zu vermessen [5]

Weblinks

Suchmaschinen Doktor: Robots / Crawler [6]

Wikipedia: Webcrawler [7]

Gründerszene: Crawler [8]

WebCrawler's History: [9]

@@ Zeile 1: / Zeile 1: @@
-Der Begriff meint eine Software, die von [[Suchmaschine|Suchmaschinen]] im Internet zum Einsatz kommt, um alle Webseiten zu finden, zu katalogisieren und über die Suchfunktion  der [[Suchmaschine]] zugänglich zu machen.
+Crawler (Webcrawler, auch Searchrobot, Spider, Robots, Bot) sind automatisierte Computerprogramme von Suchmaschinen, die sich über Hyperlinks spinnengleich durch das Netz von Website zu Website bewegen. Auf diese Weise wird das WWW durchsucht, Websites analysiert und für Suchmaschinen nach vorgegebenen Kriterien ein Index erstellt – eine immer wiederkehrende, sich wiederholende Aufgabe.
-Der Begriff meint eine Software, die von Suchmaschinen im Internet zum Einsatz kommt, um alle Webseiten zu finden, zu katalogisieren und über die Suchfunktion der [[Suchmaschine]] zugänglich zu machen.
+Durch Crawler abgefragte Daten einer Website werden automatisch in der Suchmaschinen Datenbank hinterlegt. Nicht berücksichtig werden externe Websitedaten wie z.B. Bilder, Style-Sheets und JavaScript Dateien.
-Dabei „scannen“ die Programme die Hyperlinks der Webseiten im Netz. Sie speichern alle von ihnen gefundenen Seiten und verarbeiten sie je nach Aufgabe anschließend für die Suchmaschine weiter. Dabei zu beachten ist, dass die Crawler nur einen eingegrenzten Bereich der Webseiten erreichen können, da sie den Weg zu ihnen nur über Links finden. Inhalte, die nicht verlinkt sind, werden von ihnen nicht gespeichert. Auch soziale Netzwerke wie z.B. Facebook oder viele andere (kostenpflichtige) Datenbanken sperren Crawler aus.
+==Ausschluss==
+Um bei einer Suchanfrage berücksichtigt und auf den Ergebnisseiten gelistet zu werden, müssen Websites im Index einer Suchmaschine erfasst sein. Seiten, die nicht im Index hinterlegt sind, werden bei einer Suchanfrage nicht ausgegeben. D.h. Seiten, die vom Crawler nicht gefunden werden, existieren auch für Suchmaschinen nicht. Das ist z.B. der Fall bei Seiten, die nicht über Links sondern über Suchmasken oder Passwort geschützte Bereiche erreicht werden [[Deep Web]]. Auch durch den Robot Exclusion Standard in einer robots.txt Datei können Websites oder einzelne Seiten in der Regel für Crawler per Meta-Tag im HTML-Header unsichtbar gemacht und somit Crawler ausgeschlossen werden.
+==Verwendungsarten==
+Neben den universellen Crawlern gibt es auch „focused crawlers“ (thematisch fokussierte Webcrawler), die mit künstlicher Intelligenz – d.h. mit Hintergrundwissen – ausgestattet sind. Hier wird das Augenmerk der Web-Suche nicht nur auf die Klassifizierung der Website sondern auch auf die Klassifizierung der Hyperlinks gelegt, wodurch nur wirklich relevante Bereiche im Web indiziert werden. [http://www.people4.net/was-ist-ein-webcrawler]
+Mit dem „Googlebot“ setzt Google auf einen speziellen Crawler, der sich täglich durch Milliarden von Seiten arbeitet und diese nach vorgegebenen Algorithmen auszuwerten, setzt Google auf einen speziellen Crawler, den „Googlebot“ [http://de.onpage.org/wiki/Bot/Crawler] [https://support.google.com/webmasters/answer/1061943?hl=de]
+Nicht nur für Suchmaschinen sonder auch für die Abfrage von [[RSS]]-Feeds und das Abgreifen von E-Mail-Adressen für den Weiterverkauf werden Crawler eingesetzt. Das Absammeln der E-Mail-Adressen erfolgt meist mit sogenannte „Harvestern“, mit denen die Adressen einfach „abgeerntet“ werden.
+Als Schutz gegen solche Adressen-Abgriffe können E-Mail-Adressen als solche unkenntlich gemacht werden, z.B. durch [https://www.it-sicherheit.de/ratgeber/it_sicherheitstipps/tipp/spam-ade-schutz-vor-unerwuenschten-e-mails/]:
+* Schreibweise: a@beispiel.com = a (at) beispiel (dot) com
+* Als Bild: E-Mail-Adresse in ein Bild mit pixeligem Hintergrund stellen.
+* Captcha: Bei Kontaktformularen das Absenden nur mit Eingabe des Captcha-Schutzes ermöglichen
+==Geschichte==
+Schon 1994 nimmt der erste Webcrawler seine Arbeit auf, als Namensgeber diente die Suchmaschine „Web Crawler“. Der Vorläufer des Crawlers wird 1993 von Metthew Gray am Massachusetts Institut of Technology entwickelt und 1995 wieder eingestellt. Unter dem Namen „World Wide Web Wanderer“ hat er die Aufgabe, das Internet in Bezug auf Größe und Zuwachs zu vermessen [http://de.cyclopaedia.net/wiki/World-Wide-Web-Wanderer]
 == Weblinks ==
+Suchmaschinen Doktor: Robots / Crawler [http://www.suchmaschinen-doktor.de/optimierung/robots-crawler.html]
+Wikipedia: Webcrawler [http://de.wikipedia.org/wiki/Webcrawler]
+Gründerszene: Crawler [http://www.gruenderszene.de/lexikon/begriffe/crawler]
-[[http://thinkpink.com/bp/WebCrawler/History.html]]
+WebCrawler's History: [http://thinkpink.com/bp/WebCrawler/History.html]