Bei einem Crawler handelt es sich um ein Computerprogramm, das automatisiert nach Inhalten im Internet sucht und diese analysiert. Suchmaschinen wie Google verwenden Crawler, um einen Index zu erstellen, den Nutzer durchsuchen können. Der Ursprung der Bezeichnung Crawler ist die erste Suchmaschine im Internet, der Webcrawler. Alternative Begriffe sind zum Beispiel „Bot“ oder „Spider“.
Crawler kommen auch bei der Webanalyse oder beim Data Mining zum Einsatz. Nutzer haben unterschiedliche Möglichkeiten, sie zu steuern oder auszusperren. Über diese Möglichkeiten Bescheid zu wissen, hilft zum Beispiel bei der Suchmaschinenoptimierung (SEO).
Wie funktioniert ein Webcrawler?
Crawler gelangen in der Regel über Hyperlinks von einer Webseite zur nächsten. Dabei sammeln sie Informationen und sortieren diese anschließend. So entsteht ein Index, auf den eine Software zugreifen kann, um Informationen abzurufen und auszuwerten. Nur mit Crawlern kann eine Suchmaschine SERPs bereitstellen.
Crawler arbeiten automatisiert. Wie sie vorgehen, unterscheidet sich je nach „Auftraggeber“. Besonders bekannt ist der Crawler von Google, der sogenannte Googlebot. Diesen gibt es in mehreren Versionen. Neben dem Googlebot für Computer existieren der Googlebot Mobile, aber auch der Googlebot News oder Googlebot Images.
Abgesehen von Crawlern, die für Suchmaschinen arbeiten, gibt es Webcrawler, die
- E-Mail-Adressen oder Postadressen für Marketingzwecke sammeln,
- für Preisvergleichsportale nach Produkten und den dazugehörigen Daten suchen,
- statistische Daten oder Nachrichten sammeln.
Dieses Crawling ist von Webseitenbetreibern oft nicht erwünscht und rechtlich schwierig.
Zu unterscheiden sind Crawler allgemein von Scrapern. Letztere extrahieren Inhalte auf Webseiten. Dabei reicht die Bandbreite von unbedenklichem Scraping, um zum Beispiel Fahrpläne auf Websites zu veröffentlichen oder zu Analysezwecken, bis hin zu gezielten Urheberrechtsverletzungen, um schnell und einfach zu Inhalten zu kommen.
Die Bedeutung von Crawlern für das SEO
Crawler haben eine wichtige Funktion für die Suchmaschinenoptimierung (SEO). Schließlich ist regelmäßiges Crawling notwendig, damit alle relevanten Bestandteile einer Webseite indexiert werden und in den Suchergebnissen auftauchen.
In diesem Zusammenhang ist zu beachten, dass Crawlern für jede Seite nur eine begrenzte Zeit zur Verfügung steht. Man spricht auch von Crawl Budget.
Damit Crawler dieses Budget besser ausnutzen bzw. sich dieses erhöht, sollten Webmaster
- Seitenstruktur und Navigation optimieren,
- sich um viele eingehende Links und Besucher bemühen und
- die Größe von Dateien möglichst gering halten.
Außerdem ist es ratsam, in der Google Search Console eine XML-Sitemap für die eigene Seite zu hinterlegen oder die Sitemap einer robots.txt-Datei hinzufügen. In der Search Console lässt sich auch überprüfen, ob ein Crawler alle Bereiche der Webseite indexiert hat.
Crawler aussperren
Um Crawler von bestimmten Inhalten auszusperren, gibt es mehrere Möglichkeiten:
- Mit einer robots.txt-Datei lässt sich Crawlern mitteilen, welche Bereiche bzw. Inhalte von Webseiten sie crawlen dürfen. Allerdings können die betreffenden Seiten trotzdem in der Google-Suche auftauchen.
- Wer eine Indexierung und das Auftauchen von Seiten in den SERPs komplett verhindern will, nimmt am besten den Metatag noindex in den HMTL-Code einer Seite auf oder gibt alternativ einen noindex-Header in der http-Anfrage zurück.
- Schließlich gibt lassen sich Crawler mit passwortgeschützten Serververzeichnissen aussperren.
Crawler, die E-Mail-Adressen abgreifen, halten sich in der Regel nicht an solche Vorgaben. Hier besteht die Möglichkeit, E-Mail-Adressen für den Crawler unkenntlich zu machen. Dazu verwenden viele Webseitenbetreiber eine Schreibweise wie unternehmen(at)domain(dot)com.
Quellen
- Google-Crawler (User-Agents). Von Google verwendete Robots zum Crawling des Webs, Search Console-Hilfe, https://support.google.com/webmasters/answer/1061943?hl=de
- Google-Index, Google-Bot & Crawler, Frag SISTRIX, https://www.sistrix.de/frag-sistrix/google-index-google-bot-crawler/