Crawler (Webcrawler): Definition & Erklärung

Zuletzt aktualisiert: 24.05.2026

Webcrawler Darstellung als Icon

Bei einem Crawler handelt es sich um ein Computerprogramm, das automatisiert nach Inhalten im Internet sucht und diese analysiert. Suchmaschinen wie Google verwenden Crawler, um einen Index zu erstellen, den Nutzer durchsuchen können.

Der Begriff Crawler geht auf eine der ersten populären Web-Suchmaschinen zurück, den WebCrawler (1994). Die erste Suchmaschine war er allerdings nicht: Vorläufer waren Archie (1990, Suche in FTP-Dateilisten) und JumpStation (Dezember 1993, die erste crawlerbasierte Volltext-Suchmaschine fürs Web). Alternative Begriffe sind zum Beispiel „Bot“ oder „Spider“.

Crawler kommen auch bei der Webanalyse oder beim Data Mining zum Einsatz. Nutzer haben unterschiedliche Möglichkeiten, sie zu steuern oder auszusperren. Wer diese Möglichkeiten kennt, profitiert zum Beispiel bei der Suchmaschinenoptimierung (SEO).

Wie funktioniert ein Webcrawler?

Crawler gelangen in der Regel über Hyperlinks von einer Webseite zur nächsten. Dabei sammeln sie Informationen und sortieren diese anschließend. So entsteht ein Index, auf den eine Software zugreifen kann, um Informationen abzurufen und auszuwerten. Nur mit Crawlern kann eine Suchmaschine SERPs bereitstellen.

Crawler arbeiten automatisiert. Wie sie vorgehen, unterscheidet sich je nach „Auftraggeber“. Besonders bekannt ist der Crawler von Google, der sogenannte Googlebot. Diesen gibt es in mehreren Versionen. Neben dem Googlebot für Computer existieren der Googlebot Mobile, aber auch der Googlebot News oder Googlebot Images.

Diesen gibt es in mehreren Versionen. Seit Abschluss der Mobile-First-Indexierung (2023/2024) crawlt Google primär mit dem Googlebot Smartphone; der Googlebot Desktop ist nachrangig. Zu den offiziellen Crawlern zählen unter anderem Googlebot Smartphone, Googlebot Desktop, Googlebot Image, Googlebot News und Googlebot Video.

Abgesehen von Crawlern, die für Suchmaschinen arbeiten, gibt es Webcrawler, die

  • E-Mail-Adressen oder Postadressen für Marketingzwecke sammeln,
  • für Preisvergleichsportale nach Produkten und den dazugehörigen Daten suchen,
  • statistische Daten oder Nachrichten sammeln.

Dieses Crawling ist von Webseitenbetreibern oft nicht erwünscht und rechtlich schwierig.

Zu unterscheiden sind Crawler allgemein von Scrapern. Letztere extrahieren Inhalte auf Webseiten. Dabei reicht die Bandbreite von unbedenklichem Scraping, um zum Beispiel Fahrpläne auf Websites zu veröffentlichen oder zu Analysezwecken, bis hin zu gezielten Urheberrechtsverletzungen, um schnell und einfach zu Inhalten zu kommen.

Crawling bedeutet heute mehr als nur Hyperlinks zu folgen. Der Googlebot rendert JavaScript in einem zweiten Schritt (Rendering), um per JavaScript nachgeladene Inhalte zu erfassen. Werden CSS- oder JS-Dateien per robots.txt blockiert, kann das die Darstellung und damit die Indexierung verschlechtern – diese Ressourcen sollten crawlbar bleiben.

Die Bedeutung von Crawlern für das SEO

Crawler haben eine wichtige Funktion für die Suchmaschinenoptimierung (SEO). Regelmäßiges Crawling ist notwendig, damit alle relevanten Bestandteile einer Webseite indexiert werden und in den Suchergebnissen auftauchen.

Crawlern steht für jede Seite nur eine begrenzte Zeit zur Verfügung. Man spricht auch von Crawl Budget.

Google definiert das Crawl-Budget als Zusammenspiel aus Crawl-Kapazität (Crawl Rate Limit – wie viel der Server verträgt) und Crawl-Bedarf (Crawl Demand – wie gefragt und aktuell die Inhalte sind). Relevant ist es vor allem für sehr große Websites (ab rund 10.000 URLs); kleine Seiten müssen sich darum in der Regel keine Sorgen machen.

Damit Crawler dieses Budget besser ausnutzen bzw. sich dieses erhöht, sollten Webmaster

  • Seitenstruktur und Navigation optimieren,
  • sich um viele eingehende Links und Besucher bemühen und
  • die Größe von Dateien möglichst gering halten.

Außerdem ist es ratsam, in der Google Search Console eine XML-Sitemap für die eigene Seite zu hinterlegen oder die Sitemap einer robots.txt-Datei zu verlinken (per Sitemap:-Direktive). In der Search Console lässt sich auch überprüfen, ob ein Crawler alle Bereiche der Webseite indexiert hat.

Crawler aussperren

Um Crawler von bestimmten Inhalten auszusperren, gibt es mehrere Möglichkeiten:

  • Mit einer robots.txt-Datei lässt sich Crawlern mitteilen, welche Bereiche bzw. Inhalte von Webseiten sie crawlen dürfen. Allerdings können die betreffenden Seiten trotzdem in der Google-Suche auftauchen.
  • Wer eine Indexierung und das Auftauchen von Seiten in den SERPs komplett verhindern will, nimmt am besten den Metatag noindex in den HTML-Code einer Seite auf oder gibt alternativ den X-Robots-Tag noindex im HTTP-Response-Header des Servers zurück.
  • Schließlich gibt lassen sich Crawler mit passwortgeschützten Serververzeichnissen aussperren.

Crawler, die E-Mail-Adressen abgreifen, halten sich in der Regel nicht an solche Vorgaben. Hier besteht die Möglichkeit, E-Mail-Adressen für den Crawler unkenntlich zu machen. Dazu verwenden viele Webseitenbetreiber eine Schreibweise wie unternehmen(at)domain(dot)com. 

KI-Bots und Robots.txt

Seit 2023/2024 sind Trainings- und KI-Such-Bots wie GPTBot (OpenAI), ClaudeBot (Anthropic), Google-Extended und PerplexityBot ein zentrales Thema. Auch sie lassen sich gezielt per robots.txt steuern, indem man je User-Agent eigene Disallow-Regeln setzt – getrennt von den klassischen Suchmaschinen-Crawlern.

Hier ein Beispiel einer robots.txt, die KI-Bots aussperrt oder nur teilweise:

# ===================================
# STANDARD-SUCHMASCHINEN (Erlaubt für normale Suchergebnisse)
# ===================================
User-agent: Googlebot
User-agent: Bingbot
Allow: /

# ===================================
# KI-TRAININGS- UND SUCH-BOTS (Komplett blockiert)
# ===================================

# OpenAI (Nutzt Daten für das Training von ChatGPT)
User-agent: GPTBot
Disallow: /

# OpenAI Such-Bot (Für die Websuche innerhalb von ChatGPT)
User-agent: OAI-SearchBot
Disallow: /

# Anthropic (Nutzt Daten für das Training von Claude)
User-agent: ClaudeBot
Disallow: /

# Google AI (Nutzt Daten für das Training von Gemini/Vertex AI)
# Hinweis: Blockiert NICHT den normalen Googlebot für die Suche!
User-agent: Google-Extended
Disallow: /

# Perplexity AI (KI-Suchmaschine)
User-agent: PerplexityBot
Disallow: /

# Apple AI (Nutzt Daten für Apple Intelligence)
User-agent: Applebot-Extended
Disallow: /

# Common Crawl (Eine riesige offene Web-Datenbank, die von vielen KI-Modellen genutzt wird)
User-agent: CCBot
Disallow: /

# ===================================
# BEISPIEL FÜR TEILWEISEN ZUGRIFF (Hybrid-Ansatz)
# ===================================
# Wenn du möchtest, dass ein Bot (z. B. von Meta) deine Artikel liest,
# aber keine internen Daten oder Bilder scannt:

User-agent: Meta-ExternalAgent
Disallow: /admin/
Disallow: /uploads/
Disallow: /private/

Unterschiedene von robots.txt und noindex

robots.txt und noindex haben unterschiedliche Funktionen: Die robots.txt steuert das Crawling (den Zugriff), noindex steuert die Indexierung (das Auftauchen in den Suchergebnissen). Eine per robots.txt gesperrte Seite kann Google gar nicht crawlen und liest deshalb ein dort gesetztes noindex nie.

Wer eine Seite zuverlässig aus dem Index halten will, sollte sie daher crawlbar lassen und mit noindex auszeichnen, statt sie per robots.txt zu blockieren.

User-Agent fälschen

Der User-Agent allein ist fälschbar – Spam-Bots geben sich gern als Googlebot aus. Echte Googlebot-Zugriffe lassen sich über einen Reverse-DNS-Lookup und die von Google veröffentlichten IP-Bereiche prüfen, bevor man auf Basis des angeblichen Crawlers aussperrt oder ausnimmt.

Quellen

Mehr Sichtbarkeit und Traffic erzielen

mit der Farbentour Online Marketing GmbH

SEO ist für viele Unternehmen eine echte Herausforderung. Wir von der Agentur Farbentour wissen, wie man Websites in den Suchmaschinen ganz nach vorne bringt – und das nachhaltig.

  • Mehr Sichtbarkeit durch gezielte SEO-Strategien
  • Professionelle SEO-Beratung für langfristige Erfolge
  • Persönliche Betreuung und transparente Optimierung
Neslin