Wie funktioniert Indexierung im Internet?

Zuletzt aktualisiert: 25.05.2026

Der Begriff Indexierung steht allgemein für eine Informationserfassung. Im Internet wird damit die Aufnahme von Dokumenten in den Index von Suchmaschinen bezeichnet.

Dabei werden, ähnlich wie in Bibliotheken, Inhalte mit Deskriptoren versehen, mit denen sie sich gezielt ausfindig machen lassen. Während typische Deskriptoren in Bibliotheken Autorennamen oder ISBN-Nummern sind, handelt es sich bei Suchmaschinen um Keywords.

Im Bereich Suchmaschinenoptimierung spielt die Indexierung eine zentrale Rolle. Webmaster bzw. Seitenbetreiber können gezielt dafür sorgen, dass Seiten schneller in den Index aufgenommen werden. Manchmal ist es dagegen sinnvoll, die Indexierung einer Website oder von Teilen davon zu verhindern.

In jedem Fall gilt: Nur wenn eine Webseite im Index einer Suchmaschine ist, wird sie von dieser auch gefunden.

Wie funktioniert Indexierung im Internet?

Die Indexierung von Internetseiten durch große Suchmaschinen wie Google oder Bing ist ein komplexer Vorgang, der sich aus mehreren Prozessen zusammensetzt:

  • Crawler durchsuchen das Internet, lesen den Quellcode von Seiten aus und senden diesen an den Index.
  • Die abgerufenen Inhalte werden anschließend in einem getrennten Schritt verarbeitet und – sofern Google sie als geeignet einstuft – im Index gespeichert (Indexierung). Eine gecrawlte Seite wird also nicht automatisch indexiert.
  • Anschließend erscheinen die indexierten Seiten bei relevanten Suchanfragen.

Um die Nutzererfahrung bei einer Suche möglichst positiv zu gestalten, optimieren Suchmaschinen die Indexierung regelmäßig. Deshalb und weil sich sowohl Rankingfaktoren als auch Webseiten fortwährend ändern, ist der Google Index dynamisch. Neue Seiten kommen hinzu und die Hierarchie – und damit die Reihenfolge von Suchergebnissen – ändert sich. Außerdem entfernt Google Seiten, die massiv gegen die eigenen Richtlinien verstoßen, aus dem Index. Damit tauchen diese Seiten auch nicht mehr in Suchergebnissen auf.

Crawling, Indexierung und Ranking sind drei getrennte Stufen:

Beim Crawling entdeckt und ruft der Googlebot eine Seite ab; bei der Indexierung werden die Inhalte verarbeitet und – sofern geeignet – im Index gespeichert; beim Ranking wird die indexierte Seite für passende Suchanfragen positioniert. Wichtig: Eine gecrawlte Seite wird nicht zwingend indexiert (GSC-Status „Gecrawlt – zurzeit nicht indexiert“), und eine indexierte Seite rankt nicht automatisch.

Die Indexierung einer Webseite

Wie funktioniert Indexierung im Internet?

Ist eine neue Webseite online, befindet sie sich nicht automatisch im Index einer Suchmaschine. Zwar durchsuchen Crawler von Google ständig das Internet nach neuen Inhalten, trotzdem kann es dauern, bis sie eine Seite indexieren und diese auffindbar ist.

Der Vorgang lässt sich beschleunigen, indem Webmaster Google eine Sitemap zur Verfügung stellen. Das lässt sich auf zwei Arten bewerkstelligen: indem die Sitemap-URL per Sitemap:-Direktive in der robots.txt referenziert oder die Sitemap aktiv bei der Google Search Console eingereicht wird.

Erstellen lässt sich eine Sitemap unkompliziert mit Drittanbietertools. Um eine einzelne Seite erneut crawlen und indexieren zu lassen, nutzt man heute die Funktion „Indexierung beantragen“ im URL-Prüftool der Google Search Console. Den früher üblichen Sitemap-„Ping“ gibt es nicht mehr: Dieser Endpoint wurde Ende 2023 abgeschaltet und liefert seither einen 404-Fehler.

Eine einzelne URL lässt sich über das URL-Prüftool der Google Search Console mit „Indexierung beantragen“ einreichen. Damit wird das (erneute) Crawlen und Indexieren einer bestimmten Seite gezielt angestoßen (Anleitung).

Indexierung verhindern

Manchmal wollen Webmaster eine Indexierung von Seiten durch die Suchmaschine verhindern oder zumindest aufschieben. Dafür gibt es mehrere mögliche Gründe:

  • Die Seite befindet sich im Aufbau oder im Relaunch. Dann ist es besser, wenn sie bis zur Fertigstellung nicht in den Suchergebnissen auftaucht.
  • Es handelt sich um Admin-Zugänge.
  • Die Seite ist minderwertig. In einem Onlineshop kann das eine Kategorieseite mit wenigen Produkten sein, auf der Besucher wahrscheinlich nicht fündig werden.
  • Es gibt datenschutzrechtliche oder urheberrechtliche Gründe für ein „Verstecken“ der Seite.
  • Die Webseite ist ausschließlich für die private Verwendung gedacht.
  • Es besteht die Gefahr von duplicate content, der sich negativ auf die SEO auswirkt.

Um eine Indexierung zu verhindern, können Seitenbetreiber oder Webmaster auf unterschiedliche Arten vorgehen:

  • Sie integrieren den Meta-Tag noindex in den HTML Code der betreffenden Seite oder geben einen „noindex“-Header in der HTTP-Anfrage zurück.
  • Sie informieren Crawler durch eine robots.txt-Datei über Seiten bzw. Dateien, die diese nicht anfordern dürfen.
  • Sie speichern vertrauliche Inhalte in einem passwortgeschützten Serververzeichnis. Darauf kann der Google Crawler nicht zugreifen.

Um Webseiten mit doppelten Inhalten richtig auszuzeichnen, fügt man Canonical Tags in den Header der Seiten ein. Das ist zum Beispiel bei Blogs relevant, wenn ein Artikel unter mehreren Kategorien angezeigt wird. Durch einen Canonical Tag wird die Aufnahme doppelter Inhalte in den Index und eine eventuelle Abwertung durch die Suchmaschine verhindert.

Noindex oder robots.txt: Wann ist welches Instrument das Richtige?

Google rät davon ab, eine robots.txt-Datei zu verwenden, damit Webseiten nicht in Suchergebnissen auftauchen. Denn wenn andere Seiten mit beschreibendem Text auf diese Seite verweisen, kann sie trotzdem indexiert werden – dann ohne Beschreibung in den Suchergebnissen.

Sinnvoll sind robots.txt-Dateien dagegen, um den Crawling-Traffic zu verwalten und eine Überlastung zu vermeiden, das Anzeigen von Video-, Bild- und Audiodateien in Suchergebnissen zu verhindern oder unwichtige Ressourcendateien zu blockieren. Um eine Indexierung zu vermeiden, ist es sicherer, auf noindex bzw. passwortgeschützte Verzeichnisse zurückzugreifen.

robots.txt verhindert KEINE Indexierung:

Eine per robots.txt blockierte Seite kann trotzdem in den Index gelangen (und ohne Snippet erscheinen), wenn andere Seiten auf sie verlinken – denn robots.txt steuert nur das Crawlen, nicht die Aufnahme in den Index. Um eine Seite zuverlässig aus dem Index herauszuhalten, ist das noindex-Tag (oder ein passwortgeschütztes Verzeichnis) das richtige Mittel. Crawl-Steuerung (robots.txt) und Index-Steuerung (noindex) sind also klar zu trennen.

Das zentrale Diagnosewerkzeug, um zu prüfen, ob Seiten tatsächlich indexiert sind, ist der Search-Console-Bericht „Seitenindexierung“. Er listet indexierte und nicht indexierte URLs samt Gründen (z. B. „Gecrawlt – zurzeit nicht indexiert“, „Durch noindex-Tag ausgeschlossen“). Als grobe Schnellprüfung dient zusätzlich die „site:domain.de“-Abfrage, die allerdings nur eine ungenaue Schätzung liefert.

Quellen

Mehr Sichtbarkeit und Traffic erzielen

mit der Farbentour Online Marketing GmbH

SEO ist für viele Unternehmen eine echte Herausforderung. Wir von der Agentur Farbentour wissen, wie man Websites in den Suchmaschinen ganz nach vorne bringt – und das nachhaltig.

  • Mehr Sichtbarkeit durch gezielte SEO-Strategien
  • Professionelle SEO-Beratung für langfristige Erfolge
  • Persönliche Betreuung und transparente Optimierung
Neslin