Was ist eine robots.txt-Datei und wofür braucht man sie?

Eine `robots.txt`-Datei liegt im Web-Root einer Domain und sagt Crawlern, welche Pfade sie nicht indexieren sollen. Sie ist Teil des Robots-Exclusion-Protocols, das Suchmaschinen-Crawler seit den 1990ern respektieren — wohlerzogene Bots wie Googlebot, Bingbot, DuckDuckBot lesen die Datei vor dem Crawl. Die Datei muss exakt unter `/robots.txt` (URL-Path-Root, keine Unterordner) abrufbar sein, sonst ignorieren Crawler sie. Sie steuert nicht, was im Index landet — sie steuert nur, was gecrawlt wird; bereits indexierte URLs verschwinden erst nach `noindex` oder Search-Console-Removal.

Wie blockiere ich AI-Bots wie GPTBot und ClaudeBot in robots.txt?

Pro Bot ein eigener User-agent-Block plus `Disallow: /`. Aktuell 2026 sind das mindestens 14 Kennungen: GPTBot, ChatGPT-User, OAI-SearchBot, ClaudeBot, Claude-User, Claude-SearchBot, PerplexityBot, Perplexity-User, CCBot, Bytespider, Meta-ExternalAgent, Amazonbot, Applebot-Extended und Google-Extended. Veraltete Namen wie `anthropic-ai` oder `Claude-Web` blockieren niemanden mehr — die Vendor-Doku führt sie nicht mehr als aktive Tokens. Der Generator emittiert die aktuelle Liste auf Klick und markiert veraltete Einträge im Validator.

Was unterscheidet OAI-SearchBot von GPTBot?

OAI-SearchBot lädt Seiten für die Echtzeit-Suchergebnisse in ChatGPT und Perplexity-vergleichbare Antworten — wenn ein Nutzer nach einem Begriff fragt, greift der Bot die Seite ab und das Modell zitiert sie in der Antwort. GPTBot dagegen sammelt Trainings-Daten für künftige Modell-Updates. Wer Sichtbarkeit in AI-Antworten will, aber nicht in Trainings-Datensätzen, blockiert GPTBot und erlaubt OAI-SearchBot. Das gleiche Drei-Tier-Muster gibt es bei Anthropic (Claude-SearchBot vs. ClaudeBot) und Apple (Applebot vs. Applebot-Extended). Der Generator bietet diese Splits als eigene Voreinstellungen.

Sind robots.txt-Regeln case-sensitive?

Ja. `Disallow: /Admin/` und `Disallow: /admin/` blockieren unterschiedliche URLs — der Crawler vergleicht die Pfade exakt zeichengenau. Häufige Falle: jemand testet `/admin/` lokal mit Kleinschreibung, deployt aber zu einem CMS, das `/Admin/` ausliefert — der Block läuft ins Leere. Der Validator des Generators flaggt case-only-Unterschiede zwischen Allow- und Disallow-Regeln und auch Duplikate, die sich nur in der Schreibung unterscheiden. Sicherer Weg: beide Schreibweisen explizit blockieren oder eine kanonische Schreibweise auf Server-Ebene erzwingen.

Was bedeutet Crawl-delay und wer hält sich daran?

`Crawl-delay: 10` bittet den Crawler, zwischen zwei Anfragen 10 Sekunden zu warten. Googlebot ignoriert die Direktive offiziell (developers.google.com), Bingbot und Yandex respektieren sie. Praktisch ist Crawl-delay nur dann relevant, wenn der Server unter Crawler-Last leidet — moderne Hosting-Setups haben damit fast nie ein Problem. Der Generator zeigt einen Inline-Hinweis darauf, weil viele Anleitungen aus den 2010ern Crawl-delay als SEO-Best-Practice empfehlen, was 2026 nicht mehr stimmt.

Warum sehe ich eine Warnung, dass ich CSS oder JS blocke?

Wenn `Disallow: /css/` oder `Disallow: /assets/` im Block für `User-agent: *` steht, kann Googlebot die Seite nicht vollständig rendern — die Render-Vorschau in der Search Console und die Mobile-Friendly-Bewertung sehen eine kaputte Version ohne Styles und Skripte. Google bestraft das nicht direkt, aber die Bewertung der Seite leidet. Der Generator markiert diesen Fall, weil er in Beratungen häufig auftaucht und schwer aus der Selbst-Inspektion zu finden ist. Lösung: CSS und JS-Pfade in `Allow:` explizit freigeben oder den `Disallow:` für sie wegnehmen.

Reicht robots.txt aus, um AI-Bots wirklich zu blockieren?

Nein. Das Robots-Exclusion-Protocol ist eine freiwillige Konvention — der Bot entscheidet, ob er die Datei respektiert. Bei Googlebot/Bingbot/DuckDuckBot funktioniert das verlässlich. Bei AI-Crawlern hat es 2024 und 2025 mehrere Audit-Reports gegeben (z. B. von WIRED und 404Media), in denen PerplexityBot und Bytespider robots.txt nachweislich ignoriert haben. Wenn die Datei in der Praxis nicht reicht, braucht es eine Bot-Mitigation-Schicht: Cloudflare Bot Fight Mode, WAF-Rules, Hetzner Firewall mit User-agent-Block, oder Server-Konfiguration (nginx `if`-Block, Apache `RewriteCond %{HTTP_USER_AGENT}`). Der Generator nennt das im Honest-Limits-Banner explizit.

Wohin muss die robots.txt-Datei auf dem Server?

In den Web-Root deiner Domain — abrufbar unter `https://deine-domain.de/robots.txt`. Bei Apache-Shared-Hosting heißt der Ordner typisch `public_html/`, bei nginx oft `/var/www/html/`, bei Cloudflare Pages oder Astro/Hugo/11ty wird die Datei in `public/` oder `static/` abgelegt und vom Build automatisch übernommen. Wichtig: Pro Domain nur eine `robots.txt`, sie gilt für alle Subdomains nur, wenn sie auf jeder Subdomain ausgeliefert wird (Subdomains haben eigene Robots-Geltungsbereiche). Nach dem Deploy reicht ein Reload — Google fetched die Datei in Minuten neu, Bing in Stunden bis Tagen.

robots.txt-Generator — AI-Bot-Block 2026, Validator

Was macht der robots.txt-Generator?

Der Generator ist ein Editor für die robots.txt-Datei, die Suchmaschinen-Crawler und AI-Bots vor dem Indexieren lesen. Du baust beliebig viele User-agent-Blöcke nebeneinander auf, jeder mit eigenen Allow- und Disallow-Regeln und optionalem Crawl-delay. Daneben gibt es Voreinstellungen für AI-Bot-Kennungen (Stand 2026), Common-Block-Pfade (Admin, Shop, Suche, PDFs) und einen Validator, der typische Fehler markiert. Die Ausgabe ist Plain-Text mit LF-Zeilenenden, ohne BOM, bereit für /robots.txt auf der Domain-Root.

Drei Bausteine treiben das Tool:

Multi-Stack-Editor — beliebig viele User-agent-Blöcke, Allow/Disallow zeilenweise editierbar, Crawl-delay pro Block setzbar.
AI-Bot-Voreinstellungen — fünf kuratierte Splits: alle 14 Bots blocken, Search-Bots erlauben und Trainings-Bots blocken, sowie Drei-Tier-Splits speziell für Apple, OpenAI und Anthropic.
Validator — case-mismatch, Konflikt zwischen Allow und Disallow, blockiertes CSS/JS, veraltete Token-Namen, malformed Sitemap-URLs, plain http statt https.

Alles im Browser. Kein Upload, kein Account, kein Cookie-Banner.

Welche AI-Bot-Kennungen kennt der Generator (Stand 2026)?

Die kuratierte Liste deckt vierzehn aktuelle Tokens ab — gepflegt nach Vendor-Doku statt aus veralteten Tutorials:

Vendor	Bot-Kennung	Zweck
OpenAI	`GPTBot`	Training
OpenAI	`ChatGPT-User`	nutzer-initiierte Abfragen
OpenAI	`OAI-SearchBot`	Real-time Search-Grounding
Anthropic	`ClaudeBot`	Training
Anthropic	`Claude-User`	nutzer-initiierte Abfragen
Anthropic	`Claude-SearchBot`	claude.ai-Suche
Perplexity	`PerplexityBot`	Search-Grounding
Perplexity	`Perplexity-User`	nutzer-initiierte Abfragen
Common Crawl	`CCBot`	Training (Datensatz für viele Modelle)
ByteDance	`Bytespider`	Training
Meta	`Meta-ExternalAgent`	Training
Amazon	`Amazonbot`	Mixed
Apple	`Applebot-Extended`	Training
Google	`Google-Extended`	Training

Häufiger Fehler: Tutorials aus 2023 nennen anthropic-ai und Claude-Web. Anthropic hat diese Namen 2024 retired — wer sie heute in der robots.txt führt, blockiert niemanden mehr und hat gleichzeitig keinen Block auf den echten Bot. Der Validator markiert diese Tokens als deprecated und nennt den modernen Ersatz.

Wie funktioniert die Allow-Search-Block-Train-Voreinstellung?

Die zweite AI-Voreinstellung trennt Bot-Zwecke statt pauschal alle zu blocken. Search-Bots (OAI-SearchBot, Claude-SearchBot, PerplexityBot) dürfen die Seite abrufen, weil deren Aufruf direkt einer Nutzer-Frage entspricht — die Seite landet in der Antwort als Citation. Trainings-Bots (GPTBot, ClaudeBot, CCBot, Bytespider, Meta-ExternalAgent, Applebot-Extended, Google-Extended) werden blockiert, weil deren Crawl nur den Modell-Snapshot füttert und für die Seite selbst keinen Sichtbarkeits-Gewinn bringt.

Diese Trennung gibt es bei keinem der drei untersuchten Konkurrenz-Tools (metatags.io, seoptimer.com, websiteseochecker.com) als One-Click-Toggle. Nutzer mussten die Listen bisher manuell aus dem Vendor-Doku-PDF abschreiben — das ist exakt die Stelle, an der veraltete Tutorials sich verstetigen und das anthropic-ai-Token überlebt.

Wozu ist der Validator gut?

Der Validator läuft live über den emittierten Text und meldet fünf Foot-Gun-Klassen:

Case-Mismatch: /Admin/ vs /admin/ — robots.txt ist case-sensitive, die beiden Pfade blocken unterschiedliche URLs.
Konflikt: Allow und Disallow auf demselben Pfad — Crawler entscheiden uneinheitlich, die Intention ist mehrdeutig.
Veraltete Tokens: anthropic-ai, Claude-Web — werden 2026 von keinem aktiven Bot mehr gelesen.
Blockiertes CSS/JS: /css/, /assets/, /*.js — Google rendert dann eine kaputte Version der Seite im Mobile-Friendly-Test.
Sitemap-URL-Format: nicht-absolute URLs (example.com/sitemap.xml statt https://example.com/sitemap.xml) werden von Crawlern ignoriert.

Der Validator ist passiv — er korrigiert nichts automatisch, er sagt dir nur, wo zu schauen ist. Das hält die Datei deterministisch: dieselbe Eingabe ergibt dieselbe Ausgabe, ohne magische Umschreibungen im Hintergrund.

Warum keine `Host`-Direktive (außer für Yandex)?

Host: ist eine Yandex-Erweiterung und in der offiziellen robots.txt-Spec von Google, Bing und DuckDuckGo nicht enthalten. In Sitemaps mit mehreren Mirror-Domains nennt Yandex damit die kanonische Variante. Wenn deine Hauptsuchmaschinen Google und Bing sind, brauchst du Host: nicht — die canonical-URL gehört in den <link rel="canonical">-Tag des HTML-<head> oder in einen Sitemap:-Eintrag. Der Generator bietet Host: als optionales Feld pro Stack an, default ist es leer.

Wie verhält sich der Generator zu Sitemap-Einträgen?

Sitemap-URLs werden als separate Sektion unten in der Datei emittiert, ein Eintrag pro Zeile:

Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/sitemap-news.xml

Sitemap-Zeilen gelten global — sie sind nicht an einen User-agent-Block gebunden. Mehrere Sitemap-Einträge sind erlaubt; alle aktuellen Crawler lesen sie. Der Validator prüft das URL-Format (http:// oder https:// Pflicht) und warnt bei plain http als Best-Practice-Hinweis.

robots.txt ist eine freiwillige Konvention. Wohlerzogene Crawler — Googlebot, Bingbot, DuckDuckBot, Yahoo Slurp, große SEO-Crawler wie Ahrefsbot oder SemrushBot — respektieren die Datei verlässlich. AI-Crawler haben dagegen in mehreren Audit-Reports 2024/2025 robots.txt ignoriert: WIRED testete PerplexityBot und fand Zugriffe trotz Disallow; 404Media dokumentierte ähnliche Befunde bei Bytespider. Wer einen harten Block braucht, ergänzt eine Bot-Mitigation- Schicht: Cloudflare Bot Fight Mode, WAF-Rules pro User-agent, Server-Block via nginx-if oder Apache-RewriteCond %{HTTP_USER_AGENT}. Der Generator nennt das im Banner explizit, weil viele Tutorials so tun, als sei robots.txt allein ausreichend.

Welche Foot-Guns gibt es noch?

Drei oft übersehene Punkte:

Pfade sind Präfix-Matches. Disallow: /admin blockiert auch /administrator/, nicht nur /admin/. Wer nur den exakten Pfad blocken will, schreibt Disallow: /admin/$ mit End-Anker (in Googlebot dialect, in striktem RFC nicht unterstützt — Variation prüfen).
Disallow: ohne Wert. Das ist eine valide Direktive und bedeutet „blockiere nichts” — funktional identisch zu „User-agent: X, blockiere keinen Pfad”. Manche Legacy-Crawler erwarten mindestens eine Disallow-Zeile pro Block; deshalb ist die leere Form Konvention.
User-agent: * matched nicht alle Bots. Wenn ein spezifischer User-agent-Block (z. B. User-agent: GPTBot) existiert, übersteuert der die *-Regeln für GPTBot komplett — auch die Allow-Regeln gehen verloren. Das heißt: spezielle Bot-Blöcke wiederholen alle relevanten Regeln explizit, statt sich auf den *-Block zu verlassen.

Welche verwandten Tools gibt es?

Wer robots.txt einsetzt, baut typischerweise auch andere Crawler-/Server-Header-Infrastruktur. Dafür gibt es im Set:

.htaccess-Generator — Apache-Server-Konfiguration mit Security-Headern und Redirects.
nginx-Config-Generator — moderne nginx-Server-Blöcke mit HTTP/3 und Security-Headern.
OpenGraph-Generator — Social-Media-Vorschau-Tags für sechs Plattformen.
UTM-Link-Builder — Tracking-Parameter sauber an Marketing-URLs hängen.

Wo finde ich weiterführende Details?

Google Robots.txt Specification — die offizielle Doku von Google zum Robots-Exclusion-Protocol.
ai.robots.txt (Community-Repository) — gepflegte Liste aktueller AI-Bot-Kennungen, basis für die hier vorausgewählten 14 Tokens.
Cloudflare AIndependence — Beispiel-Strategie für AI-Bot-Mitigation jenseits von robots.txt.
Robots Exclusion Protocol bei Wikipedia — Hintergrund zum Protokoll, Geschichte seit 1994.

robots.txt-Generator — AI-Bot-Block 2026, Validator

AI-Bot-Voreinstellungen

Häufige Sperr-Pfade

User-agent-Blöcke

Sitemap(s)

Optionen

Validator

Ausgabe

So funktioniert es

Text oder Code einfügen

Automatische Verarbeitung

Ergebnis kopieren

Datenschutz

Wie benutzt du dieses Tool?

Was macht der robots.txt-Generator?

Welche AI-Bot-Kennungen kennt der Generator (Stand 2026)?

Wie funktioniert die Allow-Search-Block-Train-Voreinstellung?

Wozu ist der Validator gut?

Warum keine `Host`-Direktive (außer für Yandex)?

Wie verhält sich der Generator zu Sitemap-Einträgen?

Was bedeutet das Honest-Limits-Banner unten im Tool?

Welche Foot-Guns gibt es noch?

Welche verwandten Tools gibt es?

Wo finde ich weiterführende Details?

AI-Bot-Voreinstellungen

Häufige Sperr-Pfade

User-agent-Blöcke

Sitemap(s)

Optionen

Validator

Ausgabe

So funktioniert es

Text oder Code einfügen

Automatische Verarbeitung

Ergebnis kopieren

Datenschutz

Was macht der robots.txt-Generator?

Welche AI-Bot-Kennungen kennt der Generator (Stand 2026)?

Wie funktioniert die Allow-Search-Block-Train-Voreinstellung?

Wozu ist der Validator gut?

Warum keine Host-Direktive (außer für Yandex)?

Wie verhält sich der Generator zu Sitemap-Einträgen?

Was bedeutet das Honest-Limits-Banner unten im Tool?

Welche Foot-Guns gibt es noch?

Welche verwandten Tools gibt es?

Wo finde ich weiterführende Details?

Warum keine `Host`-Direktive (außer für Yandex)?