Wie benutzt du dieses Tool?
- Eine AI-Bot-Voreinstellung wählen (oder auslassen) — `Block all` setzt alle 14 aktuellen Bot-Kennungen 2026 auf `Disallow: /`, `Allow AI search, block training` erlaubt Such-Bots und blockiert Trainings-Bots.
- Bei Bedarf einen Common-Block anklicken (Admin, Shop, Suche, Query-Rauschen, PDFs, Drafts) — die Pfade landen im ersten `User-agent: *`-Block; oder eigene User-agent-Blöcke anlegen und Allow/Disallow zeilenweise befüllen.
- Crawl-delay nur setzen, wenn der Server überlastet ist (Googlebot ignoriert es; Bing und Yandex respektieren es).
- Sitemap-URLs eine pro Zeile eintragen und das Validator-Panel checken: Case-Mismatch, Allow/Disallow-Konflikt, veraltete Tokens, blockiertes CSS/JS, malformed Sitemap-URLs.
- Ausgabe kopieren oder als `robots.txt` herunterladen und auf der Domain-Root als `/robots.txt` ablegen.
Was macht der robots.txt-Generator?
Der Generator ist ein Editor für die robots.txt-Datei, die Suchmaschinen-Crawler und AI-Bots vor
dem Indexieren lesen. Du baust beliebig viele User-agent-Blöcke nebeneinander auf, jeder mit
eigenen Allow- und Disallow-Regeln und optionalem Crawl-delay. Daneben gibt es Voreinstellungen
für AI-Bot-Kennungen (Stand 2026), Common-Block-Pfade (Admin, Shop, Suche, PDFs) und einen
Validator, der typische Fehler markiert. Die Ausgabe ist Plain-Text mit LF-Zeilenenden, ohne BOM,
bereit für /robots.txt auf der Domain-Root.
Drei Bausteine treiben das Tool:
- Multi-Stack-Editor — beliebig viele User-agent-Blöcke, Allow/Disallow zeilenweise editierbar, Crawl-delay pro Block setzbar.
- AI-Bot-Voreinstellungen — fünf kuratierte Splits: alle 14 Bots blocken, Search-Bots erlauben und Trainings-Bots blocken, sowie Drei-Tier-Splits speziell für Apple, OpenAI und Anthropic.
- Validator — case-mismatch, Konflikt zwischen Allow und Disallow, blockiertes CSS/JS, veraltete Token-Namen, malformed Sitemap-URLs, plain http statt https.
Alles im Browser. Kein Upload, kein Account, kein Cookie-Banner.
Welche AI-Bot-Kennungen kennt der Generator (Stand 2026)?
Die kuratierte Liste deckt vierzehn aktuelle Tokens ab — gepflegt nach Vendor-Doku statt aus veralteten Tutorials:
| Vendor | Bot-Kennung | Zweck |
|---|---|---|
| OpenAI | GPTBot | Training |
| OpenAI | ChatGPT-User | nutzer-initiierte Abfragen |
| OpenAI | OAI-SearchBot | Real-time Search-Grounding |
| Anthropic | ClaudeBot | Training |
| Anthropic | Claude-User | nutzer-initiierte Abfragen |
| Anthropic | Claude-SearchBot | claude.ai-Suche |
| Perplexity | PerplexityBot | Search-Grounding |
| Perplexity | Perplexity-User | nutzer-initiierte Abfragen |
| Common Crawl | CCBot | Training (Datensatz für viele Modelle) |
| ByteDance | Bytespider | Training |
| Meta | Meta-ExternalAgent | Training |
| Amazon | Amazonbot | Mixed |
| Apple | Applebot-Extended | Training |
Google-Extended | Training |
Häufiger Fehler: Tutorials aus 2023 nennen anthropic-ai und Claude-Web. Anthropic hat diese
Namen 2024 retired — wer sie heute in der robots.txt führt, blockiert niemanden mehr und hat
gleichzeitig keinen Block auf den echten Bot. Der Validator markiert diese Tokens als deprecated
und nennt den modernen Ersatz.
Wie funktioniert die Allow-Search-Block-Train-Voreinstellung?
Die zweite AI-Voreinstellung trennt Bot-Zwecke statt pauschal alle zu blocken. Search-Bots (OAI-SearchBot, Claude-SearchBot, PerplexityBot) dürfen die Seite abrufen, weil deren Aufruf direkt einer Nutzer-Frage entspricht — die Seite landet in der Antwort als Citation. Trainings-Bots (GPTBot, ClaudeBot, CCBot, Bytespider, Meta-ExternalAgent, Applebot-Extended, Google-Extended) werden blockiert, weil deren Crawl nur den Modell-Snapshot füttert und für die Seite selbst keinen Sichtbarkeits-Gewinn bringt.
Diese Trennung gibt es bei keinem der drei untersuchten Konkurrenz-Tools (metatags.io,
seoptimer.com, websiteseochecker.com) als One-Click-Toggle. Nutzer mussten die Listen bisher
manuell aus dem Vendor-Doku-PDF abschreiben — das ist exakt die Stelle, an der veraltete
Tutorials sich verstetigen und das anthropic-ai-Token überlebt.
Wozu ist der Validator gut?
Der Validator läuft live über den emittierten Text und meldet fünf Foot-Gun-Klassen:
- Case-Mismatch:
/Admin/vs/admin/—robots.txtist case-sensitive, die beiden Pfade blocken unterschiedliche URLs. - Konflikt: Allow und Disallow auf demselben Pfad — Crawler entscheiden uneinheitlich, die Intention ist mehrdeutig.
- Veraltete Tokens:
anthropic-ai,Claude-Web— werden 2026 von keinem aktiven Bot mehr gelesen. - Blockiertes CSS/JS:
/css/,/assets/,/*.js— Google rendert dann eine kaputte Version der Seite im Mobile-Friendly-Test. - Sitemap-URL-Format: nicht-absolute URLs (
example.com/sitemap.xmlstatthttps://example.com/sitemap.xml) werden von Crawlern ignoriert.
Der Validator ist passiv — er korrigiert nichts automatisch, er sagt dir nur, wo zu schauen ist. Das hält die Datei deterministisch: dieselbe Eingabe ergibt dieselbe Ausgabe, ohne magische Umschreibungen im Hintergrund.
Warum keine Host-Direktive (außer für Yandex)?
Host: ist eine Yandex-Erweiterung und in der offiziellen robots.txt-Spec von Google, Bing und
DuckDuckGo nicht enthalten. In Sitemaps mit mehreren Mirror-Domains nennt Yandex damit die
kanonische Variante. Wenn deine Hauptsuchmaschinen Google und Bing sind, brauchst du Host:
nicht — die canonical-URL gehört in den <link rel="canonical">-Tag des HTML-<head> oder in
einen Sitemap:-Eintrag. Der Generator bietet Host: als optionales Feld pro Stack an, default
ist es leer.
Wie verhält sich der Generator zu Sitemap-Einträgen?
Sitemap-URLs werden als separate Sektion unten in der Datei emittiert, ein Eintrag pro Zeile:
Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/sitemap-news.xml
Sitemap-Zeilen gelten global — sie sind nicht an einen User-agent-Block gebunden. Mehrere
Sitemap-Einträge sind erlaubt; alle aktuellen Crawler lesen sie. Der Validator prüft das
URL-Format (http:// oder https:// Pflicht) und warnt bei plain http als
Best-Practice-Hinweis.
Was bedeutet das Honest-Limits-Banner unten im Tool?
robots.txt ist eine freiwillige Konvention. Wohlerzogene Crawler — Googlebot, Bingbot,
DuckDuckBot, Yahoo Slurp, große SEO-Crawler wie Ahrefsbot oder SemrushBot — respektieren die
Datei verlässlich. AI-Crawler haben dagegen in mehreren Audit-Reports 2024/2025 robots.txt
ignoriert: WIRED testete PerplexityBot und fand Zugriffe trotz Disallow; 404Media dokumentierte
ähnliche Befunde bei Bytespider. Wer einen harten Block braucht, ergänzt eine Bot-Mitigation-
Schicht: Cloudflare Bot Fight Mode,
WAF-Rules pro User-agent, Server-Block via nginx-if oder Apache-RewriteCond %{HTTP_USER_AGENT}.
Der Generator nennt das im Banner explizit, weil viele Tutorials so tun, als sei robots.txt allein
ausreichend.
Welche Foot-Guns gibt es noch?
Drei oft übersehene Punkte:
- Pfade sind Präfix-Matches.
Disallow: /adminblockiert auch/administrator/, nicht nur/admin/. Wer nur den exakten Pfad blocken will, schreibtDisallow: /admin/$mit End-Anker (in Googlebot dialect, in striktem RFC nicht unterstützt — Variation prüfen). Disallow:ohne Wert. Das ist eine valide Direktive und bedeutet „blockiere nichts” — funktional identisch zu „User-agent: X, blockiere keinen Pfad”. Manche Legacy-Crawler erwarten mindestens eine Disallow-Zeile pro Block; deshalb ist die leere Form Konvention.User-agent: *matched nicht alle Bots. Wenn ein spezifischer User-agent-Block (z. B.User-agent: GPTBot) existiert, übersteuert der die*-Regeln für GPTBot komplett — auch die Allow-Regeln gehen verloren. Das heißt: spezielle Bot-Blöcke wiederholen alle relevanten Regeln explizit, statt sich auf den*-Block zu verlassen.
Welche verwandten Tools gibt es?
Wer robots.txt einsetzt, baut typischerweise auch andere Crawler-/Server-Header-Infrastruktur.
Dafür gibt es im Set:
- .htaccess-Generator — Apache-Server-Konfiguration mit Security-Headern und Redirects.
- nginx-Config-Generator — moderne nginx-Server-Blöcke mit HTTP/3 und Security-Headern.
- OpenGraph-Generator — Social-Media-Vorschau-Tags für sechs Plattformen.
- UTM-Link-Builder — Tracking-Parameter sauber an Marketing-URLs hängen.
Wo finde ich weiterführende Details?
- Google Robots.txt Specification — die offizielle Doku von Google zum Robots-Exclusion-Protocol.
- ai.robots.txt (Community-Repository) — gepflegte Liste aktueller AI-Bot-Kennungen, basis für die hier vorausgewählten 14 Tokens.
- Cloudflare AIndependence — Beispiel-Strategie für AI-Bot-Mitigation jenseits von robots.txt.
- Robots Exclusion Protocol bei Wikipedia — Hintergrund zum Protokoll, Geschichte seit 1994.
Zuletzt aktualisiert: