Zum Inhalt springen
DEV-TOOL

robots.txt-Generator — AI-Bot-Block 2026, Validator

User-agent-Blöcke zusammenklicken, AI-Bots gezielt blockieren oder als Citation-Quelle erlauben — mit Validator gegen typische Fallen (Case-Mismatch, veraltete Tokens, blockiertes CSS/JS).

Läuft lokal im Browser — der Generator emittiert Text im Speicher, nichts wird hochgeladen.

AI-Bot-Voreinstellungen

Aktuelle Bot-Kennungen 2026 — veraltete Tokens (anthropic-ai, Claude-Web) blockieren niemanden mehr und werden im Validator markiert.

Search-Bots dürfen die Seite zitieren, Trainings-Bots werden geblockt. Empfohlene Strategie für Inhalts-Sites, die Sichtbarkeit ohne Datensammlung wollen.

Häufige Sperr-Pfade

Klick fügt die Pfade dem ersten `User-agent: *`-Block hinzu (oder legt einen an).

User-agent-Blöcke

Googlebot ignoriert Crawl-delay. Bing und Yandex respektieren es. Nur setzen, wenn der Server überlastet ist.

Sitemap(s)

Eine absolute URL pro Zeile — beginnt idealerweise mit `https://`.

Optionen

AI-Bots im Output 0
User-agent-Blöcke 1
Sitemap-Zeilen 1

Validator

Keine Auffälligkeiten gefunden.

Ausgabe

In `/robots.txt` auf der Domain-Root deiner Seite ablegen (LF-Zeilenenden, kein BOM).

User-agent: *
Disallow: /admin/

Sitemap: https://example.com/sitemap.xml

So funktioniert es

  1. 01

    Text oder Code einfügen

    Füge deinen Inhalt in das Eingabefeld ein oder tippe direkt.

  2. 02

    Automatische Verarbeitung

    Das Tool verarbeitet den Inhalt sofort und zeigt das Ergebnis.

  3. 03

    Ergebnis kopieren

    Kopiere das Ergebnis mit einem Klick in die Zwischenablage.

Datenschutz

Alle Berechnungen laufen direkt in deinem Browser. Keine Daten werden auf Server übertragen.

Ein Editor für `robots.txt` mit mehreren User-agent-Blöcken, kuratierten AI-Bot-Voreinstellungen (Block-All / Allow-Search-Block-Train / Drei-Tier-Splits für Apple, OpenAI und Anthropic) und einem semantischen Validator. Du fügst Pfade zeilenweise hinzu, der Generator emittiert das Ergebnis live als LF-formatierten Plain-Text — bereit für `/robots.txt` auf der Domain-Root. Pure-client, kein Upload, kein Account.

01 — Anleitung

Wie benutzt du dieses Tool?

  1. Eine AI-Bot-Voreinstellung wählen (oder auslassen) — `Block all` setzt alle 14 aktuellen Bot-Kennungen 2026 auf `Disallow: /`, `Allow AI search, block training` erlaubt Such-Bots und blockiert Trainings-Bots.
  2. Bei Bedarf einen Common-Block anklicken (Admin, Shop, Suche, Query-Rauschen, PDFs, Drafts) — die Pfade landen im ersten `User-agent: *`-Block; oder eigene User-agent-Blöcke anlegen und Allow/Disallow zeilenweise befüllen.
  3. Crawl-delay nur setzen, wenn der Server überlastet ist (Googlebot ignoriert es; Bing und Yandex respektieren es).
  4. Sitemap-URLs eine pro Zeile eintragen und das Validator-Panel checken: Case-Mismatch, Allow/Disallow-Konflikt, veraltete Tokens, blockiertes CSS/JS, malformed Sitemap-URLs.
  5. Ausgabe kopieren oder als `robots.txt` herunterladen und auf der Domain-Root als `/robots.txt` ablegen.

Was macht der robots.txt-Generator?

Der Generator ist ein Editor für die robots.txt-Datei, die Suchmaschinen-Crawler und AI-Bots vor dem Indexieren lesen. Du baust beliebig viele User-agent-Blöcke nebeneinander auf, jeder mit eigenen Allow- und Disallow-Regeln und optionalem Crawl-delay. Daneben gibt es Voreinstellungen für AI-Bot-Kennungen (Stand 2026), Common-Block-Pfade (Admin, Shop, Suche, PDFs) und einen Validator, der typische Fehler markiert. Die Ausgabe ist Plain-Text mit LF-Zeilenenden, ohne BOM, bereit für /robots.txt auf der Domain-Root.

Drei Bausteine treiben das Tool:

  • Multi-Stack-Editor — beliebig viele User-agent-Blöcke, Allow/Disallow zeilenweise editierbar, Crawl-delay pro Block setzbar.
  • AI-Bot-Voreinstellungen — fünf kuratierte Splits: alle 14 Bots blocken, Search-Bots erlauben und Trainings-Bots blocken, sowie Drei-Tier-Splits speziell für Apple, OpenAI und Anthropic.
  • Validator — case-mismatch, Konflikt zwischen Allow und Disallow, blockiertes CSS/JS, veraltete Token-Namen, malformed Sitemap-URLs, plain http statt https.

Alles im Browser. Kein Upload, kein Account, kein Cookie-Banner.

Welche AI-Bot-Kennungen kennt der Generator (Stand 2026)?

Die kuratierte Liste deckt vierzehn aktuelle Tokens ab — gepflegt nach Vendor-Doku statt aus veralteten Tutorials:

VendorBot-KennungZweck
OpenAIGPTBotTraining
OpenAIChatGPT-Usernutzer-initiierte Abfragen
OpenAIOAI-SearchBotReal-time Search-Grounding
AnthropicClaudeBotTraining
AnthropicClaude-Usernutzer-initiierte Abfragen
AnthropicClaude-SearchBotclaude.ai-Suche
PerplexityPerplexityBotSearch-Grounding
PerplexityPerplexity-Usernutzer-initiierte Abfragen
Common CrawlCCBotTraining (Datensatz für viele Modelle)
ByteDanceBytespiderTraining
MetaMeta-ExternalAgentTraining
AmazonAmazonbotMixed
AppleApplebot-ExtendedTraining
GoogleGoogle-ExtendedTraining

Häufiger Fehler: Tutorials aus 2023 nennen anthropic-ai und Claude-Web. Anthropic hat diese Namen 2024 retired — wer sie heute in der robots.txt führt, blockiert niemanden mehr und hat gleichzeitig keinen Block auf den echten Bot. Der Validator markiert diese Tokens als deprecated und nennt den modernen Ersatz.

Wie funktioniert die Allow-Search-Block-Train-Voreinstellung?

Die zweite AI-Voreinstellung trennt Bot-Zwecke statt pauschal alle zu blocken. Search-Bots (OAI-SearchBot, Claude-SearchBot, PerplexityBot) dürfen die Seite abrufen, weil deren Aufruf direkt einer Nutzer-Frage entspricht — die Seite landet in der Antwort als Citation. Trainings-Bots (GPTBot, ClaudeBot, CCBot, Bytespider, Meta-ExternalAgent, Applebot-Extended, Google-Extended) werden blockiert, weil deren Crawl nur den Modell-Snapshot füttert und für die Seite selbst keinen Sichtbarkeits-Gewinn bringt.

Diese Trennung gibt es bei keinem der drei untersuchten Konkurrenz-Tools (metatags.io, seoptimer.com, websiteseochecker.com) als One-Click-Toggle. Nutzer mussten die Listen bisher manuell aus dem Vendor-Doku-PDF abschreiben — das ist exakt die Stelle, an der veraltete Tutorials sich verstetigen und das anthropic-ai-Token überlebt.

Wozu ist der Validator gut?

Der Validator läuft live über den emittierten Text und meldet fünf Foot-Gun-Klassen:

  • Case-Mismatch: /Admin/ vs /admin/robots.txt ist case-sensitive, die beiden Pfade blocken unterschiedliche URLs.
  • Konflikt: Allow und Disallow auf demselben Pfad — Crawler entscheiden uneinheitlich, die Intention ist mehrdeutig.
  • Veraltete Tokens: anthropic-ai, Claude-Web — werden 2026 von keinem aktiven Bot mehr gelesen.
  • Blockiertes CSS/JS: /css/, /assets/, /*.js — Google rendert dann eine kaputte Version der Seite im Mobile-Friendly-Test.
  • Sitemap-URL-Format: nicht-absolute URLs (example.com/sitemap.xml statt https://example.com/sitemap.xml) werden von Crawlern ignoriert.

Der Validator ist passiv — er korrigiert nichts automatisch, er sagt dir nur, wo zu schauen ist. Das hält die Datei deterministisch: dieselbe Eingabe ergibt dieselbe Ausgabe, ohne magische Umschreibungen im Hintergrund.

Warum keine Host-Direktive (außer für Yandex)?

Host: ist eine Yandex-Erweiterung und in der offiziellen robots.txt-Spec von Google, Bing und DuckDuckGo nicht enthalten. In Sitemaps mit mehreren Mirror-Domains nennt Yandex damit die kanonische Variante. Wenn deine Hauptsuchmaschinen Google und Bing sind, brauchst du Host: nicht — die canonical-URL gehört in den <link rel="canonical">-Tag des HTML-<head> oder in einen Sitemap:-Eintrag. Der Generator bietet Host: als optionales Feld pro Stack an, default ist es leer.

Wie verhält sich der Generator zu Sitemap-Einträgen?

Sitemap-URLs werden als separate Sektion unten in der Datei emittiert, ein Eintrag pro Zeile:

Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/sitemap-news.xml

Sitemap-Zeilen gelten global — sie sind nicht an einen User-agent-Block gebunden. Mehrere Sitemap-Einträge sind erlaubt; alle aktuellen Crawler lesen sie. Der Validator prüft das URL-Format (http:// oder https:// Pflicht) und warnt bei plain http als Best-Practice-Hinweis.

Was bedeutet das Honest-Limits-Banner unten im Tool?

robots.txt ist eine freiwillige Konvention. Wohlerzogene Crawler — Googlebot, Bingbot, DuckDuckBot, Yahoo Slurp, große SEO-Crawler wie Ahrefsbot oder SemrushBot — respektieren die Datei verlässlich. AI-Crawler haben dagegen in mehreren Audit-Reports 2024/2025 robots.txt ignoriert: WIRED testete PerplexityBot und fand Zugriffe trotz Disallow; 404Media dokumentierte ähnliche Befunde bei Bytespider. Wer einen harten Block braucht, ergänzt eine Bot-Mitigation- Schicht: Cloudflare Bot Fight Mode, WAF-Rules pro User-agent, Server-Block via nginx-if oder Apache-RewriteCond %{HTTP_USER_AGENT}. Der Generator nennt das im Banner explizit, weil viele Tutorials so tun, als sei robots.txt allein ausreichend.

Welche Foot-Guns gibt es noch?

Drei oft übersehene Punkte:

  1. Pfade sind Präfix-Matches. Disallow: /admin blockiert auch /administrator/, nicht nur /admin/. Wer nur den exakten Pfad blocken will, schreibt Disallow: /admin/$ mit End-Anker (in Googlebot dialect, in striktem RFC nicht unterstützt — Variation prüfen).
  2. Disallow: ohne Wert. Das ist eine valide Direktive und bedeutet „blockiere nichts” — funktional identisch zu „User-agent: X, blockiere keinen Pfad”. Manche Legacy-Crawler erwarten mindestens eine Disallow-Zeile pro Block; deshalb ist die leere Form Konvention.
  3. User-agent: * matched nicht alle Bots. Wenn ein spezifischer User-agent-Block (z. B. User-agent: GPTBot) existiert, übersteuert der die *-Regeln für GPTBot komplett — auch die Allow-Regeln gehen verloren. Das heißt: spezielle Bot-Blöcke wiederholen alle relevanten Regeln explizit, statt sich auf den *-Block zu verlassen.

Welche verwandten Tools gibt es?

Wer robots.txt einsetzt, baut typischerweise auch andere Crawler-/Server-Header-Infrastruktur. Dafür gibt es im Set:

Wo finde ich weiterführende Details?

Zuletzt aktualisiert:

Das könnte dir auch gefallen