Aller au contenu
DEV-TOOL

Générateur robots.txt — blocage AI-bot 2026, validateur

Cliquez les blocs User-agent, bloquez les AI-bots ciblés ou autorisez-les comme source de citation — avec validateur contre les pièges typiques (case-mismatch, tokens obsolètes, CSS/JS bloqués).

Runs locally in the browser — the generator emits text in memory, nothing is uploaded.

AI bot presets

Current 2026 bot tokens — deprecated names (anthropic-ai, Claude-Web) block nobody and are flagged by the validator.

Search bots may cite the page, training bots are blocked. The recommended strategy for content sites that want visibility without data harvesting.

Common block paths

Adds paths to the first `User-agent: *` stack (creates one if missing).

User-agent stacks

Googlebot ignores Crawl-delay. Bing and Yandex respect it. Set only if the server is overloaded.

Sitemap(s)

One absolute URL per line — should ideally start with `https://`.

Options

AI bots in output 0
User-agent stacks 1
Sitemap lines 1

Validator

No issues found.

Output

Place at `/robots.txt` on your domain root (LF line endings, no BOM).

User-agent: *
Disallow: /admin/

Sitemap: https://example.com/sitemap.xml

Comment ça marche

  1. 01

    Text oder Code einfügen

    Füge deinen Inhalt in das Eingabefeld ein oder tippe direkt.

  2. 02

    Automatische Verarbeitung

    Das Tool verarbeitet den Inhalt sofort und zeigt das Ergebnis.

  3. 03

    Ergebnis kopieren

    Kopiere das Ergebnis mit einem Klick in die Zwischenablage.

Confidentialité

Alle Berechnungen laufen direkt in deinem Browser. Keine Daten werden auf Server übertragen.

Un éditeur de `robots.txt` avec plusieurs blocs User-agent, presets AI-bot curés (Block-All / Allow-Search-Block-Train / splits trois-niveaux pour Apple, OpenAI et Anthropic) et un validateur sémantique. Vous ajoutez les chemins ligne par ligne, le générateur émet le résultat en direct comme texte brut au format LF — prêt pour `/robots.txt` sur la racine du domaine. Pure-client, pas de téléversement, pas de compte.

01 — Mode d’emploi

Comment utiliser cet outil ?

  1. Choisir un preset AI-bot (ou ne pas en mettre) — `Block all` pose les 14 identifiants actuels 2026 sur `Disallow: /`, `Allow AI search, block training` autorise les Search-bots et bloque les bots Training.
  2. Au besoin cliquer un Common-Block (Admin, Shop, Recherche, bruit de requête, PDF, brouillons) — les chemins atterrissent dans le premier bloc `User-agent: *` ; ou créer ses propres blocs User-agent et remplir Allow/Disallow ligne par ligne.
  3. Mettre Crawl-delay seulement si le serveur est surchargé (Googlebot l'ignore ; Bing et Yandex le respectent).
  4. Saisir les URL Sitemap une par ligne et vérifier le panneau validateur : case-mismatch, conflit Allow/Disallow, tokens obsolètes, CSS/JS bloqués, URL Sitemap malformée.
  5. Copier la sortie ou la télécharger en `robots.txt` et la déposer sur la racine du domaine comme `/robots.txt`.

Que fait le générateur robots.txt ?

Le générateur est un éditeur pour le fichier robots.txt que les crawlers de moteurs de recherche et les AI-bots lisent avant l’indexation. Vous construisez côte à côte autant de blocs User-agent que vous voulez, chacun avec ses propres règles Allow et Disallow et un Crawl-delay optionnel. À côté, il y a des presets pour les identifiants AI-bot (état 2026), des chemins Common-Block (Admin, Shop, Recherche, PDF) et un validateur qui marque les erreurs typiques. La sortie est du texte brut avec terminaisons LF, sans BOM, prête pour /robots.txt sur la racine du domaine.

Trois briques pilotent l’outil :

  • Éditeur multi-stack — autant de blocs User-agent que voulu, Allow/Disallow éditables ligne par ligne, Crawl-delay réglable par bloc.
  • Presets AI-bot — cinq splits curés : bloquer tous les 14 bots, autoriser les Search-bots et bloquer les bots Training, ainsi que des splits trois-niveaux spécifiquement pour Apple, OpenAI et Anthropic.
  • Validateur — case-mismatch, conflit entre Allow et Disallow, CSS/JS bloqués, noms de tokens obsolètes, URL Sitemap malformées, http brut au lieu de https.

Tout dans le navigateur. Pas de téléversement, pas de compte, pas de bandeau cookies.

Quels identifiants AI-bot le générateur connaît-il (état 2026) ?

La liste curée couvre quatorze tokens actuels — entretenue d’après la documentation éditeur plutôt que d’après des tutoriels obsolètes :

ÉditeurIdentifiant botBut
OpenAIGPTBotEntraînement
OpenAIChatGPT-UserRequêtes initiées par utilisateur
OpenAIOAI-SearchBotAncrage Search temps réel
AnthropicClaudeBotEntraînement
AnthropicClaude-UserRequêtes initiées par utilisateur
AnthropicClaude-SearchBotRecherche claude.ai
PerplexityPerplexityBotAncrage Search
PerplexityPerplexity-UserRequêtes initiées par utilisateur
Common CrawlCCBotEntraînement (jeu de données pour beaucoup de modèles)
ByteDanceBytespiderEntraînement
MetaMeta-ExternalAgentEntraînement
AmazonAmazonbotMixte
AppleApplebot-ExtendedEntraînement
GoogleGoogle-ExtendedEntraînement

Erreur fréquente : les tutoriels de 2023 nomment anthropic-ai et Claude-Web. Anthropic a retiré ces noms en 2024 — qui les liste aujourd’hui dans robots.txt ne bloque plus personne et n’a en même temps aucun blocage sur le vrai bot. Le validateur marque ces tokens comme obsolètes et indique le remplacement moderne.

Comment fonctionne le preset Allow-Search-Block-Train ?

Le deuxième preset IA sépare les buts des bots au lieu de tous les bloquer en bloc. Les Search-bots (OAI-SearchBot, Claude-SearchBot, PerplexityBot) peuvent saisir la page, parce que leur appel correspond directement à une question utilisateur — la page atterrit dans la réponse comme citation. Les bots Training (GPTBot, ClaudeBot, CCBot, Bytespider, Meta-ExternalAgent, Applebot-Extended, Google-Extended) sont bloqués, parce que leur crawl nourrit uniquement le snapshot de modèle et n’apporte aucun gain de visibilité pour la page elle-même.

Cette séparation n’existe chez aucun des trois outils concurrents étudiés (metatags.io, seoptimer.com, websiteseochecker.com) comme bouton un-clic. Les utilisateurs devaient jusqu’ici recopier les listes manuellement depuis le PDF de documentation éditeur — c’est exactement l’endroit où les tutoriels obsolètes se pérennisent et où le token anthropic-ai survit.

À quoi sert le validateur ?

Le validateur tourne en direct sur le texte émis et signale cinq classes de foot-guns :

  • Case-mismatch : /Admin/ vs /admin/robots.txt est sensible à la casse, les deux chemins bloquent des URL différentes.
  • Conflit : Allow et Disallow sur le même chemin — les crawlers décident de manière hétérogène, l’intention est ambiguë.
  • Tokens obsolètes : anthropic-ai, Claude-Web — ne sont plus lus par aucun bot actif en 2026.
  • CSS/JS bloqué : /css/, /assets/, /*.js — Google rend alors une version cassée de la page dans le test Mobile-Friendly.
  • Format URL Sitemap : URL non absolues (example.com/sitemap.xml au lieu de https://example.com/sitemap.xml) sont ignorées par les crawlers.

Le validateur est passif — il ne corrige rien automatiquement, il vous dit seulement où regarder. Cela maintient le fichier déterministe : même entrée donne même sortie, sans réécritures magiques en arrière-plan.

Pourquoi pas de directive Host (sauf pour Yandex) ?

Host: est une extension Yandex et n’est pas incluse dans la spec robots.txt officielle de Google, Bing et DuckDuckGo. Dans des sitemaps avec plusieurs domaines miroir, Yandex désigne par là la variante canonique. Si vos moteurs principaux sont Google et Bing, vous n’avez pas besoin de Host: — l’URL canonique va dans la balise <link rel="canonical"> du <head> HTML ou dans une entrée Sitemap:. Le générateur propose Host: comme champ optionnel par stack, vide par défaut.

Comment le générateur se comporte-t-il avec les entrées Sitemap ?

Les URL Sitemap sont émises en section séparée en bas du fichier, une entrée par ligne :

Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/sitemap-news.xml

Les lignes Sitemap valent globalement — elles ne sont pas liées à un bloc User-agent. Plusieurs entrées Sitemap sont autorisées ; tous les crawlers actuels les lisent. Le validateur vérifie le format URL (http:// ou https:// obligatoire) et avertit sur http brut comme indication de bonne pratique.

Que signifie le bandeau Honest-Limits en bas de l’outil ?

robots.txt est une convention volontaire. Les crawlers bien élevés — Googlebot, Bingbot, DuckDuckBot, Yahoo Slurp, grands crawlers SEO comme Ahrefsbot ou SemrushBot — respectent le fichier de manière fiable. Les crawlers IA en revanche ont ignoré robots.txt dans plusieurs rapports d’audit 2024/2025 : WIRED a testé PerplexityBot et trouvé des accès malgré Disallow ; 404Media a documenté des constats similaires pour Bytespider. Qui a besoin d’un blocage dur ajoute une couche de mitigation de bots : Cloudflare Bot Fight Mode, règles WAF par User-agent, bloc serveur via nginx-if ou Apache-RewriteCond %{HTTP_USER_AGENT}. Le générateur le mentionne explicitement dans le bandeau, parce que beaucoup de tutoriels font comme si robots.txt seul suffisait.

Quels autres foot-guns existent ?

Trois points souvent oubliés :

  1. Les chemins sont des préfixes. Disallow: /admin bloque aussi /administrator/, pas seulement /admin/. Qui veut bloquer uniquement le chemin exact écrit Disallow: /admin/$ avec ancre de fin (en dialecte Googlebot, non supporté en RFC strict — vérifier la variante).
  2. Disallow: sans valeur. C’est une directive valide qui signifie « ne rien bloquer » — fonctionnellement identique à « User-agent: X, ne bloquer aucun chemin ». Certains crawlers legacy attendent au moins une ligne Disallow par bloc ; c’est pourquoi la forme vide est convention.
  3. User-agent: * ne matche pas tous les bots. Si un bloc User-agent spécifique (par ex. User-agent: GPTBot) existe, il prend totalement le pas sur les règles * pour GPTBot — y compris les règles Allow disparaissent. Cela signifie : les blocs bots spéciaux répètent toutes les règles pertinentes explicitement, plutôt que de se reposer sur le bloc *.

Quels outils apparentés existe-t-il ?

Qui utilise robots.txt construit typiquement aussi d’autres infrastructures de crawler/header serveur. Pour cela, dans le set :

Où trouver plus de détails ?

Dernière mise à jour :

Vous pourriez aussi aimer