Comment utiliser cet outil ?
- Choisir un preset AI-bot (ou ne pas en mettre) — `Block all` pose les 14 identifiants actuels 2026 sur `Disallow: /`, `Allow AI search, block training` autorise les Search-bots et bloque les bots Training.
- Au besoin cliquer un Common-Block (Admin, Shop, Recherche, bruit de requête, PDF, brouillons) — les chemins atterrissent dans le premier bloc `User-agent: *` ; ou créer ses propres blocs User-agent et remplir Allow/Disallow ligne par ligne.
- Mettre Crawl-delay seulement si le serveur est surchargé (Googlebot l'ignore ; Bing et Yandex le respectent).
- Saisir les URL Sitemap une par ligne et vérifier le panneau validateur : case-mismatch, conflit Allow/Disallow, tokens obsolètes, CSS/JS bloqués, URL Sitemap malformée.
- Copier la sortie ou la télécharger en `robots.txt` et la déposer sur la racine du domaine comme `/robots.txt`.
Que fait le générateur robots.txt ?
Le générateur est un éditeur pour le fichier robots.txt que les crawlers de moteurs de recherche
et les AI-bots lisent avant l’indexation. Vous construisez côte à côte autant de blocs User-agent
que vous voulez, chacun avec ses propres règles Allow et Disallow et un Crawl-delay
optionnel. À côté, il y a des presets pour les identifiants AI-bot (état 2026), des chemins
Common-Block (Admin, Shop, Recherche, PDF) et un validateur qui marque les erreurs typiques. La
sortie est du texte brut avec terminaisons LF, sans BOM, prête pour /robots.txt sur la racine du
domaine.
Trois briques pilotent l’outil :
- Éditeur multi-stack — autant de blocs User-agent que voulu, Allow/Disallow éditables ligne par ligne, Crawl-delay réglable par bloc.
- Presets AI-bot — cinq splits curés : bloquer tous les 14 bots, autoriser les Search-bots et bloquer les bots Training, ainsi que des splits trois-niveaux spécifiquement pour Apple, OpenAI et Anthropic.
- Validateur — case-mismatch, conflit entre Allow et Disallow, CSS/JS bloqués, noms de tokens obsolètes, URL Sitemap malformées, http brut au lieu de https.
Tout dans le navigateur. Pas de téléversement, pas de compte, pas de bandeau cookies.
Quels identifiants AI-bot le générateur connaît-il (état 2026) ?
La liste curée couvre quatorze tokens actuels — entretenue d’après la documentation éditeur plutôt que d’après des tutoriels obsolètes :
| Éditeur | Identifiant bot | But |
|---|---|---|
| OpenAI | GPTBot | Entraînement |
| OpenAI | ChatGPT-User | Requêtes initiées par utilisateur |
| OpenAI | OAI-SearchBot | Ancrage Search temps réel |
| Anthropic | ClaudeBot | Entraînement |
| Anthropic | Claude-User | Requêtes initiées par utilisateur |
| Anthropic | Claude-SearchBot | Recherche claude.ai |
| Perplexity | PerplexityBot | Ancrage Search |
| Perplexity | Perplexity-User | Requêtes initiées par utilisateur |
| Common Crawl | CCBot | Entraînement (jeu de données pour beaucoup de modèles) |
| ByteDance | Bytespider | Entraînement |
| Meta | Meta-ExternalAgent | Entraînement |
| Amazon | Amazonbot | Mixte |
| Apple | Applebot-Extended | Entraînement |
Google-Extended | Entraînement |
Erreur fréquente : les tutoriels de 2023 nomment anthropic-ai et Claude-Web. Anthropic a retiré
ces noms en 2024 — qui les liste aujourd’hui dans robots.txt ne bloque plus personne et n’a en
même temps aucun blocage sur le vrai bot. Le validateur marque ces tokens comme obsolètes et
indique le remplacement moderne.
Comment fonctionne le preset Allow-Search-Block-Train ?
Le deuxième preset IA sépare les buts des bots au lieu de tous les bloquer en bloc. Les Search-bots (OAI-SearchBot, Claude-SearchBot, PerplexityBot) peuvent saisir la page, parce que leur appel correspond directement à une question utilisateur — la page atterrit dans la réponse comme citation. Les bots Training (GPTBot, ClaudeBot, CCBot, Bytespider, Meta-ExternalAgent, Applebot-Extended, Google-Extended) sont bloqués, parce que leur crawl nourrit uniquement le snapshot de modèle et n’apporte aucun gain de visibilité pour la page elle-même.
Cette séparation n’existe chez aucun des trois outils concurrents étudiés (metatags.io,
seoptimer.com, websiteseochecker.com) comme bouton un-clic. Les utilisateurs devaient jusqu’ici
recopier les listes manuellement depuis le PDF de documentation éditeur — c’est exactement
l’endroit où les tutoriels obsolètes se pérennisent et où le token anthropic-ai survit.
À quoi sert le validateur ?
Le validateur tourne en direct sur le texte émis et signale cinq classes de foot-guns :
- Case-mismatch :
/Admin/vs/admin/—robots.txtest sensible à la casse, les deux chemins bloquent des URL différentes. - Conflit : Allow et Disallow sur le même chemin — les crawlers décident de manière hétérogène, l’intention est ambiguë.
- Tokens obsolètes :
anthropic-ai,Claude-Web— ne sont plus lus par aucun bot actif en 2026. - CSS/JS bloqué :
/css/,/assets/,/*.js— Google rend alors une version cassée de la page dans le test Mobile-Friendly. - Format URL Sitemap : URL non absolues (
example.com/sitemap.xmlau lieu dehttps://example.com/sitemap.xml) sont ignorées par les crawlers.
Le validateur est passif — il ne corrige rien automatiquement, il vous dit seulement où regarder. Cela maintient le fichier déterministe : même entrée donne même sortie, sans réécritures magiques en arrière-plan.
Pourquoi pas de directive Host (sauf pour Yandex) ?
Host: est une extension Yandex et n’est pas incluse dans la spec robots.txt officielle de
Google, Bing et DuckDuckGo. Dans des sitemaps avec plusieurs domaines miroir, Yandex désigne par
là la variante canonique. Si vos moteurs principaux sont Google et Bing, vous n’avez pas besoin
de Host: — l’URL canonique va dans la balise <link rel="canonical"> du <head> HTML ou dans
une entrée Sitemap:. Le générateur propose Host: comme champ optionnel par stack, vide par
défaut.
Comment le générateur se comporte-t-il avec les entrées Sitemap ?
Les URL Sitemap sont émises en section séparée en bas du fichier, une entrée par ligne :
Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/sitemap-news.xml
Les lignes Sitemap valent globalement — elles ne sont pas liées à un bloc User-agent. Plusieurs
entrées Sitemap sont autorisées ; tous les crawlers actuels les lisent. Le validateur vérifie le
format URL (http:// ou https:// obligatoire) et avertit sur http brut comme indication de
bonne pratique.
Que signifie le bandeau Honest-Limits en bas de l’outil ?
robots.txt est une convention volontaire. Les crawlers bien élevés — Googlebot, Bingbot,
DuckDuckBot, Yahoo Slurp, grands crawlers SEO comme Ahrefsbot ou SemrushBot — respectent le
fichier de manière fiable. Les crawlers IA en revanche ont ignoré robots.txt dans plusieurs
rapports d’audit 2024/2025 : WIRED a testé PerplexityBot et trouvé des accès malgré Disallow ;
404Media a documenté des constats similaires pour Bytespider. Qui a besoin d’un blocage dur
ajoute une couche de mitigation de bots : Cloudflare Bot Fight Mode,
règles WAF par User-agent, bloc serveur via nginx-if ou Apache-RewriteCond %{HTTP_USER_AGENT}.
Le générateur le mentionne explicitement dans le bandeau, parce que beaucoup de tutoriels font
comme si robots.txt seul suffisait.
Quels autres foot-guns existent ?
Trois points souvent oubliés :
- Les chemins sont des préfixes.
Disallow: /adminbloque aussi/administrator/, pas seulement/admin/. Qui veut bloquer uniquement le chemin exact écritDisallow: /admin/$avec ancre de fin (en dialecte Googlebot, non supporté en RFC strict — vérifier la variante). Disallow:sans valeur. C’est une directive valide qui signifie « ne rien bloquer » — fonctionnellement identique à « User-agent: X, ne bloquer aucun chemin ». Certains crawlers legacy attendent au moins une ligne Disallow par bloc ; c’est pourquoi la forme vide est convention.User-agent: *ne matche pas tous les bots. Si un bloc User-agent spécifique (par ex.User-agent: GPTBot) existe, il prend totalement le pas sur les règles*pour GPTBot — y compris les règles Allow disparaissent. Cela signifie : les blocs bots spéciaux répètent toutes les règles pertinentes explicitement, plutôt que de se reposer sur le bloc*.
Quels outils apparentés existe-t-il ?
Qui utilise robots.txt construit typiquement aussi d’autres infrastructures de
crawler/header serveur. Pour cela, dans le set :
- Générateur .htaccess — configuration serveur Apache avec en-têtes de sécurité et redirections.
- Générateur config nginx — blocs serveur nginx modernes avec HTTP/3 et en-têtes de sécurité.
- Générateur OpenGraph — tags d’aperçu social media pour six plateformes.
- UTM Link Builder — accrocher proprement les paramètres de tracking aux URL marketing.
Où trouver plus de détails ?
- Google Robots.txt Specification — la doc officielle de Google sur le Robots Exclusion Protocol.
- ai.robots.txt (community repository) — liste maintenue des identifiants AI-bot actuels, base des 14 tokens présélectionnés ici.
- Cloudflare AIndependence — stratégie exemple pour la mitigation AI-bot au-delà de robots.txt.
- Robots Exclusion Protocol sur Wikipédia — contexte du protocole, histoire depuis 1994.
Dernière mise à jour :