Qu'est-ce qu'un fichier robots.txt et à quoi sert-il ?

Un fichier `robots.txt` est posé à la racine web d'un domaine et dit aux crawlers quels chemins ne pas indexer. Il fait partie du Robots Exclusion Protocol que les crawlers de moteurs de recherche respectent depuis les années 1990 — les bots bien élevés comme Googlebot, Bingbot, DuckDuckBot lisent le fichier avant le crawl. Le fichier doit être accessible exactement sous `/robots.txt` (racine du chemin URL, pas de sous-dossier), sinon les crawlers l'ignorent. Il ne contrôle pas ce qui atterrit dans l'index — il contrôle uniquement ce qui est crawlé ; les URL déjà indexées ne disparaissent qu'après `noindex` ou suppression dans la Search Console.

Comment bloquer les AI-bots comme GPTBot et ClaudeBot dans robots.txt ?

Par bot un bloc User-agent propre plus `Disallow: /`. Actuellement en 2026, ce sont au moins 14 identifiants : GPTBot, ChatGPT-User, OAI-SearchBot, ClaudeBot, Claude-User, Claude-SearchBot, PerplexityBot, Perplexity-User, CCBot, Bytespider, Meta-ExternalAgent, Amazonbot, Applebot-Extended et Google-Extended. Des noms obsolètes comme `anthropic-ai` ou `Claude-Web` ne bloquent plus personne — la documentation des éditeurs ne les liste plus comme tokens actifs. Le générateur émet la liste actuelle au clic et marque les entrées obsolètes dans le validateur.

Qu'est-ce qui distingue OAI-SearchBot de GPTBot ?

OAI-SearchBot charge des pages pour les résultats de recherche en temps réel dans ChatGPT et des réponses comparables à Perplexity — quand un utilisateur demande un terme, le bot saisit la page et le modèle la cite dans la réponse. GPTBot en revanche collecte des données d'entraînement pour les futures mises à jour de modèle. Qui veut de la visibilité dans les réponses IA mais pas dans les jeux d'entraînement bloque GPTBot et autorise OAI-SearchBot. Le même schéma trois-niveaux existe chez Anthropic (Claude-SearchBot vs ClaudeBot) et Apple (Applebot vs Applebot-Extended). Le générateur propose ces splits comme presets propres.

Les règles robots.txt sont-elles sensibles à la casse ?

Oui. `Disallow: /Admin/` et `Disallow: /admin/` bloquent des URL différentes — le crawler compare les chemins exactement caractère par caractère. Piège fréquent : on teste `/admin/` en local en minuscules mais on déploie sur un CMS qui sert `/Admin/` — le blocage tombe à plat. Le validateur du générateur signale les différences uniquement de casse entre règles Allow et Disallow et aussi les doublons qui ne diffèrent que par la casse. Voie sûre : bloquer les deux casses explicitement ou forcer une casse canonique au niveau serveur.

Que signifie Crawl-delay et qui le respecte ?

`Crawl-delay: 10` demande au crawler d'attendre 10 secondes entre deux requêtes. Googlebot ignore officiellement la directive (developers.google.com), Bingbot et Yandex la respectent. En pratique, Crawl-delay n'est pertinent que si le serveur souffre sous la charge des crawlers — les hébergements modernes n'ont presque jamais ce problème. Le générateur affiche une note inline parce que beaucoup de guides des années 2010 recommandent Crawl-delay comme bonne pratique SEO, ce qui n'est plus vrai en 2026.

Pourquoi un avertissement disant que je bloque CSS ou JS ?

Si `Disallow: /css/` ou `Disallow: /assets/` est dans le bloc pour `User-agent: *`, Googlebot ne peut pas rendre la page complètement — l'aperçu de rendu dans la Search Console et l'évaluation Mobile-Friendly voient une version cassée sans styles et scripts. Google ne pénalise pas directement mais l'évaluation de la page en souffre. Le générateur marque ce cas parce qu'il revient souvent dans les audits et qu'il est difficile à trouver en auto-inspection. Solution : libérer explicitement les chemins CSS et JS via `Allow:` ou retirer le `Disallow:` pour eux.

robots.txt suffit-il à vraiment bloquer les AI-bots ?

Non. Le Robots Exclusion Protocol est une convention volontaire — le bot décide s'il respecte le fichier. Pour Googlebot/Bingbot/DuckDuckBot, cela fonctionne de manière fiable. Pour les crawlers IA, plusieurs rapports d'audit en 2024 et 2025 (par ex. de WIRED et 404Media) ont prouvé que PerplexityBot et Bytespider ignorent robots.txt. Si le fichier ne suffit pas en pratique, il faut une couche de mitigation de bots : Cloudflare Bot Fight Mode, règles WAF, pare-feu Hetzner avec blocage de User-agent ou configuration serveur (bloc `if` nginx, Apache `RewriteCond %{HTTP_USER_AGENT}`). Le générateur le mentionne explicitement dans le bandeau Honest-Limits.

Où doit aller le fichier robots.txt sur le serveur ?

Dans la racine web de votre domaine — accessible sous `https://votre-domaine.fr/robots.txt`. Sur Apache shared hosting, le dossier s'appelle typiquement `public_html/`, sur nginx souvent `/var/www/html/`, sur Cloudflare Pages ou Astro/Hugo/11ty le fichier est déposé dans `public/` ou `static/` et repris automatiquement par le build. Important : un seul `robots.txt` par domaine, il ne vaut pour tous les sous-domaines que s'il est servi sur chaque sous-domaine (les sous-domaines ont leurs propres zones d'application Robots). Après le déploiement, un rechargement suffit — Google récupère le fichier en quelques minutes, Bing en heures à jours.

Générateur robots.txt — blocage AI-bot 2026, validateur

Que fait le générateur robots.txt ?

Le générateur est un éditeur pour le fichier robots.txt que les crawlers de moteurs de recherche et les AI-bots lisent avant l’indexation. Vous construisez côte à côte autant de blocs User-agent que vous voulez, chacun avec ses propres règles Allow et Disallow et un Crawl-delay optionnel. À côté, il y a des presets pour les identifiants AI-bot (état 2026), des chemins Common-Block (Admin, Shop, Recherche, PDF) et un validateur qui marque les erreurs typiques. La sortie est du texte brut avec terminaisons LF, sans BOM, prête pour /robots.txt sur la racine du domaine.

Trois briques pilotent l’outil :

Éditeur multi-stack — autant de blocs User-agent que voulu, Allow/Disallow éditables ligne par ligne, Crawl-delay réglable par bloc.
Presets AI-bot — cinq splits curés : bloquer tous les 14 bots, autoriser les Search-bots et bloquer les bots Training, ainsi que des splits trois-niveaux spécifiquement pour Apple, OpenAI et Anthropic.
Validateur — case-mismatch, conflit entre Allow et Disallow, CSS/JS bloqués, noms de tokens obsolètes, URL Sitemap malformées, http brut au lieu de https.

Tout dans le navigateur. Pas de téléversement, pas de compte, pas de bandeau cookies.

Quels identifiants AI-bot le générateur connaît-il (état 2026) ?

La liste curée couvre quatorze tokens actuels — entretenue d’après la documentation éditeur plutôt que d’après des tutoriels obsolètes :

Éditeur	Identifiant bot	But
OpenAI	`GPTBot`	Entraînement
OpenAI	`ChatGPT-User`	Requêtes initiées par utilisateur
OpenAI	`OAI-SearchBot`	Ancrage Search temps réel
Anthropic	`ClaudeBot`	Entraînement
Anthropic	`Claude-User`	Requêtes initiées par utilisateur
Anthropic	`Claude-SearchBot`	Recherche claude.ai
Perplexity	`PerplexityBot`	Ancrage Search
Perplexity	`Perplexity-User`	Requêtes initiées par utilisateur
Common Crawl	`CCBot`	Entraînement (jeu de données pour beaucoup de modèles)
ByteDance	`Bytespider`	Entraînement
Meta	`Meta-ExternalAgent`	Entraînement
Amazon	`Amazonbot`	Mixte
Apple	`Applebot-Extended`	Entraînement
Google	`Google-Extended`	Entraînement

Erreur fréquente : les tutoriels de 2023 nomment anthropic-ai et Claude-Web. Anthropic a retiré ces noms en 2024 — qui les liste aujourd’hui dans robots.txt ne bloque plus personne et n’a en même temps aucun blocage sur le vrai bot. Le validateur marque ces tokens comme obsolètes et indique le remplacement moderne.

Comment fonctionne le preset Allow-Search-Block-Train ?

Le deuxième preset IA sépare les buts des bots au lieu de tous les bloquer en bloc. Les Search-bots (OAI-SearchBot, Claude-SearchBot, PerplexityBot) peuvent saisir la page, parce que leur appel correspond directement à une question utilisateur — la page atterrit dans la réponse comme citation. Les bots Training (GPTBot, ClaudeBot, CCBot, Bytespider, Meta-ExternalAgent, Applebot-Extended, Google-Extended) sont bloqués, parce que leur crawl nourrit uniquement le snapshot de modèle et n’apporte aucun gain de visibilité pour la page elle-même.

Cette séparation n’existe chez aucun des trois outils concurrents étudiés (metatags.io, seoptimer.com, websiteseochecker.com) comme bouton un-clic. Les utilisateurs devaient jusqu’ici recopier les listes manuellement depuis le PDF de documentation éditeur — c’est exactement l’endroit où les tutoriels obsolètes se pérennisent et où le token anthropic-ai survit.

À quoi sert le validateur ?

Le validateur tourne en direct sur le texte émis et signale cinq classes de foot-guns :

Case-mismatch : /Admin/ vs /admin/ — robots.txt est sensible à la casse, les deux chemins bloquent des URL différentes.
Conflit : Allow et Disallow sur le même chemin — les crawlers décident de manière hétérogène, l’intention est ambiguë.
Tokens obsolètes : anthropic-ai, Claude-Web — ne sont plus lus par aucun bot actif en 2026.
CSS/JS bloqué : /css/, /assets/, /*.js — Google rend alors une version cassée de la page dans le test Mobile-Friendly.
Format URL Sitemap : URL non absolues (example.com/sitemap.xml au lieu de https://example.com/sitemap.xml) sont ignorées par les crawlers.

Le validateur est passif — il ne corrige rien automatiquement, il vous dit seulement où regarder. Cela maintient le fichier déterministe : même entrée donne même sortie, sans réécritures magiques en arrière-plan.

Pourquoi pas de directive `Host` (sauf pour Yandex) ?

Host: est une extension Yandex et n’est pas incluse dans la spec robots.txt officielle de Google, Bing et DuckDuckGo. Dans des sitemaps avec plusieurs domaines miroir, Yandex désigne par là la variante canonique. Si vos moteurs principaux sont Google et Bing, vous n’avez pas besoin de Host: — l’URL canonique va dans la balise <link rel="canonical"> du <head> HTML ou dans une entrée Sitemap:. Le générateur propose Host: comme champ optionnel par stack, vide par défaut.

Comment le générateur se comporte-t-il avec les entrées Sitemap ?

Les URL Sitemap sont émises en section séparée en bas du fichier, une entrée par ligne :

Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/sitemap-news.xml

Les lignes Sitemap valent globalement — elles ne sont pas liées à un bloc User-agent. Plusieurs entrées Sitemap sont autorisées ; tous les crawlers actuels les lisent. Le validateur vérifie le format URL (http:// ou https:// obligatoire) et avertit sur http brut comme indication de bonne pratique.

Que signifie le bandeau Honest-Limits en bas de l’outil ?

robots.txt est une convention volontaire. Les crawlers bien élevés — Googlebot, Bingbot, DuckDuckBot, Yahoo Slurp, grands crawlers SEO comme Ahrefsbot ou SemrushBot — respectent le fichier de manière fiable. Les crawlers IA en revanche ont ignoré robots.txt dans plusieurs rapports d’audit 2024/2025 : WIRED a testé PerplexityBot et trouvé des accès malgré Disallow ; 404Media a documenté des constats similaires pour Bytespider. Qui a besoin d’un blocage dur ajoute une couche de mitigation de bots : Cloudflare Bot Fight Mode, règles WAF par User-agent, bloc serveur via nginx-if ou Apache-RewriteCond %{HTTP_USER_AGENT}. Le générateur le mentionne explicitement dans le bandeau, parce que beaucoup de tutoriels font comme si robots.txt seul suffisait.

Quels autres foot-guns existent ?

Trois points souvent oubliés :

Les chemins sont des préfixes. Disallow: /admin bloque aussi /administrator/, pas seulement /admin/. Qui veut bloquer uniquement le chemin exact écrit Disallow: /admin/$ avec ancre de fin (en dialecte Googlebot, non supporté en RFC strict — vérifier la variante).
Disallow: sans valeur. C’est une directive valide qui signifie « ne rien bloquer » — fonctionnellement identique à « User-agent: X, ne bloquer aucun chemin ». Certains crawlers legacy attendent au moins une ligne Disallow par bloc ; c’est pourquoi la forme vide est convention.
User-agent: * ne matche pas tous les bots. Si un bloc User-agent spécifique (par ex. User-agent: GPTBot) existe, il prend totalement le pas sur les règles * pour GPTBot — y compris les règles Allow disparaissent. Cela signifie : les blocs bots spéciaux répètent toutes les règles pertinentes explicitement, plutôt que de se reposer sur le bloc *.

Quels outils apparentés existe-t-il ?

Qui utilise robots.txt construit typiquement aussi d’autres infrastructures de crawler/header serveur. Pour cela, dans le set :

Générateur .htaccess — configuration serveur Apache avec en-têtes de sécurité et redirections.
Générateur config nginx — blocs serveur nginx modernes avec HTTP/3 et en-têtes de sécurité.
Générateur OpenGraph — tags d’aperçu social media pour six plateformes.
UTM Link Builder — accrocher proprement les paramètres de tracking aux URL marketing.

Où trouver plus de détails ?

Google Robots.txt Specification — la doc officielle de Google sur le Robots Exclusion Protocol.
ai.robots.txt (community repository) — liste maintenue des identifiants AI-bot actuels, base des 14 tokens présélectionnés ici.
Cloudflare AIndependence — stratégie exemple pour la mitigation AI-bot au-delà de robots.txt.
Robots Exclusion Protocol sur Wikipédia — contexte du protocole, histoire depuis 1994.

Générateur robots.txt — blocage AI-bot 2026, validateur

AI bot presets

Common block paths

User-agent stacks

Sitemap(s)

Options

Validator

Output

Comment ça marche

Text oder Code einfügen

Automatische Verarbeitung

Ergebnis kopieren

Confidentialité

Comment utiliser cet outil ?

Que fait le générateur robots.txt ?

Quels identifiants AI-bot le générateur connaît-il (état 2026) ?

Comment fonctionne le preset Allow-Search-Block-Train ?

À quoi sert le validateur ?

Pourquoi pas de directive `Host` (sauf pour Yandex) ?

Comment le générateur se comporte-t-il avec les entrées Sitemap ?

Que signifie le bandeau Honest-Limits en bas de l’outil ?

Quels autres foot-guns existent ?

Quels outils apparentés existe-t-il ?

Où trouver plus de détails ?

AI bot presets

Common block paths

User-agent stacks

Sitemap(s)

Options

Validator

Output

Comment ça marche

Text oder Code einfügen

Automatische Verarbeitung

Ergebnis kopieren

Confidentialité

Que fait le générateur robots.txt ?

Quels identifiants AI-bot le générateur connaît-il (état 2026) ?

Comment fonctionne le preset Allow-Search-Block-Train ?

À quoi sert le validateur ?

Pourquoi pas de directive Host (sauf pour Yandex) ?

Comment le générateur se comporte-t-il avec les entrées Sitemap ?

Que signifie le bandeau Honest-Limits en bas de l’outil ?

Quels autres foot-guns existent ?

Quels outils apparentés existe-t-il ?

Où trouver plus de détails ?

Pourquoi pas de directive `Host` (sauf pour Yandex) ?