¿Cómo usar esta herramienta?
- Elegir un preset AI-bot (o ninguno) — `Block all` pone los 14 identificadores actuales 2026 en `Disallow: /`, `Allow AI search, block training` permite Search-bots y bloquea bots Training.
- Si lo necesita, hacer clic en un Common-Block (Admin, Tienda, Búsqueda, ruido de query, PDF, borradores) — las rutas aterrizan en el primer bloque `User-agent: *`; o crear sus propios bloques User-agent y rellenar Allow/Disallow línea por línea.
- Poner Crawl-delay solo si el servidor está sobrecargado (Googlebot lo ignora; Bing y Yandex lo respetan).
- Introducir URL de Sitemap una por línea y comprobar el panel validador: case-mismatch, conflicto Allow/Disallow, tokens obsoletos, CSS/JS bloqueado, URL Sitemap malformada.
- Copiar la salida o descargarla como `robots.txt` y depositarla en la raíz del dominio como `/robots.txt`.
¿Qué hace el generador de robots.txt?
El generador es un editor para el archivo robots.txt que los crawlers de buscadores y AI-bots
leen antes de indexar. Construye uno al lado de otro tantos bloques User-agent como quiera, cada
uno con sus propias reglas Allow y Disallow y un Crawl-delay opcional. Al lado hay presets
para identificadores AI-bot (estado 2026), rutas Common-Block (Admin, Tienda, Búsqueda, PDF) y un
validador que marca errores típicos. La salida es texto plano con terminaciones LF, sin BOM, lista
para /robots.txt en la raíz del dominio.
Tres bloques impulsan la herramienta:
- Editor multi-stack — tantos bloques User-agent como quiera, Allow/Disallow editables línea por línea, Crawl-delay ajustable por bloque.
- Presets AI-bot — cinco splits curados: bloquear los 14 bots, permitir Search-bots y bloquear bots Training, así como splits de tres niveles específicos para Apple, OpenAI y Anthropic.
- Validador — case-mismatch, conflicto entre Allow y Disallow, CSS/JS bloqueado, nombres de tokens obsoletos, URL Sitemap malformadas, http en texto plano en vez de https.
Todo en el navegador. Sin subida, sin cuenta, sin banner de cookies.
¿Qué identificadores AI-bot conoce el generador (estado 2026)?
La lista curada cubre catorce tokens actuales — mantenida según la documentación del proveedor en vez de tutoriales obsoletos:
| Proveedor | Identificador bot | Propósito |
|---|---|---|
| OpenAI | GPTBot | Entrenamiento |
| OpenAI | ChatGPT-User | Consultas iniciadas por usuario |
| OpenAI | OAI-SearchBot | Anclaje Search en tiempo real |
| Anthropic | ClaudeBot | Entrenamiento |
| Anthropic | Claude-User | Consultas iniciadas por usuario |
| Anthropic | Claude-SearchBot | Búsqueda claude.ai |
| Perplexity | PerplexityBot | Anclaje Search |
| Perplexity | Perplexity-User | Consultas iniciadas por usuario |
| Common Crawl | CCBot | Entrenamiento (conjunto para muchos modelos) |
| ByteDance | Bytespider | Entrenamiento |
| Meta | Meta-ExternalAgent | Entrenamiento |
| Amazon | Amazonbot | Mixto |
| Apple | Applebot-Extended | Entrenamiento |
Google-Extended | Entrenamiento |
Error frecuente: tutoriales de 2023 nombran anthropic-ai y Claude-Web. Anthropic retiró estos
nombres en 2024 — quien los lleva hoy en robots.txt no bloquea a nadie y simultáneamente no
tiene bloqueo sobre el bot real. El validador marca estos tokens como deprecated y nombra el
sustituto moderno.
¿Cómo funciona el preset Allow-Search-Block-Train?
El segundo preset IA separa propósitos de bots en vez de bloquear todos en bloque. Los Search-bots (OAI-SearchBot, Claude-SearchBot, PerplexityBot) pueden recuperar la página porque su llamada corresponde directamente a una pregunta de usuario — la página aterriza en la respuesta como citación. Los bots Training (GPTBot, ClaudeBot, CCBot, Bytespider, Meta-ExternalAgent, Applebot-Extended, Google-Extended) se bloquean porque su crawl solo alimenta el snapshot del modelo y no aporta beneficio de visibilidad para la propia página.
Esta separación no existe en ninguna de las tres herramientas competidoras investigadas
(metatags.io, seoptimer.com, websiteseochecker.com) como toggle de un clic. Los usuarios tenían que
copiar las listas manualmente del PDF de documentación del proveedor — exactamente el punto en el
que tutoriales obsoletos se perpetúan y el token anthropic-ai sobrevive.
¿Para qué sirve el validador?
El validador corre en vivo sobre el texto emitido y reporta cinco clases de foot-guns:
- Case-Mismatch:
/Admin/vs/admin/—robots.txtdistingue mayúsculas, las dos rutas bloquean URL distintas. - Conflicto: Allow y Disallow en la misma ruta — los crawlers deciden de forma desigual, la intención es ambigua.
- Tokens obsoletos:
anthropic-ai,Claude-Web— ya no son leídos por ningún bot activo en 2026. - CSS/JS bloqueado:
/css/,/assets/,/*.js— Google renderiza entonces una versión rota de la página en el test Mobile-Friendly. - Formato URL Sitemap: URL no absolutas (
example.com/sitemap.xmlen vez dehttps://example.com/sitemap.xml) son ignoradas por los crawlers.
El validador es pasivo — no corrige nada automáticamente, solo le dice dónde mirar. Eso mantiene el archivo determinista: la misma entrada da la misma salida sin reescrituras mágicas en segundo plano.
¿Por qué sin directiva Host (salvo para Yandex)?
Host: es una extensión de Yandex y no está incluida en la spec oficial robots.txt de Google,
Bing y DuckDuckGo. En sitemaps con varios dominios espejo, Yandex nombra así la variante canónica.
Si sus motores principales son Google y Bing, no necesita Host: — la URL canónica va en la
etiqueta <link rel="canonical"> del <head> HTML o en una entrada Sitemap:. El generador
ofrece Host: como campo opcional por stack, por defecto vacío.
¿Cómo se comporta el generador con entradas Sitemap?
Las URL Sitemap se emiten como sección separada al final del archivo, una entrada por línea:
Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/sitemap-news.xml
Las líneas Sitemap valen globalmente — no están ligadas a un bloque User-agent. Varias entradas
Sitemap están permitidas; todos los crawlers actuales las leen. El validador comprueba el formato
URL (http:// o https:// obligatorio) y avisa con http en texto plano como indicación de buena
práctica.
¿Qué significa el banner Honest-Limits abajo en la herramienta?
robots.txt es una convención voluntaria. Los crawlers bien educados — Googlebot, Bingbot,
DuckDuckBot, Yahoo Slurp, grandes crawlers SEO como Ahrefsbot o SemrushBot — respetan el archivo
de manera fiable. Los crawlers IA en cambio han ignorado robots.txt en varios informes de auditoría
2024/2025: WIRED probó PerplexityBot y encontró accesos pese a Disallow; 404Media documentó
hallazgos similares en Bytespider. Quien necesite un bloqueo duro añade una capa de mitigación de
bots: Cloudflare Bot Fight Mode,
reglas WAF por User-agent, bloqueo a nivel de servidor mediante un if de nginx o un
RewriteCond %{HTTP_USER_AGENT} de Apache. El generador lo menciona explícitamente en el banner
porque muchos tutoriales actúan como si robots.txt bastara por sí solo.
¿Qué otros foot-guns hay?
Tres puntos a menudo olvidados:
- Las rutas son coincidencias por prefijo.
Disallow: /adminbloquea también/administrator/, no solo/admin/. Quien quiera bloquear solo la ruta exacta escribeDisallow: /admin/$con anclaje final (en dialecto Googlebot, no soportado en RFC estricto — comprobar la variante). Disallow:sin valor. Es una directiva válida y significa « no bloquear nada » — funcionalmente idéntico a « User-agent: X, no bloquear ninguna ruta ». Algunos crawlers legacy esperan al menos una línea Disallow por bloque; por eso la forma vacía es convención.User-agent: *no hace match con todos los bots. Si existe un bloque User-agent específico (p. ej.User-agent: GPTBot), este anula las reglas*para GPTBot completamente — también las reglas Allow se pierden. Eso significa: los bloques bot especiales repiten todas las reglas relevantes explícitamente, en vez de apoyarse en el bloque*.
¿Qué herramientas relacionadas hay?
Quien usa robots.txt típicamente construye también otra infraestructura de
crawler/encabezados servidor. Para eso en el set:
- Generador .htaccess — configuración de servidor Apache con encabezados de seguridad y redirecciones.
- Generador config nginx — bloques de servidor nginx modernos con HTTP/3 y encabezados de seguridad.
- Generador OpenGraph — etiquetas de vista previa social media para seis plataformas.
- UTM Link Builder — añadir limpiamente parámetros de tracking a URL de marketing.
¿Dónde encuentro detalles adicionales?
- Google Robots.txt Specification — la doc oficial de Google sobre el Robots Exclusion Protocol.
- ai.robots.txt (community repository) — lista cuidada de identificadores AI-bot actuales, base para los 14 tokens preseleccionados aquí.
- Cloudflare AIndependence — estrategia de ejemplo para mitigación AI-bot más allá de robots.txt.
- Robots Exclusion Protocol en Wikipedia — contexto sobre el protocolo, historia desde 1994.
Última actualización: