¿Qué es un archivo robots.txt y para qué se necesita?

Un archivo `robots.txt` se coloca en la raíz web de un dominio y dice a los crawlers qué rutas no indexar. Forma parte del Robots Exclusion Protocol que los crawlers de buscadores respetan desde los años 1990 — los bots bien educados como Googlebot, Bingbot, DuckDuckBot leen el archivo antes del crawl. El archivo debe ser accesible exactamente bajo `/robots.txt` (raíz del path URL, sin subcarpetas), si no los crawlers lo ignoran. No controla qué aterriza en el índice — solo controla qué se crawla; las URL ya indexadas solo desaparecen tras `noindex` o eliminación en Search Console.

¿Cómo bloqueo AI-bots como GPTBot y ClaudeBot en robots.txt?

Por cada bot un bloque User-agent propio más `Disallow: /`. Actualmente en 2026 son al menos 14 identificadores: GPTBot, ChatGPT-User, OAI-SearchBot, ClaudeBot, Claude-User, Claude-SearchBot, PerplexityBot, Perplexity-User, CCBot, Bytespider, Meta-ExternalAgent, Amazonbot, Applebot-Extended y Google-Extended. Nombres obsoletos como `anthropic-ai` o `Claude-Web` ya no bloquean a nadie — la documentación del proveedor no los lista como tokens activos. El generador emite la lista actual al clic y marca las entradas obsoletas en el validador.

¿Qué distingue OAI-SearchBot de GPTBot?

OAI-SearchBot carga páginas para los resultados de búsqueda en tiempo real en ChatGPT y respuestas comparables a Perplexity — cuando un usuario pregunta un término, el bot toma la página y el modelo la cita en la respuesta. GPTBot en cambio recoge datos de entrenamiento para futuras actualizaciones de modelo. Quien quiera visibilidad en respuestas IA pero no en conjuntos de entrenamiento bloquea GPTBot y permite OAI-SearchBot. El mismo patrón de tres niveles existe en Anthropic (Claude-SearchBot vs ClaudeBot) y Apple (Applebot vs Applebot-Extended). El generador ofrece estos splits como presets propios.

¿Las reglas robots.txt distinguen mayúsculas y minúsculas?

Sí. `Disallow: /Admin/` y `Disallow: /admin/` bloquean URL distintas — el crawler compara las rutas exactas carácter por carácter. Trampa frecuente: alguien prueba `/admin/` localmente en minúsculas pero despliega a un CMS que sirve `/Admin/` — el bloqueo cae en vacío. El validador del generador marca diferencias solo de mayúsculas entre reglas Allow y Disallow y también duplicados que difieren solo por mayúsculas. Vía segura: bloquear ambas grafías explícitamente o forzar una grafía canónica a nivel servidor.

¿Qué significa Crawl-delay y quién lo respeta?

`Crawl-delay: 10` pide al crawler esperar 10 segundos entre dos peticiones. Googlebot ignora oficialmente la directiva (developers.google.com), Bingbot y Yandex la respetan. En la práctica, Crawl-delay solo es relevante si el servidor sufre bajo la carga de crawlers — los setups de hosting modernos casi nunca tienen ese problema. El generador muestra una nota inline porque muchas guías de los años 2010 recomiendan Crawl-delay como buena práctica SEO, lo que ya no es cierto en 2026.

¿Por qué un aviso de que bloqueo CSS o JS?

Si `Disallow: /css/` o `Disallow: /assets/` está en el bloque para `User-agent: *`, Googlebot no puede renderizar la página completamente — la vista previa de render en Search Console y la valoración Mobile-Friendly ven una versión rota sin estilos ni scripts. Google no lo penaliza directamente, pero la valoración de la página sufre. El generador marca este caso porque aparece a menudo en consultorías y es difícil de encontrar en una autoinspección. Solución: liberar las rutas CSS y JS en `Allow:` explícitamente o retirar el `Disallow:` que las afecta.

¿Basta robots.txt para bloquear realmente los AI-bots?

No. El Robots Exclusion Protocol es una convención voluntaria — el bot decide si respeta el archivo. En Googlebot/Bingbot/DuckDuckBot funciona de manera fiable. En crawlers IA ha habido en 2024 y 2025 varios informes de auditoría (p. ej. de WIRED y 404Media) en los que PerplexityBot y Bytespider ignoraron robots.txt de manera demostrable. Si el archivo no basta en la práctica, hace falta una capa de mitigación de bots: Cloudflare Bot Fight Mode, reglas WAF, firewall Hetzner con bloqueo de User-agent o configuración de servidor (bloque `if` en nginx, Apache `RewriteCond %{HTTP_USER_AGENT}`). El generador lo menciona explícitamente en el banner Honest-Limits.

¿Dónde debe ir el archivo robots.txt en el servidor?

En la raíz web de su dominio — accesible en `https://su-dominio.es/robots.txt`. En Apache shared hosting la carpeta suele llamarse `public_html/`, en nginx a menudo `/var/www/html/`, en Cloudflare Pages o Astro/Hugo/11ty el archivo se coloca en `public/` o `static/` y el build lo recoge automáticamente. Importante: un solo `robots.txt` por dominio, y solo vale para los subdominios si se sirve desde cada subdominio (los subdominios tienen sus propios ámbitos Robots). Tras el despliegue basta con una recarga — Google obtiene el archivo en minutos, Bing en horas o días.

Generador robots.txt — bloqueo AI-bot 2026, validador

¿Qué hace el generador de robots.txt?

El generador es un editor para el archivo robots.txt que los crawlers de buscadores y AI-bots leen antes de indexar. Construye uno al lado de otro tantos bloques User-agent como quiera, cada uno con sus propias reglas Allow y Disallow y un Crawl-delay opcional. Al lado hay presets para identificadores AI-bot (estado 2026), rutas Common-Block (Admin, Tienda, Búsqueda, PDF) y un validador que marca errores típicos. La salida es texto plano con terminaciones LF, sin BOM, lista para /robots.txt en la raíz del dominio.

Tres bloques impulsan la herramienta:

Editor multi-stack — tantos bloques User-agent como quiera, Allow/Disallow editables línea por línea, Crawl-delay ajustable por bloque.
Presets AI-bot — cinco splits curados: bloquear los 14 bots, permitir Search-bots y bloquear bots Training, así como splits de tres niveles específicos para Apple, OpenAI y Anthropic.
Validador — case-mismatch, conflicto entre Allow y Disallow, CSS/JS bloqueado, nombres de tokens obsoletos, URL Sitemap malformadas, http en texto plano en vez de https.

Todo en el navegador. Sin subida, sin cuenta, sin banner de cookies.

¿Qué identificadores AI-bot conoce el generador (estado 2026)?

La lista curada cubre catorce tokens actuales — mantenida según la documentación del proveedor en vez de tutoriales obsoletos:

Proveedor	Identificador bot	Propósito
OpenAI	`GPTBot`	Entrenamiento
OpenAI	`ChatGPT-User`	Consultas iniciadas por usuario
OpenAI	`OAI-SearchBot`	Anclaje Search en tiempo real
Anthropic	`ClaudeBot`	Entrenamiento
Anthropic	`Claude-User`	Consultas iniciadas por usuario
Anthropic	`Claude-SearchBot`	Búsqueda claude.ai
Perplexity	`PerplexityBot`	Anclaje Search
Perplexity	`Perplexity-User`	Consultas iniciadas por usuario
Common Crawl	`CCBot`	Entrenamiento (conjunto para muchos modelos)
ByteDance	`Bytespider`	Entrenamiento
Meta	`Meta-ExternalAgent`	Entrenamiento
Amazon	`Amazonbot`	Mixto
Apple	`Applebot-Extended`	Entrenamiento
Google	`Google-Extended`	Entrenamiento

Error frecuente: tutoriales de 2023 nombran anthropic-ai y Claude-Web. Anthropic retiró estos nombres en 2024 — quien los lleva hoy en robots.txt no bloquea a nadie y simultáneamente no tiene bloqueo sobre el bot real. El validador marca estos tokens como deprecated y nombra el sustituto moderno.

¿Cómo funciona el preset Allow-Search-Block-Train?

El segundo preset IA separa propósitos de bots en vez de bloquear todos en bloque. Los Search-bots (OAI-SearchBot, Claude-SearchBot, PerplexityBot) pueden recuperar la página porque su llamada corresponde directamente a una pregunta de usuario — la página aterriza en la respuesta como citación. Los bots Training (GPTBot, ClaudeBot, CCBot, Bytespider, Meta-ExternalAgent, Applebot-Extended, Google-Extended) se bloquean porque su crawl solo alimenta el snapshot del modelo y no aporta beneficio de visibilidad para la propia página.

Esta separación no existe en ninguna de las tres herramientas competidoras investigadas (metatags.io, seoptimer.com, websiteseochecker.com) como toggle de un clic. Los usuarios tenían que copiar las listas manualmente del PDF de documentación del proveedor — exactamente el punto en el que tutoriales obsoletos se perpetúan y el token anthropic-ai sobrevive.

¿Para qué sirve el validador?

El validador corre en vivo sobre el texto emitido y reporta cinco clases de foot-guns:

Case-Mismatch: /Admin/ vs /admin/ — robots.txt distingue mayúsculas, las dos rutas bloquean URL distintas.
Conflicto: Allow y Disallow en la misma ruta — los crawlers deciden de forma desigual, la intención es ambigua.
Tokens obsoletos: anthropic-ai, Claude-Web — ya no son leídos por ningún bot activo en 2026.
CSS/JS bloqueado: /css/, /assets/, /*.js — Google renderiza entonces una versión rota de la página en el test Mobile-Friendly.
Formato URL Sitemap: URL no absolutas (example.com/sitemap.xml en vez de https://example.com/sitemap.xml) son ignoradas por los crawlers.

El validador es pasivo — no corrige nada automáticamente, solo le dice dónde mirar. Eso mantiene el archivo determinista: la misma entrada da la misma salida sin reescrituras mágicas en segundo plano.

¿Por qué sin directiva `Host` (salvo para Yandex)?

Host: es una extensión de Yandex y no está incluida en la spec oficial robots.txt de Google, Bing y DuckDuckGo. En sitemaps con varios dominios espejo, Yandex nombra así la variante canónica. Si sus motores principales son Google y Bing, no necesita Host: — la URL canónica va en la etiqueta <link rel="canonical"> del <head> HTML o en una entrada Sitemap:. El generador ofrece Host: como campo opcional por stack, por defecto vacío.

¿Cómo se comporta el generador con entradas Sitemap?

Las URL Sitemap se emiten como sección separada al final del archivo, una entrada por línea:

Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/sitemap-news.xml

Las líneas Sitemap valen globalmente — no están ligadas a un bloque User-agent. Varias entradas Sitemap están permitidas; todos los crawlers actuales las leen. El validador comprueba el formato URL (http:// o https:// obligatorio) y avisa con http en texto plano como indicación de buena práctica.

robots.txt es una convención voluntaria. Los crawlers bien educados — Googlebot, Bingbot, DuckDuckBot, Yahoo Slurp, grandes crawlers SEO como Ahrefsbot o SemrushBot — respetan el archivo de manera fiable. Los crawlers IA en cambio han ignorado robots.txt en varios informes de auditoría 2024/2025: WIRED probó PerplexityBot y encontró accesos pese a Disallow; 404Media documentó hallazgos similares en Bytespider. Quien necesite un bloqueo duro añade una capa de mitigación de bots: Cloudflare Bot Fight Mode, reglas WAF por User-agent, bloqueo a nivel de servidor mediante un if de nginx o un RewriteCond %{HTTP_USER_AGENT} de Apache. El generador lo menciona explícitamente en el banner porque muchos tutoriales actúan como si robots.txt bastara por sí solo.

¿Qué otros foot-guns hay?

Tres puntos a menudo olvidados:

Las rutas son coincidencias por prefijo. Disallow: /admin bloquea también /administrator/, no solo /admin/. Quien quiera bloquear solo la ruta exacta escribe Disallow: /admin/$ con anclaje final (en dialecto Googlebot, no soportado en RFC estricto — comprobar la variante).
Disallow: sin valor. Es una directiva válida y significa « no bloquear nada » — funcionalmente idéntico a « User-agent: X, no bloquear ninguna ruta ». Algunos crawlers legacy esperan al menos una línea Disallow por bloque; por eso la forma vacía es convención.
User-agent: * no hace match con todos los bots. Si existe un bloque User-agent específico (p. ej. User-agent: GPTBot), este anula las reglas * para GPTBot completamente — también las reglas Allow se pierden. Eso significa: los bloques bot especiales repiten todas las reglas relevantes explícitamente, en vez de apoyarse en el bloque *.

¿Qué herramientas relacionadas hay?

Quien usa robots.txt típicamente construye también otra infraestructura de crawler/encabezados servidor. Para eso en el set:

Generador .htaccess — configuración de servidor Apache con encabezados de seguridad y redirecciones.
Generador config nginx — bloques de servidor nginx modernos con HTTP/3 y encabezados de seguridad.
Generador OpenGraph — etiquetas de vista previa social media para seis plataformas.
UTM Link Builder — añadir limpiamente parámetros de tracking a URL de marketing.

¿Dónde encuentro detalles adicionales?

Google Robots.txt Specification — la doc oficial de Google sobre el Robots Exclusion Protocol.
ai.robots.txt (community repository) — lista cuidada de identificadores AI-bot actuales, base para los 14 tokens preseleccionados aquí.
Cloudflare AIndependence — estrategia de ejemplo para mitigación AI-bot más allá de robots.txt.
Robots Exclusion Protocol en Wikipedia — contexto sobre el protocolo, historia desde 1994.

Generador robots.txt — bloqueo AI-bot 2026, validador

AI bot presets

Common block paths

User-agent stacks

Sitemap(s)

Options

Validator

Output

Cómo funciona

Text oder Code einfügen

Automatische Verarbeitung

Ergebnis kopieren

Privacidad

¿Cómo usar esta herramienta?

¿Qué hace el generador de robots.txt?

¿Qué identificadores AI-bot conoce el generador (estado 2026)?

¿Cómo funciona el preset Allow-Search-Block-Train?

¿Para qué sirve el validador?

¿Por qué sin directiva `Host` (salvo para Yandex)?

¿Cómo se comporta el generador con entradas Sitemap?

¿Qué significa el banner Honest-Limits abajo en la herramienta?

¿Qué otros foot-guns hay?

¿Qué herramientas relacionadas hay?

¿Dónde encuentro detalles adicionales?

AI bot presets

Common block paths

User-agent stacks

Sitemap(s)

Options

Validator

Output

Cómo funciona

Text oder Code einfügen

Automatische Verarbeitung

Ergebnis kopieren

Privacidad

¿Qué hace el generador de robots.txt?

¿Qué identificadores AI-bot conoce el generador (estado 2026)?

¿Cómo funciona el preset Allow-Search-Block-Train?

¿Para qué sirve el validador?

¿Por qué sin directiva Host (salvo para Yandex)?

¿Cómo se comporta el generador con entradas Sitemap?

¿Qué significa el banner Honest-Limits abajo en la herramienta?

¿Qué otros foot-guns hay?

¿Qué herramientas relacionadas hay?

¿Dónde encuentro detalles adicionales?

¿Por qué sin directiva `Host` (salvo para Yandex)?