Saltar al contenido
DEV-TOOL

Generador robots.txt — bloqueo AI-bot 2026, validador

Componer bloques User-agent, bloquear AI-bots dirigido o permitirlos como fuente de citación — con validador contra trampas típicas (case-mismatch, tokens obsoletos, CSS/JS bloqueados).

Runs locally in the browser — the generator emits text in memory, nothing is uploaded.

AI bot presets

Current 2026 bot tokens — deprecated names (anthropic-ai, Claude-Web) block nobody and are flagged by the validator.

Search bots may cite the page, training bots are blocked. The recommended strategy for content sites that want visibility without data harvesting.

Common block paths

Adds paths to the first `User-agent: *` stack (creates one if missing).

User-agent stacks

Googlebot ignores Crawl-delay. Bing and Yandex respect it. Set only if the server is overloaded.

Sitemap(s)

One absolute URL per line — should ideally start with `https://`.

Options

AI bots in output 0
User-agent stacks 1
Sitemap lines 1

Validator

No issues found.

Output

Place at `/robots.txt` on your domain root (LF line endings, no BOM).

User-agent: *
Disallow: /admin/

Sitemap: https://example.com/sitemap.xml

Cómo funciona

  1. 01

    Text oder Code einfügen

    Füge deinen Inhalt in das Eingabefeld ein oder tippe direkt.

  2. 02

    Automatische Verarbeitung

    Das Tool verarbeitet den Inhalt sofort und zeigt das Ergebnis.

  3. 03

    Ergebnis kopieren

    Kopiere das Ergebnis mit einem Klick in die Zwischenablage.

Privacidad

Alle Berechnungen laufen direkt in deinem Browser. Keine Daten werden auf Server übertragen.

Un editor para `robots.txt` con múltiples bloques User-agent, presets AI-bot curados (Block-All / Allow-Search-Block-Train / splits de tres niveles para Apple, OpenAI y Anthropic) y un validador semántico. Añade rutas línea por línea, el generador emite el resultado en vivo como texto plano con formato LF — listo para `/robots.txt` en la raíz del dominio. Cliente puro, sin subida, sin cuenta.

01 — Cómo usarlo

¿Cómo usar esta herramienta?

  1. Elegir un preset AI-bot (o ninguno) — `Block all` pone los 14 identificadores actuales 2026 en `Disallow: /`, `Allow AI search, block training` permite Search-bots y bloquea bots Training.
  2. Si lo necesita, hacer clic en un Common-Block (Admin, Tienda, Búsqueda, ruido de query, PDF, borradores) — las rutas aterrizan en el primer bloque `User-agent: *`; o crear sus propios bloques User-agent y rellenar Allow/Disallow línea por línea.
  3. Poner Crawl-delay solo si el servidor está sobrecargado (Googlebot lo ignora; Bing y Yandex lo respetan).
  4. Introducir URL de Sitemap una por línea y comprobar el panel validador: case-mismatch, conflicto Allow/Disallow, tokens obsoletos, CSS/JS bloqueado, URL Sitemap malformada.
  5. Copiar la salida o descargarla como `robots.txt` y depositarla en la raíz del dominio como `/robots.txt`.

¿Qué hace el generador de robots.txt?

El generador es un editor para el archivo robots.txt que los crawlers de buscadores y AI-bots leen antes de indexar. Construye uno al lado de otro tantos bloques User-agent como quiera, cada uno con sus propias reglas Allow y Disallow y un Crawl-delay opcional. Al lado hay presets para identificadores AI-bot (estado 2026), rutas Common-Block (Admin, Tienda, Búsqueda, PDF) y un validador que marca errores típicos. La salida es texto plano con terminaciones LF, sin BOM, lista para /robots.txt en la raíz del dominio.

Tres bloques impulsan la herramienta:

  • Editor multi-stack — tantos bloques User-agent como quiera, Allow/Disallow editables línea por línea, Crawl-delay ajustable por bloque.
  • Presets AI-bot — cinco splits curados: bloquear los 14 bots, permitir Search-bots y bloquear bots Training, así como splits de tres niveles específicos para Apple, OpenAI y Anthropic.
  • Validador — case-mismatch, conflicto entre Allow y Disallow, CSS/JS bloqueado, nombres de tokens obsoletos, URL Sitemap malformadas, http en texto plano en vez de https.

Todo en el navegador. Sin subida, sin cuenta, sin banner de cookies.

¿Qué identificadores AI-bot conoce el generador (estado 2026)?

La lista curada cubre catorce tokens actuales — mantenida según la documentación del proveedor en vez de tutoriales obsoletos:

ProveedorIdentificador botPropósito
OpenAIGPTBotEntrenamiento
OpenAIChatGPT-UserConsultas iniciadas por usuario
OpenAIOAI-SearchBotAnclaje Search en tiempo real
AnthropicClaudeBotEntrenamiento
AnthropicClaude-UserConsultas iniciadas por usuario
AnthropicClaude-SearchBotBúsqueda claude.ai
PerplexityPerplexityBotAnclaje Search
PerplexityPerplexity-UserConsultas iniciadas por usuario
Common CrawlCCBotEntrenamiento (conjunto para muchos modelos)
ByteDanceBytespiderEntrenamiento
MetaMeta-ExternalAgentEntrenamiento
AmazonAmazonbotMixto
AppleApplebot-ExtendedEntrenamiento
GoogleGoogle-ExtendedEntrenamiento

Error frecuente: tutoriales de 2023 nombran anthropic-ai y Claude-Web. Anthropic retiró estos nombres en 2024 — quien los lleva hoy en robots.txt no bloquea a nadie y simultáneamente no tiene bloqueo sobre el bot real. El validador marca estos tokens como deprecated y nombra el sustituto moderno.

¿Cómo funciona el preset Allow-Search-Block-Train?

El segundo preset IA separa propósitos de bots en vez de bloquear todos en bloque. Los Search-bots (OAI-SearchBot, Claude-SearchBot, PerplexityBot) pueden recuperar la página porque su llamada corresponde directamente a una pregunta de usuario — la página aterriza en la respuesta como citación. Los bots Training (GPTBot, ClaudeBot, CCBot, Bytespider, Meta-ExternalAgent, Applebot-Extended, Google-Extended) se bloquean porque su crawl solo alimenta el snapshot del modelo y no aporta beneficio de visibilidad para la propia página.

Esta separación no existe en ninguna de las tres herramientas competidoras investigadas (metatags.io, seoptimer.com, websiteseochecker.com) como toggle de un clic. Los usuarios tenían que copiar las listas manualmente del PDF de documentación del proveedor — exactamente el punto en el que tutoriales obsoletos se perpetúan y el token anthropic-ai sobrevive.

¿Para qué sirve el validador?

El validador corre en vivo sobre el texto emitido y reporta cinco clases de foot-guns:

  • Case-Mismatch: /Admin/ vs /admin/robots.txt distingue mayúsculas, las dos rutas bloquean URL distintas.
  • Conflicto: Allow y Disallow en la misma ruta — los crawlers deciden de forma desigual, la intención es ambigua.
  • Tokens obsoletos: anthropic-ai, Claude-Web — ya no son leídos por ningún bot activo en 2026.
  • CSS/JS bloqueado: /css/, /assets/, /*.js — Google renderiza entonces una versión rota de la página en el test Mobile-Friendly.
  • Formato URL Sitemap: URL no absolutas (example.com/sitemap.xml en vez de https://example.com/sitemap.xml) son ignoradas por los crawlers.

El validador es pasivo — no corrige nada automáticamente, solo le dice dónde mirar. Eso mantiene el archivo determinista: la misma entrada da la misma salida sin reescrituras mágicas en segundo plano.

¿Por qué sin directiva Host (salvo para Yandex)?

Host: es una extensión de Yandex y no está incluida en la spec oficial robots.txt de Google, Bing y DuckDuckGo. En sitemaps con varios dominios espejo, Yandex nombra así la variante canónica. Si sus motores principales son Google y Bing, no necesita Host: — la URL canónica va en la etiqueta <link rel="canonical"> del <head> HTML o en una entrada Sitemap:. El generador ofrece Host: como campo opcional por stack, por defecto vacío.

¿Cómo se comporta el generador con entradas Sitemap?

Las URL Sitemap se emiten como sección separada al final del archivo, una entrada por línea:

Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/sitemap-news.xml

Las líneas Sitemap valen globalmente — no están ligadas a un bloque User-agent. Varias entradas Sitemap están permitidas; todos los crawlers actuales las leen. El validador comprueba el formato URL (http:// o https:// obligatorio) y avisa con http en texto plano como indicación de buena práctica.

¿Qué significa el banner Honest-Limits abajo en la herramienta?

robots.txt es una convención voluntaria. Los crawlers bien educados — Googlebot, Bingbot, DuckDuckBot, Yahoo Slurp, grandes crawlers SEO como Ahrefsbot o SemrushBot — respetan el archivo de manera fiable. Los crawlers IA en cambio han ignorado robots.txt en varios informes de auditoría 2024/2025: WIRED probó PerplexityBot y encontró accesos pese a Disallow; 404Media documentó hallazgos similares en Bytespider. Quien necesite un bloqueo duro añade una capa de mitigación de bots: Cloudflare Bot Fight Mode, reglas WAF por User-agent, bloqueo a nivel de servidor mediante un if de nginx o un RewriteCond %{HTTP_USER_AGENT} de Apache. El generador lo menciona explícitamente en el banner porque muchos tutoriales actúan como si robots.txt bastara por sí solo.

¿Qué otros foot-guns hay?

Tres puntos a menudo olvidados:

  1. Las rutas son coincidencias por prefijo. Disallow: /admin bloquea también /administrator/, no solo /admin/. Quien quiera bloquear solo la ruta exacta escribe Disallow: /admin/$ con anclaje final (en dialecto Googlebot, no soportado en RFC estricto — comprobar la variante).
  2. Disallow: sin valor. Es una directiva válida y significa « no bloquear nada » — funcionalmente idéntico a « User-agent: X, no bloquear ninguna ruta ». Algunos crawlers legacy esperan al menos una línea Disallow por bloque; por eso la forma vacía es convención.
  3. User-agent: * no hace match con todos los bots. Si existe un bloque User-agent específico (p. ej. User-agent: GPTBot), este anula las reglas * para GPTBot completamente — también las reglas Allow se pierden. Eso significa: los bloques bot especiales repiten todas las reglas relevantes explícitamente, en vez de apoyarse en el bloque *.

¿Qué herramientas relacionadas hay?

Quien usa robots.txt típicamente construye también otra infraestructura de crawler/encabezados servidor. Para eso en el set:

¿Dónde encuentro detalles adicionales?

Última actualización:

También le puede interesar