Saltar al contenido
Runs local · no upload

Generar descripciones de imagen automáticamente

Foto dentro, alt-text listo fuera. Una red neuronal especializada describe la imagen — directamente en su dispositivo, sin que el archivo llegue a subirse.

Drop your image here

Or click — PNG, JPG, WebP, AVIF or HEIC up to 15 MB

PNGJPGWEBPAVIFHEICHEIF
Description mode

Cómo funciona

  1. 01

    Elegir imagen

    Arrastre un archivo al área o elíjalo desde el dispositivo. PNG, JPG, WebP, AVIF o HEIC hasta 15 MB.

  2. 02

    Elegir modo y contexto

    Corto para alt-text con límite de 125 caracteres, Largo para leyendas SEO, Detallado para escenas amplias. Opcional: mostrar contexto de página para que el modelo conozca el marco de referencia.

  3. 03

    Revisar y guardar descripción

    La salida aparece en un campo de texto editable con contador de caracteres y avisos WCAG. Copiar directamente o descargar como .txt.

Privacidad

El procesamiento se ejecuta exclusivamente en su dispositivo. Sus imágenes no abandonan el navegador, no se transmiten a servidores y se eliminan al cerrar la pestaña. Así, la herramienta se puede utilizar de forma conforme al RGPD — también para fotos de producto, documentos profesionales o contenidos visuales confidenciales.

Las webs accesibles necesitan alt-text para cada imagen, las tiendas en línea quieren leyendas de producto y los blogs viven de pies de foto optimizados para SEO. Aquí obtiene ambos en un solo paso — la descripción se genera completamente en el navegador con IA, sin que su foto vaya a un servidor. Tres modos: alt-text corto con verificación WCAG, leyenda larga o descripción de escena detallada.

01 — Cómo usarlo

¿Cómo usar esta herramienta?

  1. Seleccione una imagen o arrástrela (PNG, JPG, WebP, AVIF o HEIC hasta 15 MB)
  2. Elija modo: Corto (alt-text, máx. 125 caracteres), Largo o Detallado
  3. Opcional: introduzca contexto de página (p. ej. «página de producto de botas de senderismo») para enfocar la descripción
  4. Descarga única del modelo en segundo plano (unos 75 MB), después queda en caché
  5. Copie la descripción o descárguela como .txt

¿Qué hace la herramienta?

La herramienta produce a partir de una imagen una descripción en lenguaje natural — como alt-text corto, como leyenda más larga o como relato de escena detallado. El cálculo se ejecuta completamente en su navegador mediante WebAssembly y una red neuronal especializada entrenada precisamente para tareas de imagen a texto. Hay tres modos: «Corto (alt-text)» entrega una descripción de menos de 125 caracteres, que encaja directamente en el atributo alt de una etiqueta <img>; «Largo» produce una leyenda más amplia para pies de foto y publicaciones en redes sociales; «Detallado» profundiza y describe también el ambiente y los elementos de fondo.

Adicionalmente se incluye una capa de avisos WCAG que comprueba cada resultado en directo contra las recomendaciones de accesibilidad web: contador de caracteres con indicador en semáforo al sobrepasar el límite de 125 caracteres, detección automática de frases redundantes como «imagen de…» y sugerencia en un clic para depurarlas. Esto evita los antipatrones más frecuentes que molestan a los usuarios de lectores de pantalla en la web.

¿Cómo funciona la herramienta?

Describir imágenes es un problema del campo visión por computador — el ordenador debe reconocer a partir de los valores de píxel qué se ve en la imagen y traducirlo en una frase gramaticalmente correcta. Los algoritmos clásicos fallan: reconocen colores, bordes y formas simples, pero no significado. Los modelos modernos de visión y lenguaje resuelven la tarea con una arquitectura en dos pasos — un codificador transforma la imagen en una representación compacta y un decodificador escribe texto a partir de ella.

Todo el proceso se ejecuta en su navegador. En el primer uso, el modelo se carga una vez desde un almacenamiento público de modelos (unos 75 MB en la variante rápida, unos 90 MB en la más precisa), después queda en la caché del navegador y trabaja sin conexión. Cada descripción siguiente dura, según el dispositivo y el modo, entre 3 y 15 segundos. En segundo plano, la imagen se normaliza a un tamaño compatible con el modelo, se pasa por la red codificadora y el decodificador produce, token a token, la frase de descripción.

La herramienta admite dos variantes: la rápida se ejecuta en cualquier dispositivo, incluidos teléfonos y tabletas; la más precisa está pensada para ordenadores de sobremesa modernos y teléfonos recientes, y entrega descripciones tendencialmente más precisas — sobre todo en fotos de producto y escenas con varios objetos.

¿Cuándo entrega la herramienta buenos resultados?

Las fotos con un motivo principal claro son el caso ideal. Retratos, fotos de animales, paisajes, fotos de producto con el sujeto centrado, tomas de interior — siempre que la imagen muestre una escena unívoca, el modelo entrega descripciones útiles. También se benefician las fotos de archivo, las imágenes de blog y las publicaciones en redes sociales.

Resulta difícil en tres casos:

  • Marcas, logotipos y texto en la imagen — el modelo rara vez reconoce nombres de marca concretos ni realiza OCR. Para texto dentro de la imagen, nuestra herramienta separada Imagen a texto es la elección adecuada.
  • Imágenes muy abstractas o decorativas — patrones, degradados, iconos. Aquí el modelo produce a menudo descripciones demasiado genéricas como «Un patrón colorido». Para imágenes decorativas, basta con alt="" (alt-text vacío) en la web.
  • Expectativas de identificación de personas — el modelo describe apariencia y pose, pero no aporta nombres. Es intencional: el reconocimiento facial sería delicado en materia de privacidad; la herramienta se limita a una descripción de contenido neutra.

Cuando los resultados son poco satisfactorios, el campo de contexto opcional ayuda: «Contexto de página: tienda en línea de equipamiento de senderismo» enfoca el modelo en el ámbito lingüístico y temático adecuado, y obtiene descripciones como «Bota de senderismo de cuero marrón con suela roja» en lugar de «Una bota».

¿Por qué sale la descripción en inglés?

Los modelos actualmente disponibles compatibles con navegador se entrenaron sobre un conjunto de datos en inglés (MS-COCO Captions). Por eso, en la v1 la descripción siempre es en inglés — también cuando trabaja en la página en español. Una versión en español está en la hoja de ruta, en cuanto un modelo de visión y lenguaje en español por debajo del umbral de tamaño para navegador (≤100 MB) esté disponible. Para el flujo de trabajo actual, la salida en inglés se puede retrabajar con cualquier herramienta de traducción — o usarse directamente en estilo de redacción en inglés como alt-text en sitios multilingües, ya que el alt-text a menudo se escribe en inglés de todas formas.

Privacidad — 100 % en el navegador

El análisis de imagen ocurre exclusivamente en local, en su dispositivo. Ni el original ni la descripción generada se envían a un servidor, se almacenan ni se analizan. No hay banner de cookies para terceros, no hay registro y no hay seguimiento — tampoco estadísticas de uso anónimas.

Una excepción es la descarga única del modelo en el primer uso: el archivo del modelo se carga una vez desde un almacenamiento público de modelos. Esta petición contiene exclusivamente la URL del archivo del modelo. No se transmite ningún dato de imagen ni ningún identificador de usuario. Técnicamente, el proveedor del modelo ve la dirección IP y el User-Agent del navegador desde el que procede la descarga — los mismos datos que ve también su proveedor de Internet en cada llamada a una web. Tras la primera carga, el modelo queda en la caché del navegador y ya no se contacta con el CDN.

Para imágenes sensibles como prototipos de producto, contenidos visuales de marketing confidenciales o fotos de prensa no publicadas, esa es exactamente la ventaja decisiva frente a los servicios en la nube que requieren subir la imagen obligatoriamente. Más detalles están en la política de privacidad.

¿Qué prescribe el EU AI Act para las descripciones con IA?

A partir de agosto de 2026, el EU AI Act, en su artículo 50, exige que los contenidos generados por IA se marquen como tales. Por eso, la herramienta muestra encima de cada descripción generada un aviso fijo, no ocultable: «Esta descripción ha sido generada por un modelo de IA. Compruébela antes de usarla — los modelos de IA pueden malinterpretar o inventar contenidos de imagen.» Este aviso es obligatorio y no puede desactivarse.

En la práctica, esto significa: la salida es una sugerencia, no un hecho vinculante. Los modelos de IA «alucinan» ocasionalmente contenidos que no están en la imagen, o interpretan mal escenas ambiguas. Especialmente en alt-text para accesibilidad, descripciones de relevancia jurídica o médica y todo lo que se publique oficialmente, vale la pena una revisión visual breve antes de adoptarla.

Preguntas frecuentes

Las preguntas más frecuentes sobre uso, calidad y privacidad:

¿Cómo se generan alt-text para imágenes automáticamente?

Suba su imagen a la herramienta de arriba — se describe completamente en el navegador con IA. El modo «Corto (alt-text)» entrega una descripción de menos de 125 caracteres, que encaja directamente en alt="…". Gratis, sin registro, sin seguimiento.

¿Qué es un buen alt-text según WCAG?

Un buen alt-text describe el contenido y la función de una imagen en un máximo de 125 caracteres, sin «imagen de…» ni extensión de archivo. La herramienta le avisa automáticamente cuando aparecen estos antipatrones y propone una versión depurada.

¿Funciona el descriptor de IA sin conexión?

Sí. En el primer uso, el navegador descarga una sola vez el modelo de IA (unos 75 MB). Después, todas las descripciones siguientes se ejecutan completamente sin conexión desde la caché del navegador.

¿Qué formatos de imagen se pueden subir?

Entrada: PNG, JPG, WebP, AVIF y HEIC (fotos de iPhone). HEIC se convierte automáticamente antes de que el modelo se ejecute. La salida es texto — archivo .txt o directamente al portapapeles.

¿Cuánto tarda una descripción?

Tras la descarga única del modelo, la descripción dura habitualmente entre 3 y 15 segundos — según el dispositivo, la variante elegida y el modo de detalle. Durante el procesamiento, una barra de progreso muestra el estado actual.

¿Qué herramientas de imagen están relacionadas?

Otras herramientas del ecosistema kittokit que encajan con el tema:

  • Imagen a texto (OCR) — leer texto de imágenes, también completamente en el navegador. Use esta herramienta cuando necesite el texto que aparece dentro de la imagen (escaneos, capturas).
  • Eliminar fondo — recorte basado en IA, a menudo el paso previo para descripciones de producto limpias.
  • Ampliar imagen — llevar imágenes pequeñas a resolución de impresión, antes de generar alt-text.
  • Visor EXIF — leer metadatos de la imagen (cámara, GPS, fecha) — complementario a la descripción de contenido.

Última actualización:

También le puede interesar