¿Por qué el modelo de IA sin conexión no está disponible para español?

Los modelos de voz por IA abiertos disponibles hoy en el navegador con licencia libre solo cubren inglés en varios dialectos. Para español, la síntesis de voz del navegador sigue siendo la opción más rápida y de calidad aceptable. En cuanto aparezca un modelo libre comparable para español, lo añadiremos aquí.

¿Va mi texto a un servidor con la síntesis del navegador?

Posiblemente. Chrome y Edge envían el texto en algunas voces del sistema a Google o Microsoft para sintetizarlo. Firefox y Safari usan voces del sistema locales, no envían nada. La implementación exacta depende del navegador y del sistema operativo. Si quiere asegurarse de que nada salga de su dispositivo, elija el modelo de IA local (disponible solo para inglés).

¿Qué tamaño tiene el modelo de IA?

Unos 92 MB. Se carga una sola vez en la caché del navegador en la primera ejecución y queda disponible sin conexión. Solo necesita descargarlo una vez; después la síntesis funciona sin internet.

¿Qué idiomas admite la síntesis del navegador?

Depende de su sistema operativo. Windows, macOS, iOS y Android suelen incluir español, inglés, francés, italiano, alemán y otros idiomas. En el menú desplegable verá todas las voces que su sistema ofrece — varía según el sistema.

¿Qué longitud puede tener el texto?

Hasta 50.000 caracteres por proceso. Los textos largos se dividen automáticamente por los límites de frase y se leen de forma sucesiva — en el reproductor no se nota. Para textos extremadamente largos (varios libros) conviene dividirlos en capítulos individuales.

¿Puedo insertar pausas?

Sí. Escriba `[pause 500ms]` en el punto deseado del texto — la herramienta coloca allí una pausa de 500 milisegundos. Funcionan valores entre 50 y 5.000 milisegundos. Resulta práctico para textos de lectura, borradores de audiolibro o grabaciones de presentación con pausas controladas.

¿En qué formatos puedo descargar el audio?

MP3 (guardado con marca de agua en una etiqueta ID3 según el artículo 50 del Reglamento de IA de la UE) o sin compresión como WAV. MP3 basta para la mayoría de los casos y es notablemente más pequeño. La descarga solo está disponible con el motor de IA sin conexión — la síntesis del navegador no puede grabarse de forma fiable a un archivo.

¿La herramienta es gratuita y se puede usar comercialmente?

Sí. La herramienta es de código abierto y gratuita. El audio generado puede usarlo libremente, en uso privado o comercial. Tenga en cuenta que, con el motor de IA sin conexión, la voz generada por IA debe identificarse como tal según el artículo 50 del Reglamento de IA de la UE; la marca en la etiqueta ID3 cumple esa obligación de forma legible por máquina.

Texto a voz — lectura en el navegador, gratis

¿Qué es la síntesis de voz y por qué hacerla en local en el navegador?

La conversión de texto a voz (síntesis de voz) transforma frases escritas en audio hablado. Las aplicaciones habituales van desde audiolibros y funciones de lectura para personas con discapacidad visual hasta voces superpuestas para vídeos, boletines de audio y la revisión auditiva de textos largos.

Tradicionalmente, esos servicios se ejecutan en la nube: usted envía su texto a un servidor externo y el servidor devuelve un archivo de audio. Con textos largos o confidenciales esto resulta problemático — los contenidos se almacenan, se explotan comercialmente o quedan sujetos a un acuerdo de encargado del tratamiento según el RGPD.

Esta herramienta invierte el planteamiento: la síntesis se ejecuta directamente en su navegador. Hay dos motores a elegir, y el selector muestra en todo momento, de forma transparente, qué datos pueden salir de su dispositivo.

Dos motores — ¿cuál conviene en cada caso?

La arquitectura híbrida es la decisión de diseño central. Ambos motores tienen ventajas y desventajas y se controlan con el mismo selector:

Motor	Disponibilidad	Privacidad	Calidad de voz	Descarga del modelo
Rápido y en línea	Todos los idiomas del sistema	Posible ida y vuelta a la nube	Depende del sistema	0 MB
Privado y sin conexión (IA)	Solo inglés	100 % local tras la descarga	Muy natural	~92 MB una sola vez

La síntesis del navegador está disponible al instante en todas partes — Windows, macOS, iOS, Android y Linux incluyen voces del sistema. La calidad varía mucho según la plataforma: los dispositivos Apple tienen voces muy buenas, Windows es sólido, Android varía bastante entre fabricantes.

El modelo de IA sin conexión ofrece la pronunciación más natural y, tras la descarga única, funciona sin ninguna conexión a Internet. La desventaja: solo cubre inglés americano y británico. Para textos en español, por tanto, la síntesis del navegador sigue siendo la opción viable.

¿Cuándo conviene la síntesis del navegador?

La síntesis basada en el navegador es la primera opción para:

Revisión rápida en voz alta. Escuche su borrador de blog o redacción — una mala estructura de frase se percibe al oído de inmediato.
Apoyo a personas con discapacidad visual. En textos largos sobre la marcha, sin instalar software adicional.
Aprendizaje de idiomas. Escuche la pronunciación correcta de frases en español con distintas voces del sistema.
Borradores de audio rápidos. Primera impresión de una voz superpuesta antes de reservar un estudio de grabación.

Tenga en cuenta el aviso sobre el selector de motor: en Chrome y Edge ciertas voces del sistema pueden enviar el texto a Google o Microsoft para sintetizarlo. Firefox y Safari trabajan exclusivamente con voces del sistema locales y no envían nada. Si necesita confidencialidad, use el motor de IA sin conexión (inglés) o un navegador que solo use voces locales.

¿Cómo funcionan los marcadores de pausa?

Si trabaja con audiolibros, voces superpuestas para tutoriales o grabaciones de presentación, necesitará pausas controladas. Basta con escribirlo así en el texto:

Hoy hablamos sobre privacidad. [pause 800ms] Eso nos concierne a todos.

El marcador [pause 500ms] coloca una pausa de 500 milisegundos en ese punto. Valores permitidos: de 50 a 5.000 milisegundos. Los marcadores fuera del rango se ajustan al límite más próximo — esto evita huecos accidentales de varios segundos por una errata.

En la síntesis del navegador, las pausas se generan como dos frases separadas con un setTimeout intercalado. En el motor de IA sin conexión, las pausas se insertan como silencio puro directamente en el flujo de audio.

¿Qué significa la marca de agua del Reglamento de IA de la UE?

Desde agosto de 2026, el artículo 50 del Reglamento de IA de la UE exige que los contenidos de audio, vídeo y texto generados por IA se identifiquen como tales. Para la síntesis de voz, esto significa que quien publique voces generadas por IA (pódcast, publicidad, audiolibro) debe hacerlo de forma transparente.

Esta herramienta cumple la obligación en dos pasos:

Visible en la interfaz — sobre el reproductor de audio figura el aviso «generado por IA».
Legible por máquina en el archivo — al descargar el MP3, la herramienta incrusta una etiqueta ID3 en el campo de subtítulo que documenta el motor y la voz.

Esta marca no debe eliminarse al publicar el audio — el artículo 50, apartado 4, la exige para todo material de voz generado por IA.

¿Qué consejos mejoran el resultado?

Puntúe con claridad. Los puntos, las comas, los dos puntos y los guiones marcan la melodía natural del habla. Una puntuación descuidada produce una lectura monótona.
Escriba las abreviaturas completas. «p. ej.» suele leerse como «pe ejota» en lugar de «por ejemplo». Escriba la forma completa en el texto.
Cuide los números. «1.500» se interpreta a menudo como «uno punto quinientos». Escriba las cifras largas en palabras si la síntesis las trocea.
Cuidado con las comillas. Algunas voces leen el carácter literalmente. Si necesita citas, márquelas con palabras.
Ajuste la velocidad. Las voces de audiolibro suenan más naturales a 0,9×; las voces superpuestas explicativas se benefician de 1,1×. Pruebe tres velocidades.

¿Cuándo vale la pena el motor de IA sin conexión?

Si necesita textos en inglés leídos con un sonido muy natural y quizá quiera publicar el audio, el motor de IA sin conexión es notablemente más convincente que la síntesis del navegador. El sonido recuerda a las grabaciones humanas y las voces presentan rasgos distinguibles.

Casos de uso prácticos:

Voces superpuestas en inglés para tutoriales. No necesita estudio ni grabación de locutor — pegue el guion en la herramienta, elija una voz, descargue el MP3 y móntelo en su editor de vídeo.

Borradores de audiolibro para autopublicación. Antes de invertir en una grabación real, compruebe el flujo del texto y la pronunciación con la voz de IA.

Aprendizaje de idiomas para hispanohablantes. Textos en inglés (listas de vocabulario, frases de ejercicio, textos didácticos) con una pronunciación natural y constante en varias voces.

Publicaciones accesibles. Cree versiones MP3 de entradas de blog en inglés para lectores ciegos — totalmente conforme con el RGPD, porque ni su texto ni el audio salen jamás de su dispositivo.

¿Qué herramientas la complementan?

Del ecosistema kittokit para el flujo de voz:

Transcripción de audio — la vía inversa: de audio a texto, multilingüe.
Transcripción rápida EN — para quien quiera pasar a texto rápidamente grabaciones en inglés.
Mejorar la voz — si tiene grabaciones propias y quiere quitar ruido, eco o ruidos de fondo.

Texto a voz — lectura en el navegador

Cómo funciona

Pegar el texto

Elegir motor, voz y velocidad

Reproducir o descargar

Privacidad

¿Cómo usar esta herramienta?