¿Se suben mis datos de audio a un servidor?

No. La transcripción se ejecuta íntegramente en local en su navegador vía WebAssembly. No hay backend, ni clave API, ni logs. Su archivo de audio no sale en ningún momento de su dispositivo.

¿Qué idiomas se admiten?

Detección automática y modo forzado para español, inglés, alemán y francés. El modelo neuronal de reconocimiento de voz subyacente admite alrededor de 100 idiomas — funciona con mayor fiabilidad en español e inglés con pronunciación nítida.

¿Qué formatos acepta la herramienta?

MP3, WAV, M4A (AAC), OGG y WebM. Con eso cubre memos de voz de smartphone, dictáfonos, grabaciones de Zoom/Teams y exports de podcast habituales. Para formatos menos comunes (FLAC, AIFF, WMA), convierta antes a MP3 a 128 kbps — bitrates superiores no mejoran la precisión de reconocimiento.

¿Cuánto tarda una transcripción?

En un portátil reciente, el procesado alcanza unas 2 a 4 veces la velocidad en tiempo real. Una grabación de 5 minutos suele estar lista en 1 o 2 minutos; una reunión de 30 minutos en 8 a 15 minutos. En dispositivos antiguos o smartphones, en consecuencia, más.

¿Puedo exportar subtítulos SRT con marcas de tiempo?

Sí. Al descargar, elija entre salida TXT pura y formato SRT. SRT contiene por cada bloque de subtítulo marca de tiempo de inicio y fin (HH:MM:SS,mmm) y se integra directamente en Premiere, DaVinci Resolve, CapCut o VLC.

¿Cuán precisa es la detección?

En una grabación clara, de micrófono cercano y entorno tranquilo, la precisión de palabra suele situarse entre el 90 y el 95 por ciento. Música de fondo, acentos marcados, jerga especializada y hablantes solapados bajan el valor de forma perceptible. Releer siempre antes de publicar.

¿Puedo distinguir varios hablantes?

La diarización de hablantes (quién-dijo-qué) no está admitida actualmente. La salida es un flujo continuo de transcripción. Los nombres de los hablantes se pueden añadir manualmente tras la copia.

¿Funciona la herramienta sin conexión?

Sí. En cuanto el modelo está en la caché del navegador, la transcripción se ejecuta entera sin conexión a Internet. Práctico para viajes de reportaje, trayectos en tren o grabaciones confidenciales sin conexión externa.

Transcripción de audio — voz a texto en el navegador

¿Cómo funciona la transcripción de audio en el navegador?

El procesado se desarrolla en dos etapas directamente en su dispositivo — sin que un archivo abandone el dispositivo. En la primera etapa, la Web Audio API normaliza su archivo: se remuestrea a 16 kHz mono porque los modelos de reconocimiento de voz esperan ese formato de entrada. Varios canales se promedian en una señal mono, el convertidor de tasa de muestreo suaviza las frecuencias.

En la segunda etapa, un motor de inferencia compilado en WebAssembly toma el relevo. WebAssembly ejecuta algoritmos intensivos en cálculo a velocidad casi nativa en el navegador — sin plugin, sin instalación. En la primera llamada, el modelo queda almacenado en la caché del navegador una vez. A partir de la segunda llamada, la transcripción se ejecuta íntegramente sin conexión.

Tres niveles de calidad — ¿cuál es el adecuado?

La elección es un compromiso entre tamaño de descarga, velocidad y precisión de reconocimiento:

Nivel	Tamaño del modelo	Velocidad	Recomendación
Rápido	~152 MB	muy rápido	Móvil, memos breves, notas
Preciso	~291 MB	equilibrado	Por defecto para reuniones, entrevistas
Muy preciso	~968 MB	más lento	Grabaciones de estudio, charlas especializadas

El nivel se elige en el selector de modelo directamente bajo la zona de subida. El cambio es posible en cualquier momento — cada nivel se guarda en caché por separado.

100 % protección de datos, 0 nube

La herramienta no contacta en ningún momento con un servidor externo. Sin cuenta, sin registro, sin consentimiento a ninguna cesión de datos. Si cierra la pestaña del navegador, no quedan datos — ni guardados localmente ni en una nube. Esto hace la herramienta especialmente adecuada para grabaciones confidenciales: reuniones bajo NDA, consultas médicas, asesoramiento jurídico o entrevistas internas de RR. HH.

¿Cómo obtener los mejores resultados?

Grabación clara: cuantos menos ruidos de fondo, más precisa la detección. Una sala silenciosa ayuda más que filtros posteriores.
Distancia al micrófono: 20–30 cm del micrófono reduce distorsiones y oclusivas.
Pronunciación nítida: hablar lento y con claridad aumenta la tasa de reconocimiento — sobre todo en términos especializados.
Bitrate para archivos grandes: un MP3 a 128 kbps comprime una hora de habla por debajo de 60 MB. Bitrates superiores no aportan nada al reconocimiento de voz.
Dividir grabaciones largas: segmente entrevistas de varias horas en bloques de 30–60 minutos. Es más estable y le da puntos de división naturales.
Forzar el idioma en clips cortos: la detección automática necesita unos 30 segundos de audio. En clips más cortos o con acentos marcados, use el override de idioma.

TXT o SRT — ¿qué exportación elegir?

Al descargar, elija entre dos formatos:

TXT — texto corrido puro, un párrafo, ideal para actas de reunión, borradores de blog o notas de investigación.
SRT — formato de subtítulos SubRip con marcas de tiempo de inicio y fin por bloque (00:01:23,456 --> 00:01:28,910). Se integra directamente en YouTube, Premiere Pro, DaVinci Resolve, CapCut o VLC.

Para subtítulos de contenido social o vídeos didácticos, descargue el SRT e impórtelo en el editor de vídeo. Fuente, tamaño y posición las renderiza el reproductor — la herramienta solo entrega el texto sincronizado.

¿Cuándo merece la pena la transcripción en el navegador?

La transcripción en el navegador es la primera opción siempre que entren en juego la confidencialidad o el cumplimiento de protección de datos.

Actas de reuniones. Las grabaciones de reuniones internas suelen tener que permanecer confidenciales. Como no se transmiten datos de audio al exterior, una fuga involuntaria queda descartada. Una hora de reunión produce típicamente 5.000 a 8.000 palabras de transcripción.

Transcripciones de entrevistas. Las entrevistas periodísticas, los estudios cualitativos o las entrevistas de RR. HH. pueden ponerse por escrito directamente tras la cita — sin que un tercero tenga acceso al contenido.

Digitalizar notas de voz. Pasar rápido a escrito ideas habladas, listas de la compra o entradas de diario, y procesarlas en apps de notas como Obsidian, Notion o Apple Notes.

Subtítulos para sus propios vídeos. Vídeos didácticos, tutoriales o Reels: la exportación SRT le da la base sobre la que solo corregirá las erratas en el editor. Mejora la accesibilidad para personas sordas y todas las que ven vídeos sin sonido.

Investigación académica. Investigadores e investigadoras cualitativos transcriben grabaciones de entrevistas sin entregar datos sensibles a proveedores externos de transcripción — conforme al RGPD, sin contrato de encargo del tratamiento.

¿Qué formatos se admiten?

La herramienta acepta los formatos de audio más habituales: MP3, WAV, M4A (AAC), OGG Vorbis y WebM Opus. WAV ofrece la mejor calidad de partida pero es notablemente más grande. MP3 ofrece el mejor compromiso entre tamaño y calidad. Los archivos muy grandes por encima de 200 MB pueden provocar cuellos de botella de memoria en dispositivos antiguos o smartphones — en ese caso, divida antes.

¿Qué herramientas la complementan?

Del ecosistema kittokit para el workflow Audio → Texto → procesado posterior:

Mejorar la voz — quitar ruido, eco y ruidos de fondo de una grabación antes de transcribirla. Mejora sensiblemente la precisión de reconocimiento.
Contador de caracteres — determinar palabras, caracteres y tiempo de lectura de su transcripción. Práctico para acortar actas para newsletter o borradores de blog.
Text-Diff — comparar dos versiones de transcripción, por ejemplo original y versión revisada. Muestra los cambios marcados palabra por palabra.

Transcripción de audio

Cómo funciona

Elegir el archivo de audio

Elegir calidad e idioma

Obtener la transcripción

Privacidad

¿Cómo usar esta herramienta?