¿Cómo usar esta herramienta?
- Elija un archivo de audio en inglés (MP3, WAV, M4A, OGG, WebM) con un clic o arrastrando y soltando.
- Elija el nivel de calidad: Rápido (~93 MB, funciona también en móvil) o Preciso (~188 MB, recomendado en ordenador).
- Pulse «Iniciar transcripción». El modelo se carga una vez en la caché del navegador y queda disponible sin conexión.
- Observe el factor en tiempo real: valores inferiores a 1.0× significan que la herramienta va más rápido que la duración del audio.
- Copie el resultado o descárguelo como TXT o SRT (con marcas de tiempo para subtítulos).
¿Por qué una herramienta dedicada al audio en inglés?
El inglés es el idioma más transcrito del mundo — podcasts, charlas tech, reuniones internacionales, tutoriales de YouTube. Los modelos multilingües de reconocimiento de voz deben llevar tokens, vocabulario e identificación de idioma para alrededor de un centenar de lenguas. Esto infla el modelo, cuesta memoria y tiempo de inferencia — aunque solo hable en inglés.
Un modelo entrenado específicamente en inglés elimina ese sobrecoste. El decodificador se reduce a la mitad, la inferencia se vuelve medible más rápida. Sobre el mismo hardware, el modo rápido procesa el audio típicamente por debajo del tiempo real — un podcast de diez minutos suele estar listo en 90 segundos. Con la transcripción de audio multilingüe, la misma grabación en modo «Preciso» tarda tres o cuatro veces más.
¿Cómo funciona la transcripción en el navegador?
El procesamiento se realiza en dos pasos directamente en su dispositivo — sin que ningún archivo abandone el equipo. En el primer paso, la API Web Audio normaliza el archivo: se reduce a mono a 16 kHz, porque los modelos de reconocimiento de voz esperan ese formato de entrada. Varios canales se promedian en una señal monoaural.
En el segundo paso, un motor de inferencia compilado en WebAssembly toma el relevo. WebAssembly ejecuta algoritmos intensivos a velocidad cercana a la nativa en el navegador — sin plugin, sin instalación. En el primer acceso, el modelo se carga una vez en la caché del navegador. A partir del segundo, la transcripción funciona totalmente sin conexión.
Dos niveles de calidad — ¿cuál elegir?
La elección es un compromiso entre tamaño de descarga y precisión:
| Nivel | Tamaño del modelo | Recomendación |
|---|---|---|
| Rápido | ~93 MB | Memos cortos, llamadas de menos de 30 min, dispositivos móviles |
| Preciso | ~188 MB | Charlas largas, audio con acento, grabaciones con ruido |
El nivel se elige en el selector de modelo, justo debajo del área de carga. Se puede cambiar en cualquier momento — cada nivel se cachea por separado.
¿Qué significa el factor en tiempo real?
Tras cada transcripción aparece en el área de resultado el factor en tiempo real. Expresa cuánto duró el procesamiento respecto a la duración del audio:
- <1.0× — más rápido que la grabación (p. ej. 0.4× = 40 % de la duración del audio).
- 1.0× — procesamiento tan largo como el audio.
- >1.0× — el audio se procesó más despacio que en tiempo real.
En portátiles actuales en modo rápido, el valor suele situarse entre 0.3× y 0.6× para grabaciones limpias. Con grabaciones largas, ruido de fondo fuerte o hardware modesto sube. En móviles antiguos, incluso el modo rápido puede superar 1.0× — en ese caso conviene dividir el audio en segmentos más cortos.
¿Cómo se garantiza la privacidad?
La herramienta no contacta en ningún momento con un servidor externo. Sin cuenta, sin registro, sin consentimiento a transmisión alguna. Al cerrar la pestaña, no quedan datos — ni almacenados localmente ni en la nube. La herramienta es especialmente adecuada para:
- Conversaciones confidenciales — entrevistas de selección, consultas con abogados, grabaciones médicas.
- Contenidos bajo NDA — reuniones internas, llamadas de estrategia, briefings de producto.
- Fuentes periodísticas — grabaciones de entrevista sin terceros.
- Investigación académica — conforme al RGPD, sin contrato de encargo del tratamiento.
TXT o SRT — ¿qué exportación encaja?
En la descarga se elige entre dos formatos:
- TXT — texto corrido, un solo bloque, ideal para actas de reunión, borradores de blog o notas de investigación.
- SRT — formato de subtítulos SubRip con marcas de tiempo de inicio y fin por bloque (
00:01:23,456 --> 00:01:28,910). Se integra directamente en YouTube, Premiere Pro, DaVinci Resolve, CapCut o VLC.
Quien necesite subtítulos para contenido social o vídeos didácticos descarga el SRT y lo importa en el editor de vídeo. Tipografía, tamaño y posición las renderiza el reproductor — la herramienta solo aporta el texto sincronizado.
¿Cómo conseguir los mejores resultados?
- Grabación limpia — cuanto menos ruido de fondo, más preciso será el reconocimiento. Una sala silenciosa ayuda más que filtros posteriores.
- Distancia al micrófono de 20–30 cm — reduce distorsiones y plosivas.
- Pronunciación clara — hablar despacio y con dicción aumenta la tasa de acierto, sobre todo en términos técnicos.
- Dividir grabaciones largas — separe entrevistas de varias horas en segmentos de 30 a 60 minutos. Es más estable y le da puntos de estructura naturales.
- 128 kbps MP3 basta — tasas mayores no mejoran el reconocimiento.
¿Cuándo merece la pena la transcripción en el navegador?
La transcripción en el navegador es la primera opción siempre que la confidencialidad o el cumplimiento en protección de datos importe:
Show-notes de podcast. Verbalizar un episodio completo, extraer citas, fijar marcas de capítulo o generar una descripción amigable para SEO. Una hora de podcast suele producir entre 5 000 y 8 000 palabras de transcripción.
Reuniones y llamadas en inglés. Standups internacionales, entrevistas con clientes US/UK, llamadas con inversores en inglés — transcribir rápido sin entregar contenidos sensibles a servicios externos.
Subtítulos de vídeo. Tutoriales, reels o vídeos didácticos en inglés: la exportación SRT le da la base sobre la que solo corrige erratas en el editor. Mejora la accesibilidad para personas sordas y para quienes ven vídeos sin sonido.
Investigación académica. Los investigadores cualitativos transcriben entrevistas a expertos en inglés sin ceder datos sensibles a transcriptoras externas — conforme al RGPD, sin contrato de encargo del tratamiento.
¿Qué herramientas combinan bien?
Del ecosistema kittokit, para el flujo Audio → Texto → Tratamiento posterior:
- Transcripción de audio — Para español, francés, alemán y grabaciones en varias lenguas. Modelo mayor, pero multilingüe.
- Mejorar voz — eliminar ruido, eco y sonidos de fondo antes de transcribir. Mejora claramente la precisión.
- Comparador de texto — comparar dos versiones de transcripción, p. ej. original y corregida. Muestra los cambios marcados palabra por palabra.
Última actualización: