¿A qué velocidad va esta herramienta frente a la transcripción de audio normal?

Con audio en inglés, la herramienta es típicamente entre 4 y 6× más rápida que el modelo estándar multilingüe. En un portátil actual, el modo rápido suele ir por debajo del tiempo real — una grabación de diez minutos suele estar lista en 90 segundos. El factor en tiempo real se muestra tras cada transcripción.

¿Funciona también con audio en español o francés?

No. El modelo utilizado está entrenado exclusivamente en inglés. Para otros idiomas, use la [transcripción de audio](/es/audio-transkription) multilingüe — modelo mayor, pero español, inglés, francés y alemán en una sola herramienta.

¿Se suben mis datos de audio a un servidor?

No. El procesamiento se ejecuta totalmente en local en su navegador mediante WebAssembly. No hay backend, ni clave de API, ni registros. Su archivo de audio no abandona en ningún momento su dispositivo. Apto para llamadas confidenciales, conversaciones con abogados o procesos de selección.

¿Qué formatos acepta la herramienta?

MP3, WAV, M4A (AAC), OGG Vorbis y WebM Opus. Con eso cubre memos de móvil, grabaciones de Zoom/Teams y exportaciones de podcast habituales. Para formatos inusuales (FLAC, AIFF, WMA), conviértalos antes a MP3 a 128 kbps — tasas más altas no mejoran la precisión.

¿Qué precisión tiene en audio en inglés?

Con una grabación clara, cercana al micrófono y en entorno tranquilo, la precisión palabra a palabra se sitúa típicamente entre el 90 y el 95 %. Acentos marcados (escocés, inglés indio), música de fondo, jerga técnica y solapamiento de hablantes la bajan claramente. Revise siempre antes de publicar.

¿Puedo exportar subtítulos SRT con marcas de tiempo?

Sí. En la descarga elija entre TXT plano y formato SRT. SRT contiene para cada bloque de subtítulo las marcas de tiempo de inicio y fin (HH:MM:SS,mmm) y se puede integrar directamente en Premiere Pro, DaVinci Resolve, CapCut, YouTube o VLC.

¿La herramienta funciona sin conexión?

Sí. En cuanto el modelo está en la caché del navegador, la transcripción funciona totalmente sin conexión a Internet. Práctico para vuelos, trayectos de tren o grabaciones confidenciales sin conexión externa.

¿Qué nivel de calidad debo elegir?

Para llamadas cortas, mensajes de voz y podcasts de menos de 30 minutos, basta el modo rápido (~93 MB). Para charlas largas, grabaciones con acento o audio con ruido, el modo preciso (~188 MB) ofrece un mejor resultado palabra a palabra. Ambos funcionan en local; cada nivel se cachea por separado.

Transcripción rápida EN — inglés en el navegador

¿Por qué una herramienta dedicada al audio en inglés?

El inglés es el idioma más transcrito del mundo — podcasts, charlas tech, reuniones internacionales, tutoriales de YouTube. Los modelos multilingües de reconocimiento de voz deben llevar tokens, vocabulario e identificación de idioma para alrededor de un centenar de lenguas. Esto infla el modelo, cuesta memoria y tiempo de inferencia — aunque solo hable en inglés.

Un modelo entrenado específicamente en inglés elimina ese sobrecoste. El decodificador se reduce a la mitad, la inferencia se vuelve medible más rápida. Sobre el mismo hardware, el modo rápido procesa el audio típicamente por debajo del tiempo real — un podcast de diez minutos suele estar listo en 90 segundos. Con la transcripción de audio multilingüe, la misma grabación en modo «Preciso» tarda tres o cuatro veces más.

¿Cómo funciona la transcripción en el navegador?

El procesamiento se realiza en dos pasos directamente en su dispositivo — sin que ningún archivo abandone el equipo. En el primer paso, la API Web Audio normaliza el archivo: se reduce a mono a 16 kHz, porque los modelos de reconocimiento de voz esperan ese formato de entrada. Varios canales se promedian en una señal monoaural.

En el segundo paso, un motor de inferencia compilado en WebAssembly toma el relevo. WebAssembly ejecuta algoritmos intensivos a velocidad cercana a la nativa en el navegador — sin plugin, sin instalación. En el primer acceso, el modelo se carga una vez en la caché del navegador. A partir del segundo, la transcripción funciona totalmente sin conexión.

Dos niveles de calidad — ¿cuál elegir?

La elección es un compromiso entre tamaño de descarga y precisión:

Nivel	Tamaño del modelo	Recomendación
Rápido	~93 MB	Memos cortos, llamadas de menos de 30 min, dispositivos móviles
Preciso	~188 MB	Charlas largas, audio con acento, grabaciones con ruido

El nivel se elige en el selector de modelo, justo debajo del área de carga. Se puede cambiar en cualquier momento — cada nivel se cachea por separado.

¿Qué significa el factor en tiempo real?

Tras cada transcripción aparece en el área de resultado el factor en tiempo real. Expresa cuánto duró el procesamiento respecto a la duración del audio:

<1.0× — más rápido que la grabación (p. ej. 0.4× = 40 % de la duración del audio).
1.0× — procesamiento tan largo como el audio.
>1.0× — el audio se procesó más despacio que en tiempo real.

En portátiles actuales en modo rápido, el valor suele situarse entre 0.3× y 0.6× para grabaciones limpias. Con grabaciones largas, ruido de fondo fuerte o hardware modesto sube. En móviles antiguos, incluso el modo rápido puede superar 1.0× — en ese caso conviene dividir el audio en segmentos más cortos.

¿Cómo se garantiza la privacidad?

La herramienta no contacta en ningún momento con un servidor externo. Sin cuenta, sin registro, sin consentimiento a transmisión alguna. Al cerrar la pestaña, no quedan datos — ni almacenados localmente ni en la nube. La herramienta es especialmente adecuada para:

Conversaciones confidenciales — entrevistas de selección, consultas con abogados, grabaciones médicas.
Contenidos bajo NDA — reuniones internas, llamadas de estrategia, briefings de producto.
Fuentes periodísticas — grabaciones de entrevista sin terceros.
Investigación académica — conforme al RGPD, sin contrato de encargo del tratamiento.

TXT o SRT — ¿qué exportación encaja?

En la descarga se elige entre dos formatos:

TXT — texto corrido, un solo bloque, ideal para actas de reunión, borradores de blog o notas de investigación.
SRT — formato de subtítulos SubRip con marcas de tiempo de inicio y fin por bloque (00:01:23,456 --> 00:01:28,910). Se integra directamente en YouTube, Premiere Pro, DaVinci Resolve, CapCut o VLC.

Quien necesite subtítulos para contenido social o vídeos didácticos descarga el SRT y lo importa en el editor de vídeo. Tipografía, tamaño y posición las renderiza el reproductor — la herramienta solo aporta el texto sincronizado.

¿Cómo conseguir los mejores resultados?

Grabación limpia — cuanto menos ruido de fondo, más preciso será el reconocimiento. Una sala silenciosa ayuda más que filtros posteriores.
Distancia al micrófono de 20–30 cm — reduce distorsiones y plosivas.
Pronunciación clara — hablar despacio y con dicción aumenta la tasa de acierto, sobre todo en términos técnicos.
Dividir grabaciones largas — separe entrevistas de varias horas en segmentos de 30 a 60 minutos. Es más estable y le da puntos de estructura naturales.
128 kbps MP3 basta — tasas mayores no mejoran el reconocimiento.

¿Cuándo merece la pena la transcripción en el navegador?

La transcripción en el navegador es la primera opción siempre que la confidencialidad o el cumplimiento en protección de datos importe:

Show-notes de podcast. Verbalizar un episodio completo, extraer citas, fijar marcas de capítulo o generar una descripción amigable para SEO. Una hora de podcast suele producir entre 5 000 y 8 000 palabras de transcripción.

Reuniones y llamadas en inglés. Standups internacionales, entrevistas con clientes US/UK, llamadas con inversores en inglés — transcribir rápido sin entregar contenidos sensibles a servicios externos.

Subtítulos de vídeo. Tutoriales, reels o vídeos didácticos en inglés: la exportación SRT le da la base sobre la que solo corrige erratas en el editor. Mejora la accesibilidad para personas sordas y para quienes ven vídeos sin sonido.

Investigación académica. Los investigadores cualitativos transcriben entrevistas a expertos en inglés sin ceder datos sensibles a transcriptoras externas — conforme al RGPD, sin contrato de encargo del tratamiento.

¿Qué herramientas combinan bien?

Del ecosistema kittokit, para el flujo Audio → Texto → Tratamiento posterior:

Transcripción de audio — Para español, francés, alemán y grabaciones en varias lenguas. Modelo mayor, pero multilingüe.
Mejorar voz — eliminar ruido, eco y sonidos de fondo antes de transcribir. Mejora claramente la precisión.
Comparador de texto — comparar dos versiones de transcripción, p. ej. original y corregida. Muestra los cambios marcados palabra por palabra.

Transcripción rápida inglés

Cómo funciona

Elegir el archivo de audio en inglés

Elegir el nivel de calidad

Obtener la transcripción

Privacidad

¿Cómo usar esta herramienta?