¿Cómo usar esta herramienta?
- Elija un archivo de audio (MP3, WAV, M4A, OGG) con un clic o arrastrar y soltar.
- Elija el nivel de calidad: Rápido (~152 MB, apto móvil), Preciso (~291 MB, por defecto) o Muy preciso (~968 MB, escritorio).
- Imponga opcionalmente el idioma si la detección automática se equivoca — si no, deje la detección automática.
- Pulse «Iniciar transcripción». El modelo se carga una vez en la caché del navegador y queda luego disponible sin conexión.
- Copie el resultado o descárguelo como TXT o como SRT (con marcas de tiempo para subtítulos).
¿Cómo funciona la transcripción de audio en el navegador?
El procesado se desarrolla en dos etapas directamente en su dispositivo — sin que un archivo abandone el dispositivo. En la primera etapa, la Web Audio API normaliza su archivo: se remuestrea a 16 kHz mono porque los modelos de reconocimiento de voz esperan ese formato de entrada. Varios canales se promedian en una señal mono, el convertidor de tasa de muestreo suaviza las frecuencias.
En la segunda etapa, un motor de inferencia compilado en WebAssembly toma el relevo. WebAssembly ejecuta algoritmos intensivos en cálculo a velocidad casi nativa en el navegador — sin plugin, sin instalación. En la primera llamada, el modelo queda almacenado en la caché del navegador una vez. A partir de la segunda llamada, la transcripción se ejecuta íntegramente sin conexión.
Tres niveles de calidad — ¿cuál es el adecuado?
La elección es un compromiso entre tamaño de descarga, velocidad y precisión de reconocimiento:
| Nivel | Tamaño del modelo | Velocidad | Recomendación |
|---|---|---|---|
| Rápido | ~152 MB | muy rápido | Móvil, memos breves, notas |
| Preciso | ~291 MB | equilibrado | Por defecto para reuniones, entrevistas |
| Muy preciso | ~968 MB | más lento | Grabaciones de estudio, charlas especializadas |
El nivel se elige en el selector de modelo directamente bajo la zona de subida. El cambio es posible en cualquier momento — cada nivel se guarda en caché por separado.
100 % protección de datos, 0 nube
La herramienta no contacta en ningún momento con un servidor externo. Sin cuenta, sin registro, sin consentimiento a ninguna cesión de datos. Si cierra la pestaña del navegador, no quedan datos — ni guardados localmente ni en una nube. Esto hace la herramienta especialmente adecuada para grabaciones confidenciales: reuniones bajo NDA, consultas médicas, asesoramiento jurídico o entrevistas internas de RR. HH.
¿Cómo obtener los mejores resultados?
- Grabación clara: cuantos menos ruidos de fondo, más precisa la detección. Una sala silenciosa ayuda más que filtros posteriores.
- Distancia al micrófono: 20–30 cm del micrófono reduce distorsiones y oclusivas.
- Pronunciación nítida: hablar lento y con claridad aumenta la tasa de reconocimiento — sobre todo en términos especializados.
- Bitrate para archivos grandes: un MP3 a 128 kbps comprime una hora de habla por debajo de 60 MB. Bitrates superiores no aportan nada al reconocimiento de voz.
- Dividir grabaciones largas: segmente entrevistas de varias horas en bloques de 30–60 minutos. Es más estable y le da puntos de división naturales.
- Forzar el idioma en clips cortos: la detección automática necesita unos 30 segundos de audio. En clips más cortos o con acentos marcados, use el override de idioma.
TXT o SRT — ¿qué exportación elegir?
Al descargar, elija entre dos formatos:
- TXT — texto corrido puro, un párrafo, ideal para actas de reunión, borradores de blog o notas de investigación.
- SRT — formato de subtítulos SubRip con marcas de tiempo de inicio y fin por bloque (
00:01:23,456 --> 00:01:28,910). Se integra directamente en YouTube, Premiere Pro, DaVinci Resolve, CapCut o VLC.
Para subtítulos de contenido social o vídeos didácticos, descargue el SRT e impórtelo en el editor de vídeo. Fuente, tamaño y posición las renderiza el reproductor — la herramienta solo entrega el texto sincronizado.
¿Cuándo merece la pena la transcripción en el navegador?
La transcripción en el navegador es la primera opción siempre que entren en juego la confidencialidad o el cumplimiento de protección de datos.
Actas de reuniones. Las grabaciones de reuniones internas suelen tener que permanecer confidenciales. Como no se transmiten datos de audio al exterior, una fuga involuntaria queda descartada. Una hora de reunión produce típicamente 5.000 a 8.000 palabras de transcripción.
Transcripciones de entrevistas. Las entrevistas periodísticas, los estudios cualitativos o las entrevistas de RR. HH. pueden ponerse por escrito directamente tras la cita — sin que un tercero tenga acceso al contenido.
Digitalizar notas de voz. Pasar rápido a escrito ideas habladas, listas de la compra o entradas de diario, y procesarlas en apps de notas como Obsidian, Notion o Apple Notes.
Subtítulos para sus propios vídeos. Vídeos didácticos, tutoriales o Reels: la exportación SRT le da la base sobre la que solo corregirá las erratas en el editor. Mejora la accesibilidad para personas sordas y todas las que ven vídeos sin sonido.
Investigación académica. Investigadores e investigadoras cualitativos transcriben grabaciones de entrevistas sin entregar datos sensibles a proveedores externos de transcripción — conforme al RGPD, sin contrato de encargo del tratamiento.
¿Qué formatos se admiten?
La herramienta acepta los formatos de audio más habituales: MP3, WAV, M4A (AAC), OGG Vorbis y WebM Opus. WAV ofrece la mejor calidad de partida pero es notablemente más grande. MP3 ofrece el mejor compromiso entre tamaño y calidad. Los archivos muy grandes por encima de 200 MB pueden provocar cuellos de botella de memoria en dispositivos antiguos o smartphones — en ese caso, divida antes.
¿Qué herramientas la complementan?
Del ecosistema kittokit para el workflow Audio → Texto → procesado posterior:
- Mejorar la voz — quitar ruido, eco y ruidos de fondo de una grabación antes de transcribirla. Mejora sensiblemente la precisión de reconocimiento.
- Contador de caracteres — determinar palabras, caracteres y tiempo de lectura de su transcripción. Práctico para acortar actas para newsletter o borradores de blog.
- Text-Diff — comparar dos versiones de transcripción, por ejemplo original y versión revisada. Muestra los cambios marcados palabra por palabra.
Última actualización: