¿Cómo usar esta herramienta?
- Archivo de audio (MP3, WAV, M4A, OGG o FLAC, hasta 200 MB) por arrastrar y soltar o clic — se decodifica de inmediato en local.
- Ajuste el umbral en dBFS: −40 dBFS por defecto para voz hablada, música suave con ambiente más bien −50 o −55 dBFS.
- Defina la duración mínima de silencio en milisegundos — las pausas más cortas se conservan, para no cortar de manera brusca las respiraciones y pausas de reflexión cortas.
- Ajuste el margen (antes/después) para que el corte no caiga directamente sobre la primera o la última consonante — 80 milisegundos son un buen valor de partida.
- Compruebe la forma de onda (silencios marcados en color) y exporte como WAV (PCM 16 bits) o pase del original — la descarga se inicia directamente en el navegador.
¿Qué hace el cortador de silencios de audio?
Tres tareas en una herramienta: detectar automáticamente los pasajes silenciosos en un archivo de audio, marcarlos visualmente en una forma de onda y hacer la pista recortada descargable como WAV. Usted suelta su MP3, WAV, M4A, OGG o FLAC, la herramienta lo decodifica nativamente en el navegador (vía Web Audio API), lo convierte a mono (promedio de todos los canales), calcula una amplitud RMS para cada ventana de 20 milisegundos y compara cada valor de ventana con el umbral que usted ajusta en dBFS. Las ventanas silenciosas se agrupan en regiones, y las regiones más cortas que la duración mínima de silencio se dejan deliberadamente sin cortar — para que respiraciones y dudas cortas se preserven.
El resultado: una forma de onda con pasajes silenciosos resaltados, una tarjeta de resultado con duración original, nueva duración y ahorro en segundos, y un botón de export que ensambla un archivo WAV listo en local. Sin cuenta, sin servidor, sin contador de cuota oculto.
¿Por qué dBFS y no una escala 0–100?
dBFS — «Decibel relative to Full Scale» — es la escala profesional habitual en el mundo del audio digital. 0 dBFS significa «tan alto como el formato digital puede representar» (cualquier valor por encima se recorta y produce distorsión). −6 dBFS es la mitad del máximo, −20 dBFS es el nivel típico de voz en grabaciones profesionales, −40 dBFS es netamente más bajo que un susurro, −60 dBFS se considera la alfombra de ruido de un buen micrófono.
Una escala 0–100 sería más fácil de interpretar para el usuario, pero introduciría tres problemas: primero, la herramienta tendría que calcular internamente igualmente en dBFS (porque los valores RMS están distribuidos logarítmicamente); segundo, el umbral no sería directamente comparable con los valores de otras herramientas (Audacity, Adobe Audition, Reaper trabajan todas en dBFS); tercero, exigiría que la resolución en el rango bajo (−40 a −60 dBFS) fuese tan fina como en el rango alto — lo que es difícil de representar.
Para la mayoría de los casos de uso, este rango basta:
- Voz limpia (micro de estudio): −38 a −42 dBFS
- Voz con ambiente ligero: −45 a −50 dBFS
- Voz con fondo fuerte: −50 a −55 dBFS
- Música con pasajes pianissimo: −55 a −60 dBFS
Si la herramienta corta demasiado, baje el umbral (hacia −50). Si se detecta poco, súbalo (hacia −30).
¿Cómo funciona el análisis RMS?
RMS significa «Root Mean Square» — la raíz cuadrada de la media de las muestras al cuadrado en una ventana. Esta medida está estrechamente correlacionada con la sonoridad percibida (a diferencia del nivel pico, que sobrevalora los picos breves) y se usa ampliamente en forense de audio, en el diseño de códecs de voz y en la normalización de loudness (EBU R128).
La herramienta divide la pista mono en ventanas no superpuestas de 20 milisegundos cada una. A 48 kHz de tasa de muestreo son 960 muestras por ventana, a 44,1 kHz exactamente 882. Por ventana se calcula la amplitud RMS:
RMS = sqrt( (s_0² + s_1² + ... + s_n²) / n )
A continuación, cada valor RMS se compara con el umbral — directamente en amplitud lineal, no en dBFS (la conversión umbral dBFS → lineal ocurre una vez al inicio del análisis). Si RMS está bajo el umbral, la ventana cuenta como «silent», si no «loud». De la secuencia de banderas silent/loud se ensamblan regiones y se filtran contra la duración mínima de silencio.
Este método tiene dos ventajas sobre la detección por valor pico: primero, no reacciona a picos de clic individuales (un clic de ratón al fondo no desequilibra la detección); segundo, equivale aproximadamente a lo que el oído humano percibe como volumen — Audacity, Reaper y la mayoría de herramientas de podcast usan el mismo principio.
¿Cómo se calibra la duración mínima de silencio?
Los valores por defecto están speech-tuned. 500 milisegundos es el umbral a partir del cual una pausa hablada cuenta como «pausa real». Las fases de silencio más cortas (respiración breve, ataques de consonante, pausas mentales mid-frase) se preservan — si no, el resultado suena como un auto-cut robótico y cortado.
Regla práctica de ajuste:
- 200–300 milisegundos: corte agresivo, bueno para memos de voz en los que cada pausa debe salir
- 400–600 milisegundos: corte natural de podcast, conserva las respiraciones
- 800–1500 milisegundos: corte suave, solo elimina los «huecos» largos (por ej. entre un cambio de tema)
Para grabaciones de voz en off que se ajustan luego pegadas a la imagen, son habituales 200 ms. Para podcasts de conversación con dos hablantes, 500–700 ms son apropiados. Para cortes de entrevista con largas pausas de reflexión antes de una respuesta, 1000–1500 ms van bien.
¿Qué pasa con el margen (padding)?
El valor de margen (antes/después) extiende cada segmento hablado en esa cantidad de milisegundos antes de su inicio y después de su final, antes de que se aplique el corte. Efecto: el corte no cae duro sobre la primera o la última consonante, sino sobre un fragmento de audio tranquilo — típicamente ambiente de sala discreto o un soplo ligero.
Sin margen, las transiciones de auto-cut suenan a menudo mecánicas y «cortadas», sobre todo en oclusivas (P, B, T, K, D) al principio o al final de una palabra. Con 80 ms de margen, la transición se suaviza; con 200 ms queda claramente algo de sala entre los segmentos cortados.
Si dos segmentos hablados se solaparían tras el margen, la herramienta los fusiona automáticamente en uno. Esto evita que el margen vuelva paradójicamente a traer silencio.
¿Cuándo tiene sentido el auto-corte de silencio — y cuándo no?
Tiene sentido para:
- Memos de voz y dictados: largas pausas de reflexión fuera, contenido compacto
- Podcasts de un solo hablante: desbastar antes del corte manual fino
- Grabaciones de voz en off: descartar re-takes y arranques en falso rápidamente
- Entrenamiento vocal (ejercicios, grabaciones de aprendizaje de idiomas): trim de silencio profesor/alumno
- Notas de voz para transcripción: ahorra tiempo en transcripción automática
Menos pertinente para:
- Música: la detección de silencio basada en RMS corta por error pasajes suaves (pianissimo, colas de reverberación)
- Radioteatros y dramas: las pausas dramáticas forman parte de la puesta en escena
- Grabaciones en vivo con público: las «pausas respiratorias» entre frases dan su carácter a la grabación
- Grabaciones multipista que deben quedarse sincronizadas a mano: el corte de silencio desplaza los anclajes de timing
- Material de estudio de muy alta calidad: ahí, un corte humano (DAW + auriculares) marca la diferencia
Para los cinco primeros clústeres de uso, el auto-corte es una máquina de ahorrar horas. Para los cinco últimos, una DAW como Audacity (open source) o Reaper es la mejor opción.
¿En qué se distingue esta herramienta de otros cortadores de silencios?
La mayoría de las herramientas online de corte envían su archivo a un servidor. Aunque el servidor «no guarde nada» — el archivo abandona brevemente su ordenador y reside en la memoria de un sistema ajeno. Para memos de voz, notas de terapia, entrevistas confidenciales o grabaciones escolares, eso es un problema concreto de protección de datos.
Tres diferencias estructurales:
- Cliente puro. La Web Audio API decodifica en local, Canvas dibuja la forma de onda, el análisis RMS se ejecuta en el hilo principal (lo bastante rápido para archivos por debajo de 200 MB), el export WAV se ensambla en el navegador. Sin ida y vuelta al servidor.
- Sin muro de cuenta. A diferencia de proveedores mayores de auto-cut (que esconden un Free-Tier con límite de minutos tras un registro), aquí no hay límite salvo el tope de 200 MB por archivo y el límite de RAM del navegador.
- Mobile-first, refined-minimalism. La forma de onda reacciona al tacto, los deslizadores tienen objetivos táctiles de 44 × 44, la tipografía es Inter con JetBrains Mono para los números — y la herramienta funciona también sin banner de cookies, porque sencillamente no coloca cookies.
Estos tres puntos no son un «nice to have» — son la diferenciación estructural frente a los proveedores establecidos cuyo modelo de negocio se basa en captura de email y embudo de suscripción.
¿Cuán precisa es la detección de silencio?
La precisión depende de dos factores: (1) el umbral en dBFS y (2) la calidad de la grabación. En una voz limpia de estudio (nivel RMS vocal −25 a −15 dBFS) con umbral −40 dBFS, la precisión de detección y la posición de corte están dentro de una resolución de ventana de 20 milisegundos — unas 50 mediciones por segundo. Es más resolución de la que un oyente humano percibe en la transición de corte.
Con ruidos de fondo más fuertes (climatización, tráfico, ventilador de ordenador), hace falta un umbral específicamente por debajo de la alfombra de ruido — típicamente −50 a −55 dBFS. En ese rango, a veces consonantes muy suaves (s, f, sh) se clasifican mal como silencio. El margen recupera en parte esos cortes erróneos, pero para grabaciones críticas se recomienda antes del corte una reducción de ruido en Audacity — y solo entonces el corte de silencio con umbral −40 dBFS.
Para corte de podcast la precisión es casi siempre suficiente, siempre que el margen no esté demasiado ajustado (al menos 80 ms, idealmente 150–200 ms). Para trabajos de audio forense o transcripciones con valor jurídico, esta herramienta es la elección equivocada — ahí hace falta un software de forense vocal especializado.
¿Qué sucede después del export?
El archivo WAV exportado llega a la carpeta de descargas estándar de su navegador. Es una pista mono PCM de 16 bits — compatible con cualquier software de corte (Audacity, Reaper, Adobe Audition, Logic Pro, Pro Tools), cualquier reproductor multimedia y la mayoría de herramientas de transcripción.
Si quiere mantener el formato original (MP3, M4A, OGG, FLAC), elija el export «Original» — entonces el corte no se aplica, sino que el archivo original simplemente se pasa adelante. Es útil si no pide detección de silencio y solo usa la herramienta para inspección.
Para la transcripción posterior se recomienda la herramienta hermana «Transcripción de audio» (basada en un modelo vocal especializado, también se ejecuta en local en el navegador). Para más corte vocal, la herramienta hermana «Cortar audio» (marcar zonas, sin auto-trim). Ambas usan la misma pila de contenedores de audio y pueden procesar directamente el archivo WAV exportado.
¿Hay un modo de normalización de volumen?
Deliberadamente no en esta versión. El corte de silencio y la normalización de volumen son dos tareas distintas que exigen decisiones de audio diferentes — una normalización de loudness RMS (EBU R128, objetivo −23 LUFS) necesita un pipeline separado con medición de loudness real, no solo RMS. Eso se desarrollará como herramienta hermana autónoma.
Quien quiera pre-normalizar rápido puede hacerlo en la DAW de su confianza — el efecto «Loudness Normalization» de Audacity cumple el estándar EBU R128, ffmpeg-loudnorm es la variante de línea de comandos. Ambos necesitan un paso separado; deliberadamente no se mete aquí en un único «botón mágico», porque el orden correcto (primero quitar los silencios, luego normalizar) forma parte conscientemente de un buen flujo de trabajo de audio.
Última actualización: