¿Cómo elimino el silencio de un archivo de audio?

Arrastre su archivo de audio a la zona de subida superior (o haga clic para seleccionarlo), ajuste el umbral en dBFS, compruebe en la forma de onda qué zonas están marcadas como silencio y exporte el flujo cortado como WAV. Todo el proceso se ejecuta en local en el navegador — el archivo no se sube en ningún momento. El umbral determina a partir de qué volumen un segmento cuenta como silencio: la voz hablada trabaja típicamente con −40 dBFS, la música con ambiente más bien con −50 dBFS o más bajo.

¿Qué es dBFS y cómo elijo el umbral correcto?

dBFS significa «Decibel relative to Full Scale» — es decir, cuán fuerte es una señal comparada con el máximo teórico. 0 dBFS es el máximo (límite de clipping), −60 dBFS es muy bajo. Para voz elija un umbral entre −40 y −35 dBFS. Para grabaciones bajas o ambiente de fondo, más bien −50 a −55 dBFS. Si se corta demasiado, baje el umbral (por ej. de −40 a −50). Si se detecta poco, súbalo (de −40 a −35). Una visión del concepto dBFS la da el [artículo de Wikipedia sobre nivel de presión sonora](https://es.wikipedia.org/wiki/Nivel_de_presi%C3%B3n_sonora).

¿Qué significa la duración mínima de silencio?

Evita que respiraciones cortas o pausas de reflexión se reconozcan como puntos de corte. Con 500 milisegundos por defecto solo se eliminan las fases de silencio a partir de medio segundo — las pausas habladas más cortas (respirar, breve duda) se conservan. Para un auto-cut agresivo baje a 200–300 milisegundos, para un corte más suave suba a 800–1000 milisegundos. Los podcasts suelen beneficiarse de 500–700 ms, los memos de voz más bien de 200–400 ms.

¿Qué tamaño de archivo de audio se admite?

Hasta 200 megabytes. Esto cubre cómodamente episodios de podcast típicos (60–90 minutos en MP3 192 kbps). Con archivos mayores, la RAM del navegador llega a sus límites — el renderizado de la forma de onda y el análisis RMS mantienen toda la pista mono PCM en memoria. Para grabaciones en vivo de horas o material 24 bits de alta resolución, un software de escritorio nativo (Audacity, Reaper) es la mejor opción. Dentro del límite de 200 MB, el corte de silencio se queda íntegramente en el navegador y sin obligación de cuenta.

¿Se preserva la calidad de audio al exportar?

Al exportar como WAV, la pista se recodifica como PCM de 16 bits — sin compresión con pérdida adicional. El material de voz y podcast es, tras el roundtrip, acústicamente indistinguible de la forma de onda original. Si su original ya era un MP3, la información de compresión inicialmente perdida no vuelve, claro — pero el corte en sí no añade un nuevo paso con pérdida. Para cortes absolutamente sin pérdida (al frame exacto en el archivo codec original) necesita un software de corte específico del codec.

¿Qué significa el margen (antes/después) en cada segmento?

Un breve fragmento de audio que se conserva antes y después de cada segmento hablado, para que el corte no caiga directamente sobre la primera o la última consonante. 80 milisegundos son un buen valor por defecto para voz — equivale aproximadamente a la duración de una respiración ligera. Para cortes muy ajustados el margen puede bajarse a 50 ms, para un estilo más generoso subir a 200–300 ms. Sin margen, las transiciones de auto-cut suenan a menudo bruscas y «cortadas».

¿Puedo reajustar el archivo tras el corte?

Sí — el corte solo se aplica al pulsar «Exportar corte». Mientras solo gire los deslizadores (umbral, duración mínima de silencio, margen), todo es una previsualización en vivo sobre la forma de onda: las zonas silenciosas se sombrean claras, la tarjeta de resultado se actualiza en tiempo real. Puede cambiar los valores tantas veces como quiera hasta que el resultado le guste. Solo el botón de export genera el archivo WAV final e inicia la descarga.

¿La herramienta es gratuita y conforme a la protección de datos?

Sí — gratuita, sin registro, sin tracking. Su archivo de audio se decodifica en local en su navegador (vía la Web Audio API nativa), la forma de onda se dibuja en un Canvas, el análisis RMS se ejecuta como puro JavaScript sin contacto con el servidor. No hay subida, ni registro de cuenta, ni límite oculto de volumen de datos. Incluso el archivo exportado se ensambla exclusivamente del lado del cliente — el enlace de descarga viene de una URL blob, no de un endpoint del servidor.

Eliminar silencios de audio — auto-cut para podcasts

¿Qué hace el cortador de silencios de audio?

Tres tareas en una herramienta: detectar automáticamente los pasajes silenciosos en un archivo de audio, marcarlos visualmente en una forma de onda y hacer la pista recortada descargable como WAV. Usted suelta su MP3, WAV, M4A, OGG o FLAC, la herramienta lo decodifica nativamente en el navegador (vía Web Audio API), lo convierte a mono (promedio de todos los canales), calcula una amplitud RMS para cada ventana de 20 milisegundos y compara cada valor de ventana con el umbral que usted ajusta en dBFS. Las ventanas silenciosas se agrupan en regiones, y las regiones más cortas que la duración mínima de silencio se dejan deliberadamente sin cortar — para que respiraciones y dudas cortas se preserven.

El resultado: una forma de onda con pasajes silenciosos resaltados, una tarjeta de resultado con duración original, nueva duración y ahorro en segundos, y un botón de export que ensambla un archivo WAV listo en local. Sin cuenta, sin servidor, sin contador de cuota oculto.

¿Por qué dBFS y no una escala 0–100?

dBFS — «Decibel relative to Full Scale» — es la escala profesional habitual en el mundo del audio digital. 0 dBFS significa «tan alto como el formato digital puede representar» (cualquier valor por encima se recorta y produce distorsión). −6 dBFS es la mitad del máximo, −20 dBFS es el nivel típico de voz en grabaciones profesionales, −40 dBFS es netamente más bajo que un susurro, −60 dBFS se considera la alfombra de ruido de un buen micrófono.

Una escala 0–100 sería más fácil de interpretar para el usuario, pero introduciría tres problemas: primero, la herramienta tendría que calcular internamente igualmente en dBFS (porque los valores RMS están distribuidos logarítmicamente); segundo, el umbral no sería directamente comparable con los valores de otras herramientas (Audacity, Adobe Audition, Reaper trabajan todas en dBFS); tercero, exigiría que la resolución en el rango bajo (−40 a −60 dBFS) fuese tan fina como en el rango alto — lo que es difícil de representar.

Para la mayoría de los casos de uso, este rango basta:

Voz limpia (micro de estudio): −38 a −42 dBFS
Voz con ambiente ligero: −45 a −50 dBFS
Voz con fondo fuerte: −50 a −55 dBFS
Música con pasajes pianissimo: −55 a −60 dBFS

Si la herramienta corta demasiado, baje el umbral (hacia −50). Si se detecta poco, súbalo (hacia −30).

¿Cómo funciona el análisis RMS?

RMS significa «Root Mean Square» — la raíz cuadrada de la media de las muestras al cuadrado en una ventana. Esta medida está estrechamente correlacionada con la sonoridad percibida (a diferencia del nivel pico, que sobrevalora los picos breves) y se usa ampliamente en forense de audio, en el diseño de códecs de voz y en la normalización de loudness (EBU R128).

La herramienta divide la pista mono en ventanas no superpuestas de 20 milisegundos cada una. A 48 kHz de tasa de muestreo son 960 muestras por ventana, a 44,1 kHz exactamente 882. Por ventana se calcula la amplitud RMS:

RMS = sqrt( (s_0² + s_1² + ... + s_n²) / n )

A continuación, cada valor RMS se compara con el umbral — directamente en amplitud lineal, no en dBFS (la conversión umbral dBFS → lineal ocurre una vez al inicio del análisis). Si RMS está bajo el umbral, la ventana cuenta como «silent», si no «loud». De la secuencia de banderas silent/loud se ensamblan regiones y se filtran contra la duración mínima de silencio.

Este método tiene dos ventajas sobre la detección por valor pico: primero, no reacciona a picos de clic individuales (un clic de ratón al fondo no desequilibra la detección); segundo, equivale aproximadamente a lo que el oído humano percibe como volumen — Audacity, Reaper y la mayoría de herramientas de podcast usan el mismo principio.

¿Cómo se calibra la duración mínima de silencio?

Los valores por defecto están speech-tuned. 500 milisegundos es el umbral a partir del cual una pausa hablada cuenta como «pausa real». Las fases de silencio más cortas (respiración breve, ataques de consonante, pausas mentales mid-frase) se preservan — si no, el resultado suena como un auto-cut robótico y cortado.

Regla práctica de ajuste:

200–300 milisegundos: corte agresivo, bueno para memos de voz en los que cada pausa debe salir
400–600 milisegundos: corte natural de podcast, conserva las respiraciones
800–1500 milisegundos: corte suave, solo elimina los «huecos» largos (por ej. entre un cambio de tema)

Para grabaciones de voz en off que se ajustan luego pegadas a la imagen, son habituales 200 ms. Para podcasts de conversación con dos hablantes, 500–700 ms son apropiados. Para cortes de entrevista con largas pausas de reflexión antes de una respuesta, 1000–1500 ms van bien.

¿Qué pasa con el margen (padding)?

El valor de margen (antes/después) extiende cada segmento hablado en esa cantidad de milisegundos antes de su inicio y después de su final, antes de que se aplique el corte. Efecto: el corte no cae duro sobre la primera o la última consonante, sino sobre un fragmento de audio tranquilo — típicamente ambiente de sala discreto o un soplo ligero.

Sin margen, las transiciones de auto-cut suenan a menudo mecánicas y «cortadas», sobre todo en oclusivas (P, B, T, K, D) al principio o al final de una palabra. Con 80 ms de margen, la transición se suaviza; con 200 ms queda claramente algo de sala entre los segmentos cortados.

Si dos segmentos hablados se solaparían tras el margen, la herramienta los fusiona automáticamente en uno. Esto evita que el margen vuelva paradójicamente a traer silencio.

¿Cuándo tiene sentido el auto-corte de silencio — y cuándo no?

Tiene sentido para:

Memos de voz y dictados: largas pausas de reflexión fuera, contenido compacto
Podcasts de un solo hablante: desbastar antes del corte manual fino
Grabaciones de voz en off: descartar re-takes y arranques en falso rápidamente
Entrenamiento vocal (ejercicios, grabaciones de aprendizaje de idiomas): trim de silencio profesor/alumno
Notas de voz para transcripción: ahorra tiempo en transcripción automática

Menos pertinente para:

Música: la detección de silencio basada en RMS corta por error pasajes suaves (pianissimo, colas de reverberación)
Radioteatros y dramas: las pausas dramáticas forman parte de la puesta en escena
Grabaciones en vivo con público: las «pausas respiratorias» entre frases dan su carácter a la grabación
Grabaciones multipista que deben quedarse sincronizadas a mano: el corte de silencio desplaza los anclajes de timing
Material de estudio de muy alta calidad: ahí, un corte humano (DAW + auriculares) marca la diferencia

Para los cinco primeros clústeres de uso, el auto-corte es una máquina de ahorrar horas. Para los cinco últimos, una DAW como Audacity (open source) o Reaper es la mejor opción.

¿En qué se distingue esta herramienta de otros cortadores de silencios?

La mayoría de las herramientas online de corte envían su archivo a un servidor. Aunque el servidor «no guarde nada» — el archivo abandona brevemente su ordenador y reside en la memoria de un sistema ajeno. Para memos de voz, notas de terapia, entrevistas confidenciales o grabaciones escolares, eso es un problema concreto de protección de datos.

Tres diferencias estructurales:

Cliente puro. La Web Audio API decodifica en local, Canvas dibuja la forma de onda, el análisis RMS se ejecuta en el hilo principal (lo bastante rápido para archivos por debajo de 200 MB), el export WAV se ensambla en el navegador. Sin ida y vuelta al servidor.
Sin muro de cuenta. A diferencia de proveedores mayores de auto-cut (que esconden un Free-Tier con límite de minutos tras un registro), aquí no hay límite salvo el tope de 200 MB por archivo y el límite de RAM del navegador.
Mobile-first, refined-minimalism. La forma de onda reacciona al tacto, los deslizadores tienen objetivos táctiles de 44 × 44, la tipografía es Inter con JetBrains Mono para los números — y la herramienta funciona también sin banner de cookies, porque sencillamente no coloca cookies.

Estos tres puntos no son un «nice to have» — son la diferenciación estructural frente a los proveedores establecidos cuyo modelo de negocio se basa en captura de email y embudo de suscripción.

¿Cuán precisa es la detección de silencio?

La precisión depende de dos factores: (1) el umbral en dBFS y (2) la calidad de la grabación. En una voz limpia de estudio (nivel RMS vocal −25 a −15 dBFS) con umbral −40 dBFS, la precisión de detección y la posición de corte están dentro de una resolución de ventana de 20 milisegundos — unas 50 mediciones por segundo. Es más resolución de la que un oyente humano percibe en la transición de corte.

Con ruidos de fondo más fuertes (climatización, tráfico, ventilador de ordenador), hace falta un umbral específicamente por debajo de la alfombra de ruido — típicamente −50 a −55 dBFS. En ese rango, a veces consonantes muy suaves (s, f, sh) se clasifican mal como silencio. El margen recupera en parte esos cortes erróneos, pero para grabaciones críticas se recomienda antes del corte una reducción de ruido en Audacity — y solo entonces el corte de silencio con umbral −40 dBFS.

Para corte de podcast la precisión es casi siempre suficiente, siempre que el margen no esté demasiado ajustado (al menos 80 ms, idealmente 150–200 ms). Para trabajos de audio forense o transcripciones con valor jurídico, esta herramienta es la elección equivocada — ahí hace falta un software de forense vocal especializado.

¿Qué sucede después del export?

El archivo WAV exportado llega a la carpeta de descargas estándar de su navegador. Es una pista mono PCM de 16 bits — compatible con cualquier software de corte (Audacity, Reaper, Adobe Audition, Logic Pro, Pro Tools), cualquier reproductor multimedia y la mayoría de herramientas de transcripción.

Si quiere mantener el formato original (MP3, M4A, OGG, FLAC), elija el export «Original» — entonces el corte no se aplica, sino que el archivo original simplemente se pasa adelante. Es útil si no pide detección de silencio y solo usa la herramienta para inspección.

Para la transcripción posterior se recomienda la herramienta hermana «Transcripción de audio» (basada en un modelo vocal especializado, también se ejecuta en local en el navegador). Para más corte vocal, la herramienta hermana «Cortar audio» (marcar zonas, sin auto-trim). Ambas usan la misma pila de contenedores de audio y pueden procesar directamente el archivo WAV exportado.

¿Hay un modo de normalización de volumen?

Deliberadamente no en esta versión. El corte de silencio y la normalización de volumen son dos tareas distintas que exigen decisiones de audio diferentes — una normalización de loudness RMS (EBU R128, objetivo −23 LUFS) necesita un pipeline separado con medición de loudness real, no solo RMS. Eso se desarrollará como herramienta hermana autónoma.

Quien quiera pre-normalizar rápido puede hacerlo en la DAW de su confianza — el efecto «Loudness Normalization» de Audacity cumple el estándar EBU R128, ffmpeg-loudnorm es la variante de línea de comandos. Ambos necesitan un paso separado; deliberadamente no se mete aquí en un único «botón mágico», porque el orden correcto (primero quitar los silencios, luego normalizar) forma parte conscientemente de un buen flujo de trabajo de audio.

Eliminar silencios de audio — auto-cut para podcasts y memos de voz

Cómo funciona

Text oder Code einfügen

Automatische Verarbeitung

Ergebnis kopieren

Privacidad

¿Cómo usar esta herramienta?

¿Qué hace el cortador de silencios de audio?

¿Por qué dBFS y no una escala 0–100?

¿Cómo funciona el análisis RMS?

¿Cómo se calibra la duración mínima de silencio?

¿Qué pasa con el margen (padding)?

¿Cuándo tiene sentido el auto-corte de silencio — y cuándo no?

¿En qué se distingue esta herramienta de otros cortadores de silencios?

¿Cuán precisa es la detección de silencio?

¿Qué sucede después del export?

¿Hay un modo de normalización de volumen?

Audio silence remover

Cómo funciona

Text oder Code einfügen

Automatische Verarbeitung

Ergebnis kopieren

Privacidad

¿Qué hace el cortador de silencios de audio?

¿Por qué dBFS y no una escala 0–100?

¿Cómo funciona el análisis RMS?

¿Cómo se calibra la duración mínima de silencio?

¿Qué pasa con el margen (padding)?

¿Cuándo tiene sentido el auto-corte de silencio — y cuándo no?

¿En qué se distingue esta herramienta de otros cortadores de silencios?

¿Cuán precisa es la detección de silencio?

¿Qué sucede después del export?

¿Hay un modo de normalización de volumen?