Aller au contenu
AUDIO TOOL

Supprimer les silences audio — auto-cut pour podcasts et mémos vocaux

Glisser-déposer, trois curseurs, une forme d'onde avec zones silencieuses surlignées — et un export WAV sans upload serveur. Idéal pour podcasteurs, mémos vocaux et entraînement vocal.

Audio silence remover

Choose audio file

MP3, WAV, M4A, OGG or FLAC · runs fully local

MPEGWAVMP4M4AOGGFLACWEBM

Comment ça marche

  1. 01

    Text oder Code einfügen

    Füge deinen Inhalt in das Eingabefeld ein oder tippe direkt.

  2. 02

    Automatische Verarbeitung

    Das Tool verarbeitet den Inhalt sofort und zeigt das Ergebnis.

  3. 03

    Ergebnis kopieren

    Kopiere das Ergebnis mit einem Klick in die Zwischenablage.

Confidentialité

Alle Berechnungen laufen direkt in deinem Browser. Keine Daten werden auf Server übertragen.

La plupart des éditeurs en ligne envoient votre enregistrement dans le cloud — même si la détection de silence est mathématiquement triviale. Cet outil fait tout en local_: le fichier ne quitte pas votre navigateur, la forme d'onde est rendue sur Canvas, l'analyse RMS s'exécute en pur JavaScript.

01 — Mode d’emploi

Comment utiliser cet outil ?

  1. Fichier audio (MP3, WAV, M4A, OGG ou FLAC, jusqu'à 200 Mo) par glisser-déposer ou clic — il est décodé immédiatement en local.
  2. Réglez le seuil en dBFS : −40 dBFS par défaut pour la voix parlée, musique douce avec ambiance plutôt −50 ou −55 dBFS.
  3. Définissez la durée minimale de silence en millisecondes — les pauses plus courtes sont conservées, pour ne pas couper brutalement les respirations et courtes pauses de réflexion.
  4. Ajustez la marge (avant/après) pour que la découpe ne tombe pas directement sur la première ou la dernière consonne — 80 millisecondes constituent une bonne valeur de départ.
  5. Vérifiez la forme d'onde (silences surlignés en couleur) et exportez en WAV (PCM 16 bits) ou en passe-plat de l'original — le téléchargement démarre directement dans le navigateur.

Que fait le coupeur de silence audio ?

Trois tâches en un outil : détecter automatiquement les passages silencieux d’un fichier audio, les marquer visuellement sur une forme d’onde et rendre la piste nettoyée téléchargeable en WAV. Vous déposez votre MP3, WAV, M4A, OGG ou FLAC, l’outil le décode nativement dans le navigateur (via la Web Audio API), le convertit en mono (moyenne de tous les canaux), calcule une amplitude RMS pour chaque fenêtre de 20 millisecondes et compare chaque valeur de fenêtre au seuil que vous réglez en dBFS. Les fenêtres silencieuses sont regroupées en régions, et les régions plus courtes que la durée minimale de silence sont délibérément non coupées — pour que les respirations et les courtes hésitations soient préservées.

Le résultat : une forme d’onde avec passages silencieux surlignés, une carte de résultat avec durée d’origine, nouvelle durée et temps économisé en secondes, et un bouton d’export qui assemble un fichier WAV prêt en local. Pas de compte, pas de serveur, pas de compteur de quota caché.

Pourquoi dBFS et non une échelle 0–100 ?

dBFS — « Decibel relative to Full Scale » — est l’échelle professionnelle habituelle dans le monde de l’audio numérique. 0 dBFS signifie « aussi fort que le format numérique peut représenter » (toute valeur au-dessus est écrêtée et produit de la distorsion). −6 dBFS est la moitié du maximum, −20 dBFS est le niveau vocal typique dans les enregistrements professionnels, −40 dBFS est nettement plus faible qu’une parole chuchotée, −60 dBFS est considéré comme le tapis de bruit d’un bon microphone.

Une échelle 0–100 serait plus facile à interpréter pour l’utilisateur, mais elle introduirait trois problèmes : premièrement, l’outil devrait quand même calculer en interne en dBFS (parce que les valeurs RMS sont distribuées de façon logarithmique) ; deuxièmement, le seuil ne serait pas directement comparable avec les valeurs d’autres outils (Audacity, Adobe Audition, Reaper fonctionnent tous en dBFS) ; troisièmement, elle exigerait que la résolution dans la plage basse (−40 à −60 dBFS) soit aussi fine que dans la plage forte — ce qui est difficile à représenter.

Pour la plupart des cas d’usage, cette plage suffit :

  • Voix propre (micro studio) : −38 à −42 dBFS
  • Voix avec légère ambiance : −45 à −50 dBFS
  • Voix avec fort arrière-plan : −50 à −55 dBFS
  • Musique avec passages pianissimo : −55 à −60 dBFS

Si l’outil coupe trop, baissez le seuil (vers −50). Si trop peu est détecté, augmentez-le (vers −30).

Comment fonctionne l’analyse RMS ?

RMS signifie « Root Mean Square » — la racine carrée de la moyenne des échantillons au carré dans une fenêtre. Cette mesure est étroitement corrélée à la sonie perçue (contrairement au niveau crête, qui surévalue les pics brefs) et est largement utilisée dans la médecine légale audio, la conception de codecs vocaux et la normalisation de loudness (EBU R128).

L’outil découpe la piste mono en fenêtres non chevauchantes de 20 millisecondes chacune. À 48 kHz de taux d’échantillonnage, cela représente 960 échantillons par fenêtre, à 44,1 kHz exactement 882. Par fenêtre, l’amplitude RMS est calculée :

RMS = sqrt( (s_0² + s_1² + ... + s_n²) / n )

Ensuite, chaque valeur RMS est comparée au seuil — directement en amplitude linéaire, pas en dBFS (la conversion seuil dBFS → linéaire se fait une fois au démarrage de l’analyse). Si RMS est sous le seuil, la fenêtre est « silent », sinon « loud ». La séquence de flags silent/loud est assemblée en régions et filtrée contre la durée minimale de silence.

Cette méthode présente deux avantages sur la détection par valeur crête : premièrement, elle ne réagit pas aux pics de clic isolés (un clic de souris en arrière-plan ne déséquilibre pas la détection) ; deuxièmement, elle correspond approximativement à ce que l’oreille humaine perçoit comme volume — Audacity, Reaper et la plupart des outils podcast utilisent le même principe.

Comment la durée minimale de silence est-elle calibrée ?

Les valeurs par défaut sont speech-tuned. 500 millisecondes est le seuil à partir duquel une pause de parole compte comme « vraie pause ». Les phases de silence plus courtes (respiration brève, accroches de consonne, pauses mentales mid-phrase) sont préservées — sinon le résultat sonne comme un auto-cut robotique et tronqué.

Règle empirique d’ajustement :

  • 200–300 millisecondes : coupe agressive, bien pour les mémos vocaux dont chaque pause doit partir
  • 400–600 millisecondes : coupe naturelle podcast, conserve les respirations
  • 800–1500 millisecondes : coupe douce, ne supprime que les longs « blancs » (par ex. entre deux changements de sujet)

Pour les enregistrements de voix off ultérieurement calés sur l’image, 200 ms sont d’usage. Pour les podcasts conversationnels à deux interlocuteurs, 500–700 ms sont appropriés. Pour les coupes d’interview avec longues pauses de réflexion avant une réponse, 1000–1500 ms conviennent bien.

Que devient la marge (padding) ?

La valeur de marge (avant/après) étend chaque segment parlé de ce nombre de millisecondes avant son début et après sa fin, avant que la coupe ne soit appliquée. Effet : la coupe ne tombe pas brutalement sur la première ou la dernière consonne, mais sur un segment audio calme — typiquement une ambiance de pièce discrète ou un léger souffle.

Sans marge, les transitions auto-cut sonnent souvent mécaniques et « tronquées », surtout sur les plosives (P, B, T, K, D) au début ou à la fin d’un mot. Avec 80 ms de marge, la transition est plus douce ; avec 200 ms, on garde clairement un peu d’ambiance entre les segments coupés.

Si deux segments parlés se chevaucheraient après la marge, l’outil les fusionne automatiquement en un seul. Cela évite que la marge ne ramène paradoxalement de la silence.

Quand l’auto-coupe de silence a-t-elle du sens — et quand pas ?

A du sens pour :

  • Mémos vocaux et dictées : longues pauses de réflexion supprimées, contenu compact
  • Podcasts en solo : dégrossir avant la coupe manuelle fine
  • Voix off : retraits de re-takes et faux départs rapidement
  • Entraînement vocal (exercices, enregistrements de langue) : trim de silences prof/élève
  • Notes vocales pour transcription : gain de temps en transcription automatique

Moins pertinent pour :

  • La musique : la détection de silence basée RMS coupe par erreur les passages doux (pianissimo, queues de réverbération)
  • Pièces radiophoniques et drames : les pauses dramatiques font partie de la mise en scène
  • Enregistrements live avec public : les « pauses respiratoires » entre les phrases donnent leur caractère à l’enregistrement
  • Enregistrements multipistes qui doivent rester synchrones manuellement : la coupe de silence décale les ancres de timing
  • Matériel studio très haut de gamme : là, une coupe humaine (DAW + casque) fait la différence

Pour les cinq premiers cas d’usage, l’auto-coupe est une machine à gagner des heures. Pour les cinq derniers, une DAW comme Audacity (open source) ou Reaper est le meilleur choix.

En quoi cet outil se distingue-t-il des autres ?

La plupart des outils de coupe en ligne envoient votre fichier sur un serveur. Même si le serveur « ne stocke rien » — le fichier quitte brièvement votre machine et réside dans la mémoire d’un système tiers. Pour les mémos vocaux, les notes de thérapie, les interviews confidentielles ou les enregistrements scolaires, c’est un vrai problème de protection des données.

Trois différences structurelles :

  1. Pur client. La Web Audio API décode en local, Canvas dessine la forme d’onde, l’analyse RMS s’exécute dans le main thread (assez rapide pour les fichiers sous 200 Mo), l’export WAV est assemblé dans le navigateur. Pas d’aller-retour serveur.
  2. Pas de mur de compte. Contrairement à de grands fournisseurs d’auto-cut (qui cachent un Free-Tier à limite de minutes derrière une inscription), il n’y a ici pas de limite hormis le plafond de 200 Mo par fichier et la limite RAM du navigateur.
  3. Mobile-first, refined-minimalism. La forme d’onde réagit au tactile, les curseurs ont des cibles tactiles de 44 × 44, la typographie est Inter avec JetBrains Mono pour les chiffres — et l’outil fonctionne aussi sans bandeau cookie, parce qu’il ne pose simplement pas de cookies.

Ces trois points ne sont pas du « nice to have » — c’est la différenciation structurelle face aux acteurs établis dont le modèle économique repose sur la capture d’email et le funnel d’abonnement.

Quelle est la précision de la détection de silence ?

La précision dépend de deux facteurs : (1) le seuil en dBFS et (2) la qualité de l’enregistrement. Pour une voix studio propre (niveau RMS vocal −25 à −15 dBFS) avec seuil −40 dBFS, la précision de détection et la position de coupe se situent dans une résolution de fenêtre de 20 millisecondes — soit environ 50 mesures par seconde. C’est plus de résolution qu’un auditeur humain n’en perçoit dans la transition de coupe.

Avec des bruits de fond plus forts (clim, circulation, ventilateur d’ordinateur), il faut un seuil spécifiquement sous le tapis de bruit — typiquement −50 à −55 dBFS. Dans cette zone, des consonnes très douces (s, f, sh) sont parfois mal classées comme silence. La marge rattrape en partie ces erreurs, mais pour des enregistrements critiques, il est recommandé d’effectuer avant la coupe une réduction de bruit Audacity — puis ensuite la coupe de silence avec seuil −40 dBFS.

Pour la coupe podcast, la précision est presque toujours suffisante, à condition que la marge ne soit pas trop serrée (au moins 80 ms, idéalement 150–200 ms). Pour des travaux d’audio forensique ou des transcriptions à valeur juridique, cet outil est le mauvais choix — il faut là un logiciel de forensique vocale spécialisé.

Que se passe-t-il après l’export ?

Le fichier WAV exporté arrive dans le dossier de téléchargement par défaut de votre navigateur. C’est une piste mono PCM 16 bits — compatible avec n’importe quel logiciel de coupe (Audacity, Reaper, Adobe Audition, Logic Pro, Pro Tools), n’importe quel lecteur multimédia et la plupart des outils de transcription.

Si vous voulez conserver le format d’origine (MP3, M4A, OGG, FLAC), choisissez l’export « Original » — la coupe n’est alors pas appliquée, mais le fichier d’origine simplement transmis. C’est utile si vous ne demandez pas la détection de silence et utilisez juste l’outil pour inspection.

Pour la transcription ensuite, l’outil sœur « Transcription audio » est recommandé (basé sur un modèle vocal spécialisé, s’exécute également en local dans le navigateur). Pour d’autres coupes vocales, l’outil sœur « Découper un audio » (marquer des zones, sans auto-trim). Les deux outils utilisent la même pile de conteneurs audio et peuvent traiter directement le fichier WAV exporté.

Y a-t-il un mode de normalisation de volume ?

Délibérément pas dans cette version. La coupe de silence et la normalisation de volume sont deux tâches distinctes qui exigent des décisions audio différentes — une normalisation de loudness RMS (EBU R128, cible −23 LUFS) nécessite un pipeline séparé avec mesure de loudness véritable, pas seulement RMS. Cela sera développé en outil sœur autonome.

Quiconque veut pré-normaliser rapidement peut le faire dans le DAW de son choix — l’effet « Loudness Normalization » d’Audacity respecte le standard EBU R128, ffmpeg-loudnorm est la variante en ligne de commande. Tous deux nécessitent une étape séparée ; cela n’est pas délibérément regroupé ici dans un unique « Magic Button », parce que le bon ordre (d’abord enlever les silences, puis normaliser) est volontairement partie d’un bon workflow audio.

Dernière mise à jour :

Vous pourriez aussi aimer