Comment supprimer le silence d'un fichier audio ?

Glissez votre fichier audio dans la zone de dépôt ci-dessus (ou cliquez pour le sélectionner), réglez le seuil en dBFS, vérifiez sur la forme d'onde quelles zones sont marquées comme silencieuses, et exportez le flux découpé en WAV. Toute l'opération s'exécute en local dans le navigateur — le fichier n'est à aucun moment téléversé. Le seuil détermine à partir de quel volume une section compte comme silencieuse : la voix parlée travaille typiquement avec −40 dBFS, la musique avec ambiance plutôt avec −50 dBFS ou moins.

Qu'est-ce que le dBFS et comment choisir le bon seuil ?

dBFS signifie « Decibel relative to Full Scale » — c'est-à-dire à quel point un signal est fort par rapport au maximum théorique. 0 dBFS est le maximum (limite d'écrêtage), −60 dBFS est très faible. Pour la parole, choisissez un seuil entre −40 et −35 dBFS. Pour des enregistrements faibles ou une ambiance d'arrière-plan, plutôt −50 à −55 dBFS. Si trop est coupé, baissez le seuil (par ex. de −40 à −50). Si trop peu est détecté, augmentez-le (de −40 à −35). Un aperçu du concept dBFS est donné par l'[article Wikipédia sur le niveau de pression acoustique](https://fr.wikipedia.org/wiki/Niveau_de_pression_acoustique).

Que signifie la durée minimale de silence ?

Elle empêche que de courtes respirations ou pauses de réflexion soient reconnues comme points de coupe. Avec 500 millisecondes par défaut, seules les phases de silence à partir d'une demi-seconde sont éliminées — les pauses de parole plus courtes (respirer, légère hésitation) sont conservées. Pour un auto-cut agressif, baissez à 200–300 millisecondes ; pour une coupe plus douce, montez à 800–1000 millisecondes. Les podcasts profitent souvent de 500–700 ms, les mémos vocaux plutôt de 200–400 ms.

Quelle taille de fichier audio est admise ?

Jusqu'à 200 Mo. Cela couvre confortablement les épisodes de podcast typiques (60–90 minutes en MP3 192 kbps). Pour des fichiers plus volumineux, la RAM du navigateur atteint ses limites — le rendu de la forme d'onde et l'analyse RMS gardent toute la piste mono PCM en mémoire. Pour des enregistrements live de plusieurs heures ou du matériel 24 bits haute résolution, un logiciel desktop natif (Audacity, Reaper) est le meilleur choix. À l'intérieur de la limite de 200 Mo, la coupe de silence reste entièrement dans le navigateur et sans obligation de compte.

La qualité audio est-elle préservée à l'export ?

À l'export WAV, la piste est ré-encodée en PCM 16 bits — pas de compression avec perte supplémentaire. Le matériel vocal et podcast est, après le roundtrip, acoustiquement indiscernable de la forme d'onde d'origine. Si votre original était déjà un MP3, l'information de compression initialement perdue ne revient évidemment pas — mais la coupe elle-même n'ajoute pas de nouvelle étape avec perte. Pour des coupes absolument sans perte (au frame près dans le fichier codec d'origine), il vous faut un logiciel de coupe spécifique au codec.

À quoi sert la marge (avant/après) chaque segment ?

Un court fragment audio conservé avant et après chaque segment parlé, pour que la coupe ne tombe pas directement sur la première ou la dernière consonne. 80 millisecondes constituent une bonne valeur par défaut pour la parole — cela correspond environ à la durée d'une légère respiration. Pour des coupes très serrées, la marge peut descendre à 50 ms ; pour un style plus généreux, monter à 200–300 ms. Sans marge, les transitions auto-cut sonnent souvent abruptes et « tronquées ».

Puis-je réajuster le fichier après la coupe ?

Oui — la coupe n'est appliquée qu'au clic sur « Exporter la coupe ». Tant que vous ne touchez qu'aux curseurs (seuil, durée minimale de silence, marge), tout est une pré-visualisation live sur la forme d'onde : les zones silencieuses sont surlignées, la carte de résultat se met à jour en temps réel. Vous pouvez modifier les valeurs autant de fois que voulu, jusqu'à obtenir le résultat qui vous convient. Seul le bouton d'export produit le fichier WAV final et lance le téléchargement.

L'outil est-il gratuit et conforme à la protection des données ?

Oui — gratuit, sans inscription, sans tracking. Votre fichier audio est décodé en local dans votre navigateur (via la Web Audio API native), la forme d'onde est dessinée sur un Canvas, l'analyse RMS s'exécute en pur JavaScript sans contact serveur. Il n'y a pas d'upload, pas d'enregistrement de compte, pas de limite cachée de volume de données. Même le fichier exporté est assemblé exclusivement côté client — le lien de téléchargement vient d'une URL blob, pas d'un endpoint serveur.

Supprimer les silences audio — auto-cut pour podcasts

Que fait le coupeur de silence audio ?

Trois tâches en un outil : détecter automatiquement les passages silencieux d’un fichier audio, les marquer visuellement sur une forme d’onde et rendre la piste nettoyée téléchargeable en WAV. Vous déposez votre MP3, WAV, M4A, OGG ou FLAC, l’outil le décode nativement dans le navigateur (via la Web Audio API), le convertit en mono (moyenne de tous les canaux), calcule une amplitude RMS pour chaque fenêtre de 20 millisecondes et compare chaque valeur de fenêtre au seuil que vous réglez en dBFS. Les fenêtres silencieuses sont regroupées en régions, et les régions plus courtes que la durée minimale de silence sont délibérément non coupées — pour que les respirations et les courtes hésitations soient préservées.

Le résultat : une forme d’onde avec passages silencieux surlignés, une carte de résultat avec durée d’origine, nouvelle durée et temps économisé en secondes, et un bouton d’export qui assemble un fichier WAV prêt en local. Pas de compte, pas de serveur, pas de compteur de quota caché.

Pourquoi dBFS et non une échelle 0–100 ?

dBFS — « Decibel relative to Full Scale » — est l’échelle professionnelle habituelle dans le monde de l’audio numérique. 0 dBFS signifie « aussi fort que le format numérique peut représenter » (toute valeur au-dessus est écrêtée et produit de la distorsion). −6 dBFS est la moitié du maximum, −20 dBFS est le niveau vocal typique dans les enregistrements professionnels, −40 dBFS est nettement plus faible qu’une parole chuchotée, −60 dBFS est considéré comme le tapis de bruit d’un bon microphone.

Une échelle 0–100 serait plus facile à interpréter pour l’utilisateur, mais elle introduirait trois problèmes : premièrement, l’outil devrait quand même calculer en interne en dBFS (parce que les valeurs RMS sont distribuées de façon logarithmique) ; deuxièmement, le seuil ne serait pas directement comparable avec les valeurs d’autres outils (Audacity, Adobe Audition, Reaper fonctionnent tous en dBFS) ; troisièmement, elle exigerait que la résolution dans la plage basse (−40 à −60 dBFS) soit aussi fine que dans la plage forte — ce qui est difficile à représenter.

Pour la plupart des cas d’usage, cette plage suffit :

Voix propre (micro studio) : −38 à −42 dBFS
Voix avec légère ambiance : −45 à −50 dBFS
Voix avec fort arrière-plan : −50 à −55 dBFS
Musique avec passages pianissimo : −55 à −60 dBFS

Si l’outil coupe trop, baissez le seuil (vers −50). Si trop peu est détecté, augmentez-le (vers −30).

Comment fonctionne l’analyse RMS ?

RMS signifie « Root Mean Square » — la racine carrée de la moyenne des échantillons au carré dans une fenêtre. Cette mesure est étroitement corrélée à la sonie perçue (contrairement au niveau crête, qui surévalue les pics brefs) et est largement utilisée dans la médecine légale audio, la conception de codecs vocaux et la normalisation de loudness (EBU R128).

L’outil découpe la piste mono en fenêtres non chevauchantes de 20 millisecondes chacune. À 48 kHz de taux d’échantillonnage, cela représente 960 échantillons par fenêtre, à 44,1 kHz exactement 882. Par fenêtre, l’amplitude RMS est calculée :

RMS = sqrt( (s_0² + s_1² + ... + s_n²) / n )

Ensuite, chaque valeur RMS est comparée au seuil — directement en amplitude linéaire, pas en dBFS (la conversion seuil dBFS → linéaire se fait une fois au démarrage de l’analyse). Si RMS est sous le seuil, la fenêtre est « silent », sinon « loud ». La séquence de flags silent/loud est assemblée en régions et filtrée contre la durée minimale de silence.

Cette méthode présente deux avantages sur la détection par valeur crête : premièrement, elle ne réagit pas aux pics de clic isolés (un clic de souris en arrière-plan ne déséquilibre pas la détection) ; deuxièmement, elle correspond approximativement à ce que l’oreille humaine perçoit comme volume — Audacity, Reaper et la plupart des outils podcast utilisent le même principe.

Comment la durée minimale de silence est-elle calibrée ?

Les valeurs par défaut sont speech-tuned. 500 millisecondes est le seuil à partir duquel une pause de parole compte comme « vraie pause ». Les phases de silence plus courtes (respiration brève, accroches de consonne, pauses mentales mid-phrase) sont préservées — sinon le résultat sonne comme un auto-cut robotique et tronqué.

Règle empirique d’ajustement :

200–300 millisecondes : coupe agressive, bien pour les mémos vocaux dont chaque pause doit partir
400–600 millisecondes : coupe naturelle podcast, conserve les respirations
800–1500 millisecondes : coupe douce, ne supprime que les longs « blancs » (par ex. entre deux changements de sujet)

Pour les enregistrements de voix off ultérieurement calés sur l’image, 200 ms sont d’usage. Pour les podcasts conversationnels à deux interlocuteurs, 500–700 ms sont appropriés. Pour les coupes d’interview avec longues pauses de réflexion avant une réponse, 1000–1500 ms conviennent bien.

Que devient la marge (padding) ?

La valeur de marge (avant/après) étend chaque segment parlé de ce nombre de millisecondes avant son début et après sa fin, avant que la coupe ne soit appliquée. Effet : la coupe ne tombe pas brutalement sur la première ou la dernière consonne, mais sur un segment audio calme — typiquement une ambiance de pièce discrète ou un léger souffle.

Sans marge, les transitions auto-cut sonnent souvent mécaniques et « tronquées », surtout sur les plosives (P, B, T, K, D) au début ou à la fin d’un mot. Avec 80 ms de marge, la transition est plus douce ; avec 200 ms, on garde clairement un peu d’ambiance entre les segments coupés.

Si deux segments parlés se chevaucheraient après la marge, l’outil les fusionne automatiquement en un seul. Cela évite que la marge ne ramène paradoxalement de la silence.

Quand l’auto-coupe de silence a-t-elle du sens — et quand pas ?

A du sens pour :

Mémos vocaux et dictées : longues pauses de réflexion supprimées, contenu compact
Podcasts en solo : dégrossir avant la coupe manuelle fine
Voix off : retraits de re-takes et faux départs rapidement
Entraînement vocal (exercices, enregistrements de langue) : trim de silences prof/élève
Notes vocales pour transcription : gain de temps en transcription automatique

Moins pertinent pour :

La musique : la détection de silence basée RMS coupe par erreur les passages doux (pianissimo, queues de réverbération)
Pièces radiophoniques et drames : les pauses dramatiques font partie de la mise en scène
Enregistrements live avec public : les « pauses respiratoires » entre les phrases donnent leur caractère à l’enregistrement
Enregistrements multipistes qui doivent rester synchrones manuellement : la coupe de silence décale les ancres de timing
Matériel studio très haut de gamme : là, une coupe humaine (DAW + casque) fait la différence

Pour les cinq premiers cas d’usage, l’auto-coupe est une machine à gagner des heures. Pour les cinq derniers, une DAW comme Audacity (open source) ou Reaper est le meilleur choix.

En quoi cet outil se distingue-t-il des autres ?

La plupart des outils de coupe en ligne envoient votre fichier sur un serveur. Même si le serveur « ne stocke rien » — le fichier quitte brièvement votre machine et réside dans la mémoire d’un système tiers. Pour les mémos vocaux, les notes de thérapie, les interviews confidentielles ou les enregistrements scolaires, c’est un vrai problème de protection des données.

Trois différences structurelles :

Pur client. La Web Audio API décode en local, Canvas dessine la forme d’onde, l’analyse RMS s’exécute dans le main thread (assez rapide pour les fichiers sous 200 Mo), l’export WAV est assemblé dans le navigateur. Pas d’aller-retour serveur.
Pas de mur de compte. Contrairement à de grands fournisseurs d’auto-cut (qui cachent un Free-Tier à limite de minutes derrière une inscription), il n’y a ici pas de limite hormis le plafond de 200 Mo par fichier et la limite RAM du navigateur.
Mobile-first, refined-minimalism. La forme d’onde réagit au tactile, les curseurs ont des cibles tactiles de 44 × 44, la typographie est Inter avec JetBrains Mono pour les chiffres — et l’outil fonctionne aussi sans bandeau cookie, parce qu’il ne pose simplement pas de cookies.

Ces trois points ne sont pas du « nice to have » — c’est la différenciation structurelle face aux acteurs établis dont le modèle économique repose sur la capture d’email et le funnel d’abonnement.

Quelle est la précision de la détection de silence ?

La précision dépend de deux facteurs : (1) le seuil en dBFS et (2) la qualité de l’enregistrement. Pour une voix studio propre (niveau RMS vocal −25 à −15 dBFS) avec seuil −40 dBFS, la précision de détection et la position de coupe se situent dans une résolution de fenêtre de 20 millisecondes — soit environ 50 mesures par seconde. C’est plus de résolution qu’un auditeur humain n’en perçoit dans la transition de coupe.

Avec des bruits de fond plus forts (clim, circulation, ventilateur d’ordinateur), il faut un seuil spécifiquement sous le tapis de bruit — typiquement −50 à −55 dBFS. Dans cette zone, des consonnes très douces (s, f, sh) sont parfois mal classées comme silence. La marge rattrape en partie ces erreurs, mais pour des enregistrements critiques, il est recommandé d’effectuer avant la coupe une réduction de bruit Audacity — puis ensuite la coupe de silence avec seuil −40 dBFS.

Pour la coupe podcast, la précision est presque toujours suffisante, à condition que la marge ne soit pas trop serrée (au moins 80 ms, idéalement 150–200 ms). Pour des travaux d’audio forensique ou des transcriptions à valeur juridique, cet outil est le mauvais choix — il faut là un logiciel de forensique vocale spécialisé.

Que se passe-t-il après l’export ?

Le fichier WAV exporté arrive dans le dossier de téléchargement par défaut de votre navigateur. C’est une piste mono PCM 16 bits — compatible avec n’importe quel logiciel de coupe (Audacity, Reaper, Adobe Audition, Logic Pro, Pro Tools), n’importe quel lecteur multimédia et la plupart des outils de transcription.

Si vous voulez conserver le format d’origine (MP3, M4A, OGG, FLAC), choisissez l’export « Original » — la coupe n’est alors pas appliquée, mais le fichier d’origine simplement transmis. C’est utile si vous ne demandez pas la détection de silence et utilisez juste l’outil pour inspection.

Pour la transcription ensuite, l’outil sœur « Transcription audio » est recommandé (basé sur un modèle vocal spécialisé, s’exécute également en local dans le navigateur). Pour d’autres coupes vocales, l’outil sœur « Découper un audio » (marquer des zones, sans auto-trim). Les deux outils utilisent la même pile de conteneurs audio et peuvent traiter directement le fichier WAV exporté.

Y a-t-il un mode de normalisation de volume ?

Délibérément pas dans cette version. La coupe de silence et la normalisation de volume sont deux tâches distinctes qui exigent des décisions audio différentes — une normalisation de loudness RMS (EBU R128, cible −23 LUFS) nécessite un pipeline séparé avec mesure de loudness véritable, pas seulement RMS. Cela sera développé en outil sœur autonome.

Quiconque veut pré-normaliser rapidement peut le faire dans le DAW de son choix — l’effet « Loudness Normalization » d’Audacity respecte le standard EBU R128, ffmpeg-loudnorm est la variante en ligne de commande. Tous deux nécessitent une étape séparée ; cela n’est pas délibérément regroupé ici dans un unique « Magic Button », parce que le bon ordre (d’abord enlever les silences, puis normaliser) est volontairement partie d’un bon workflow audio.

Supprimer les silences audio — auto-cut pour podcasts et mémos vocaux

Comment ça marche

Text oder Code einfügen

Automatische Verarbeitung

Ergebnis kopieren

Confidentialité

Comment utiliser cet outil ?

Que fait le coupeur de silence audio ?

Pourquoi dBFS et non une échelle 0–100 ?

Comment fonctionne l’analyse RMS ?

Comment la durée minimale de silence est-elle calibrée ?

Que devient la marge (padding) ?

Quand l’auto-coupe de silence a-t-elle du sens — et quand pas ?

En quoi cet outil se distingue-t-il des autres ?

Quelle est la précision de la détection de silence ?

Que se passe-t-il après l’export ?

Y a-t-il un mode de normalisation de volume ?

Audio silence remover

Comment ça marche

Text oder Code einfügen

Automatische Verarbeitung

Ergebnis kopieren

Confidentialité

Que fait le coupeur de silence audio ?

Pourquoi dBFS et non une échelle 0–100 ?

Comment fonctionne l’analyse RMS ?

Comment la durée minimale de silence est-elle calibrée ?

Que devient la marge (padding) ?

Quand l’auto-coupe de silence a-t-elle du sens — et quand pas ?

En quoi cet outil se distingue-t-il des autres ?

Quelle est la précision de la détection de silence ?

Que se passe-t-il après l’export ?

Y a-t-il un mode de normalisation de volume ?