Zum Inhalt springen
AUDIO-TOOL

Audio-Stille entfernen — Auto-Cut für Podcasts und Voice-Memos

Drag-and-drop, drei Slider, eine Wellenform mit hervorgehobenen stillen Stellen — und ein WAV-Export ohne Server-Upload. Ideal für Podcaster, Sprachmemos und Sprachtraining.

Audio-Stille entfernen

Audio-Datei wählen

MP3, WAV, M4A, OGG oder FLAC · läuft komplett lokal

MPEGWAVMP4M4AOGGFLACWEBM

So funktioniert es

  1. 01

    Text oder Code einfügen

    Füge deinen Inhalt in das Eingabefeld ein oder tippe direkt.

  2. 02

    Automatische Verarbeitung

    Das Tool verarbeitet den Inhalt sofort und zeigt das Ergebnis.

  3. 03

    Ergebnis kopieren

    Kopiere das Ergebnis mit einem Klick in die Zwischenablage.

Datenschutz

Alle Berechnungen laufen direkt in deinem Browser. Keine Daten werden auf Server übertragen.

Die meisten Online-Schnittwerkzeuge schicken deine Aufnahme in die Cloud — selbst wenn die Stille-Erkennung mathematisch trivial ist. Dieses Tool macht alles lokal: die Datei verlässt deinen Browser nicht, die Wellenform rendert im Canvas, die RMS-Analyse läuft pur in JavaScript. Drei Regler: dBFS-Schwelle (Default −40, gut für Stimme), Mindest-Stille-Dauer in Millisekunden, Lead/Tail-Polster um jeden Sprech-Abschnitt. WAV-Export, kein Konto, keine Werbung im Tool.

01 — Anleitung

Wie benutzt du dieses Tool?

  1. Audio-Datei (MP3, WAV, M4A, OGG oder FLAC, bis 200 MB) per Drag-and-drop oder Klick auswählen — sie wird sofort lokal dekodiert.
  2. Schwelle in dBFS einstellen: -40 dBFS ist der Default für gesprochene Stimme, leise Musik mit Atmosphäre eher -50 oder -55 dBFS.
  3. Minimale Stille-Dauer in Millisekunden festlegen — kürzere Pausen bleiben erhalten, damit Atempausen und kurze Denkpausen nicht abrupt geschnitten werden.
  4. Polster (Lead/Tail) anpassen, damit der Schnitt nicht direkt auf den ersten oder letzten Konsonanten fällt — 80 Millisekunden sind ein guter Startwert.
  5. Wellenform prüfen (Stille farblich markiert) und exportieren als WAV (16 bit PCM) oder Original-Passthrough — Download startet direkt im Browser.

Was macht der Audio-Stille-Schneider?

Drei Aufgaben in einem Werkzeug: stille Stellen in einer Audiodatei automatisch erkennen, sie auf einer Wellenform sichtbar markieren, und die getrimmte Spur als WAV herunterladbar machen. Du droppst deine MP3, WAV, M4A, OGG oder FLAC, das Tool dekodiert sie nativ im Browser (per Web-Audio-API), wandelt sie zu Mono um (Mittelwert aller Kanäle), berechnet eine RMS-Amplitude für jedes 20-Millisekunden-Fenster und vergleicht jeden Fenster-Wert mit der Schwelle, die du in dBFS einstellst. Stille Fenster werden zu Regionen zusammengefasst, und Regionen, die kürzer als die minimale Stille-Dauer sind, werden bewusst nicht ausgeschnitten — damit Atempausen und kurze Denk-Stockungen erhalten bleiben.

Das Resultat: eine Wellenform mit hervorgehobenen stillen Stellen, eine Ergebnis-Karte mit Original-Dauer, neuer Dauer und gespart in Sekunden, und ein Export-Knopf, der eine fertige WAV-Datei lokal zusammenbaut. Kein Konto, kein Server, kein versteckter Quota-Counter.

Warum dBFS und nicht eine 0-100-Schwelle?

dBFS — „Decibel relative to Full Scale” — ist die übliche professionelle Skala in der digitalen Audio-Welt. 0 dBFS bedeutet „so laut wie das digitale Format es darstellen kann” (jeder Wert darüber wird abgeschnitten und erzeugt Verzerrung). -6 dBFS ist halb so laut wie das Maximum, -20 dBFS ist die typische Sprach-Pegelung in professionellen Aufnahmen, -40 dBFS ist deutlich leiser als geflüsterte Sprache, -60 dBFS gilt als Rauschteppich eines guten Mikrofons.

Eine 0-100-Skala wäre für den Nutzer einfacher zu interpretieren, aber sie würde drei Probleme einführen: erstens müsste das Tool intern trotzdem in dBFS rechnen (weil die RMS-Werte logarithmisch verteilt sind), zweitens wäre die Schwelle nicht direkt vergleichbar mit Werten aus anderen Werkzeugen (Audacity, Adobe Audition, Reaper arbeiten alle in dBFS), und drittens würde sie verlangen, dass die Auflösung im leisen Bereich (-40 bis -60 dBFS) genauso fein ist wie im lauten — was schwer abbildbar ist.

Für die meisten Anwendungsfälle reicht dieser Bereich aus:

  • Saubere Sprache (Studio-Mic): -38 bis -42 dBFS
  • Sprache mit leichter Atmo: -45 bis -50 dBFS
  • Sprache mit starkem Hintergrund: -50 bis -55 dBFS
  • Musik mit Pianissimo-Passagen: -55 bis -60 dBFS

Wenn das Tool zu viel ausschneidet, senke die Schwelle (Richtung -50). Wenn zu wenig erkannt wird, erhöhe sie (Richtung -30).

Wie funktioniert die RMS-Analyse?

RMS steht für „Root Mean Square” — die Wurzel aus dem Mittelwert der quadrierten Samples in einem Fenster. Dieses Maß ist eng mit der wahrgenommenen Lautstärke korreliert (anders als der Spitzenpegel, der einzelne kurze Peaks überbewertet) und wird in der Audio-Forensik, im Sprach-Codec-Design und in der Loudness-Normalisierung (EBU R128) breit genutzt.

Das Tool teilt die Mono-Spur in nicht-überlappende Fenster von je 20 Millisekunden Länge. Bei 48 kHz Samplerate sind das 960 Samples pro Fenster, bei 44,1 kHz exakt 882. Pro Fenster wird die RMS-Amplitude berechnet:

RMS = sqrt( (s_0² + s_1² + ... + s_n²) / n )

Anschließend wird jeder RMS-Wert mit der Schwelle verglichen — direkt in linearer Amplitude, nicht in dBFS (die Konvertierung Schwelle dBFS → linear passiert einmal beim Start der Analyse). Liegt RMS unter Schwelle, gilt das Fenster als „silent”, sonst als „loud”. Aus der Folge silent/loud-Flags werden Regionen zusammengesetzt und gegen die minimale Stille-Dauer gefiltert.

Diese Methode hat zwei Vorzüge gegenüber Spitzenwert-Detektion: erstens reagiert sie nicht auf einzelne Klick-Peaks (ein Mausklick im Hintergrund wirft die Erkennung nicht aus dem Gleichgewicht), zweitens entspricht sie ungefähr dem, was das menschliche Ohr als Lautstärke wahrnimmt — Audacity, Reaper und die meisten Podcast-Tools nutzen das gleiche Prinzip.

Wie ist die minimale Stille-Dauer kalibriert?

Defaults sind speech-tuned. 500 Millisekunden ist die Schwelle, ab der eine Sprechpause als „echte Pause” gilt. Kürzere Stille-Phasen (kurzes Atmen, Konsonanten-Anschlüsse, mentale Pausen mid-sentence) bleiben erhalten — sonst klingt das Ergebnis nach robotischem, abgehacktem Auto-Cut.

Anpassungs-Faustregel:

  • 200-300 Millisekunden: aggressiver Schnitt, gut für Sprachmemos, in denen jede Pause raus soll
  • 400-600 Millisekunden: natürlicher Podcast-Schnitt, behält Atempausen
  • 800-1500 Millisekunden: sanfter Schnitt, schneidet nur lange „Hänger” raus (z.B. zwischen einem Themenwechsel)

Für Voice-Over-Aufnahmen, die später eng auf Bild gesetzt werden, sind 200 ms üblich. Für Konversations-Podcasts mit zwei Sprechern sind 500-700 ms angemessen. Für Interview-Schnitte mit langen Denk-Pausen vor einer Antwort sind 1000-1500 ms gut.

Was passiert mit dem Polster (Padding)?

Der Polster-Wert (Lead/Tail) erweitert jeden Sprech-Abschnitt um diese Anzahl Millisekunden vor seinem Anfang und nach seinem Ende, bevor der Schnitt angesetzt wird. Effekt: der Schnitt landet nicht hart auf dem ersten oder letzten Konsonanten, sondern auf einem ruhigen Audio-Anteil — typischerweise leise Raum-Atmo oder ein leichter Atemzug.

Ohne Polster klingen Auto-Cut-Übergänge oft mechanisch und „abgeknipst”, besonders bei Plosiven (P, B, T, K, D) am Anfang oder Ende eines Wortes. Mit 80 ms Polster wird der Übergang weicher, mit 200 ms bleibt deutlich Raum-Anteil zwischen den geschnittenen Abschnitten.

Wenn zwei Sprech-Abschnitte nach dem Polster überlappen würden, fügt das Tool sie automatisch zu einem zusammen. Das verhindert, dass das Polster paradoxerweise wieder Stille-Anteile zurückbringt.

Wann ist Auto-Stille-Schnitt sinnvoll — und wann nicht?

Sinnvoll bei:

  • Sprachmemos und Diktaten: lange Denk-Pausen raus, Inhalt kompakt
  • Single-Speaker-Podcasts: vor dem manuellen Feinschnitt grob durchhaken
  • Voice-Over-Aufnahmen: Re-Takes und falsche Anfänge schnell aussortieren
  • Sprach-Trainings (Lautübungen, Sprach-Lern-Aufnahmen): Lehrer-/Schüler-Stille-Trimm
  • Sprach-Notizen für die Transkription: spart Zeit bei automatischer Transkription

Weniger sinnvoll bei:

  • Musik: RMS-basierte Stille-Erkennung schneidet leise Passagen versehentlich raus (Pianissimo-Stellen, Hall-Ausklang)
  • Hörspielen und Dramatik: dramatische Pausen sind Teil der Inszenierung
  • Live-Mitschnitten mit Publikum: die „atmenden Pausen” zwischen Sätzen geben dem Mitschnitt seinen Charakter
  • Mehr-Spur-Aufnahmen, die manuell synchron bleiben müssen: Stille-Schnitt verschiebt die Timing-Anker
  • Sehr hochwertigem Studio-Material: dort macht ein menschlicher Schnitt (DAW + Kopfhörer) den Unterschied

Für die ersten fünf Anwendungs-Cluster ist Auto-Schnitt eine Stunden-spar-Maschine. Für die letzten fünf ist eine DAW wie Audacity (Open Source) oder Reaper die bessere Wahl.

Wie unterscheidet sich dieses Tool von anderen Stille-Schneidern?

Die meisten Online-Schnittwerkzeuge schicken deine Datei auf einen Server. Auch wenn der Server „nichts speichert” — die Datei verlässt deinen Rechner kurz und liegt im Speicher eines fremden Systems. Das ist für Voice-Memos, Therapie-Notizen, vertrauliche Interviews oder Schul-Aufnahmen ein konkreter Daten-Schutz-Issue.

Drei strukturelle Unterschiede:

  1. Pure-client. Web-Audio-API dekodiert lokal, Canvas zeichnet die Wellenform, RMS-Analyse läuft im Haupt-Thread (für Dateien unter 200 MB schnell genug), WAV-Export wird im Browser zusammengebaut. Keine Server-Roundtrip.
  2. Kein Konto-Wall. Anders als bei größeren Auto-Cut-Anbietern (die einen Free-Tier mit Minutenlimit hinter Anmeldung verstecken) gibt es hier kein Limit außer dem 200-MB-File-Cap und der Browser-RAM-Grenze.
  3. Mobile-First, refined-minimalism. Die Wellenform reagiert auf Touch, die Slider haben 44 × 44 Touch-Targets, die Schrift ist Inter mit JetBrains Mono für Zahlen — und das Tool funktioniert auch ohne Cookie-Banner, weil es schlicht keine Cookies setzt.

Diese drei Punkte sind nicht „nice to have” — sie sind die strukturelle Differenzierung gegen die etablierten Anbieter, deren Geschäftsmodell auf Email-Capture und Abo-Funnel basiert.

Wie genau ist die Stille-Erkennung?

Die Genauigkeit hängt von zwei Faktoren ab: (1) der Schwelle in dBFS und (2) der Qualität der Aufnahme. Bei sauberer Studio-Sprache (-25 bis -15 dBFS RMS-Sprachpegel) mit Schwelle -40 dBFS liegen Erkennungs-Genauigkeit und Schnitt-Position innerhalb einer 20-Millisekunden-Fenster-Auflösung — also rund 50 mal pro Sekunde abgetastet. Das ist mehr Auflösung, als ein menschlicher Hörer im Schnitt-Übergang wahrnehmen kann.

Bei lauteren Hintergrund-Geräuschen (Klima, Verkehr, Computer-Lüfter) braucht es eine Schwelle, die spezifisch unter dem Rauschteppich liegt — typischerweise -50 bis -55 dBFS. In diesem Bereich werden manchmal sehr leise Konsonanten (s, f, sh) als Stille fehl-klassifiziert. Das Polster fängt diese Fehl-Schnitte teilweise auf, aber für kritische Aufnahmen empfiehlt sich vor dem Schnitt eine Audacity-Noise-Reduction — und erst dann der Stille-Schnitt mit -40 dBFS Schwelle.

Für Podcast-Schnitt ist die Genauigkeit fast immer ausreichend, vorausgesetzt das Polster ist nicht zu knapp eingestellt (mindestens 80 ms, idealerweise 150-200 ms). Für forensische Audio-Arbeiten oder forensisch verwertbare Transkripte ist dieses Tool die falsche Wahl — dort braucht es spezialisierte Sprach-Forensik-Software.

Was passiert nach dem Export?

Die exportierte WAV-Datei landet im Standard-Download-Ordner deines Browsers. Sie ist eine 16-bit PCM Mono-Spur — kompatibel mit jeder Schnitt-Software (Audacity, Reaper, Adobe Audition, Logic Pro, Pro Tools), jedem Media-Player und den meisten Transkriptions-Tools.

Falls du das Original-Format (MP3, M4A, OGG, FLAC) behalten willst, wähle den „Original”-Export — der Schnitt wird dann nicht angewendet, sondern die ursprüngliche Datei einfach durchgereicht. Das ist sinnvoll, wenn du keine stillen Stellen erkennen lässt und nur das Tool zur Inspektion nutzt.

Für die anschließende Transkription empfiehlt sich das Schwester-Tool „Audio-Transkription” (Whisper-basiert, läuft ebenfalls lokal im Browser). Für weiteren Sprach-Schnitt das Schwester-Tool „Audio zuschneiden” (Bereiche markieren, ohne Auto-Trim). Beide Tools nutzen denselben Audio-Container-Stack und können die exportierte WAV-Datei direkt verarbeiten.

Gibt es einen Lautstärke-Normalize-Modus?

Bewusst nicht in dieser Version. Stille-Schnitt und Lautstärke-Normalisierung sind zwei separate Aufgaben, die unterschiedliche Audio-Entscheidungen verlangen — eine RMS-Loudness-Normalisierung (EBU R128, -23 LUFS Target) braucht eine separate Pipeline mit echter Loudness-Messung, nicht nur RMS. Das wird als eigenständiges Schwester-Tool entwickelt.

Wer schnell vorab-normalisieren will, kann das im DAW seines Vertrauens nachholen — Audacity-Effect „Loudness Normalization” trifft den EBU-R128-Standard, ffmpeg-loudnorm ist die Kommandozeilen-Variante. Beide brauchen einen separaten Schritt; das wird hier bewusst nicht in einem einzigen „Magic Button” zusammengeworfen, weil die richtige Reihenfolge (erst Stille raus, dann normalisieren) bewusster Teil eines guten Audio-Workflows ist.

Zuletzt aktualisiert:

Das könnte dir auch gefallen