Wie entferne ich Stille aus einer Audiodatei?

Zieh deine Audiodatei in das Drop-Feld oben (oder klick zum Auswählen), stell die Schwelle in dBFS ein, prüfe auf der Wellenform welche Bereiche als Stille markiert sind, und exportier den geschnittenen Stream als WAV. Der ganze Vorgang läuft lokal im Browser — die Datei wird zu keinem Zeitpunkt hochgeladen. Die Schwelle bestimmt, ab welcher Lautstärke ein Abschnitt als Stille zählt: gesprochene Stimme arbeitet typisch mit -40 dBFS, Musik mit Atmosphäre eher mit -50 dBFS oder leiser.

Was ist dBFS und wie wähle ich die richtige Schwelle?

dBFS steht für „Decibel relative to Full Scale“ — also wie laut ein Signal verglichen mit dem theoretischen Maximum ist. 0 dBFS ist das Maximum (Clipping-Grenze), -60 dBFS ist sehr leise. Für Sprache wählst du eine Schwelle zwischen -40 und -35 dBFS. Für leise Aufnahmen oder Hintergrund-Atmo eher -50 bis -55 dBFS. Wenn zu viel geschnitten wird, senke die Schwelle (z.B. von -40 auf -50). Wenn zu wenig erkannt wird, erhöhe sie (von -40 auf -35). Eine Übersicht zum dBFS-Konzept liefert der [Wikipedia-Artikel zu Sound Pressure](https://de.wikipedia.org/wiki/Schalldruckpegel).

Was bedeutet die minimale Stille-Dauer?

Sie verhindert, dass kurze Atempausen oder Denkpausen als Schnitt-Stellen erkannt werden. Bei 500 Millisekunden Default werden nur Stille-Phasen ab einer halben Sekunde aussortiert — kürzere Sprech-Pausen (Atmen, kurzes Stocken) bleiben erhalten. Für aggressives Auto-Cut auf 200-300 Millisekunden senken, für sanfteren Schnitt auf 800-1000 Millisekunden erhöhen. Podcasts profitieren meist von 500-700 ms, Sprachmemos eher von 200-400 ms.

Wie groß darf die Audiodatei sein?

Bis 200 Megabyte. Das deckt typische Podcast-Folgen (60-90 Minuten in MP3 192 kbps) komfortabel ab. Bei größeren Dateien stößt der Browser-RAM an seine Grenzen — die Wellenform-Render und die RMS-Analyse halten die gesamte PCM-Mono-Spur im Speicher. Für Stunden-lange Live-Mitschnitte oder hochauflösendes 24-bit-Material ist eine native Desktop-Software (Audacity, Reaper) die bessere Wahl. Innerhalb des 200-MB-Limits bleibt der Stille-Schnitt jedoch komplett im Browser und ohne Konto-Pflicht.

Bleibt die Audio-Qualität beim Export erhalten?

Beim WAV-Export wird die Spur als 16-bit PCM neu kodiert — keine zusätzliche verlustbehaftete Kompression. Sprach- und Podcast-Material ist nach dem Roundtrip akustisch nicht von der Original-Wellenform zu unterscheiden. Wenn dein Original bereits eine MP3 war, geht die ursprünglich verlorene Kompressions-Information natürlich nicht zurück — aber der Schnitt selbst fügt keine neue verlustbehaftete Stufe hinzu. Für absolut verlustfreie Schnitte (Frame-genau in der originalen Codec-Datei) brauchst du eine Codec-spezifische Schnitt-Software.

Was bedeutet das Polster (Lead/Tail) vor und nach jedem Abschnitt?

Ein kurzer Audio-Anteil, der vor und nach jedem Sprech-Abschnitt erhalten bleibt, damit der Schnitt nicht direkt auf dem ersten oder letzten Konsonanten landet. 80 Millisekunden sind ein guter Standardwert für Sprache — das entspricht ungefähr der Dauer eines leichten Atemzugs. Bei sehr knappen Schnitten kann das Polster auf 50 ms gesenkt werden, bei großzügigerem Stil auf 200-300 ms. Ohne Polster klingen Auto-Cut-Übergänge oft abrupt und „abgehackt“.

Kann ich die Datei nach dem Schnitt nochmal anpassen?

Ja — der Schnitt wird erst beim Klick auf „Schnitt exportieren“ angewendet. Solange du nur an den Slidern (Schwelle, minimale Stille-Dauer, Polster) drehst, ist alles eine Live-Vorschau auf der Wellenform: stille Bereiche werden hell hinterlegt, die Ergebnis-Karte aktualisiert sich in Echtzeit. Du kannst beliebig oft die Werte ändern, bis dir das Ergebnis gefällt. Erst der Export-Knopf erzeugt die finale WAV-Datei und startet den Download.

Ist das Tool kostenlos und datenschutzkonform?

Ja — kostenlos, ohne Anmeldung, ohne Tracking. Deine Audiodatei wird lokal in deinem Browser dekodiert (per nativer Web-Audio-API), die Wellenform wird in einem Canvas gezeichnet, die RMS-Analyse läuft als reines JavaScript ohne Server-Kontakt. Es gibt keinen Upload, keine Konto-Registrierung, kein verstecktes Datenvolumen-Limit. Auch die exportierte Datei wird ausschließlich client-seitig zusammengebaut — der Download-Link kommt aus einer Blob-URL, nicht von einem Server-Endpoint.

Audio-Stille entfernen — Auto-Cut für Podcasts & Voice-Memos

Was macht der Audio-Stille-Schneider?

Drei Aufgaben in einem Werkzeug: stille Stellen in einer Audiodatei automatisch erkennen, sie auf einer Wellenform sichtbar markieren, und die getrimmte Spur als WAV herunterladbar machen. Du droppst deine MP3, WAV, M4A, OGG oder FLAC, das Tool dekodiert sie nativ im Browser (per Web-Audio-API), wandelt sie zu Mono um (Mittelwert aller Kanäle), berechnet eine RMS-Amplitude für jedes 20-Millisekunden-Fenster und vergleicht jeden Fenster-Wert mit der Schwelle, die du in dBFS einstellst. Stille Fenster werden zu Regionen zusammengefasst, und Regionen, die kürzer als die minimale Stille-Dauer sind, werden bewusst nicht ausgeschnitten — damit Atempausen und kurze Denk-Stockungen erhalten bleiben.

Das Resultat: eine Wellenform mit hervorgehobenen stillen Stellen, eine Ergebnis-Karte mit Original-Dauer, neuer Dauer und gespart in Sekunden, und ein Export-Knopf, der eine fertige WAV-Datei lokal zusammenbaut. Kein Konto, kein Server, kein versteckter Quota-Counter.

Warum dBFS und nicht eine 0-100-Schwelle?

dBFS — „Decibel relative to Full Scale” — ist die übliche professionelle Skala in der digitalen Audio-Welt. 0 dBFS bedeutet „so laut wie das digitale Format es darstellen kann” (jeder Wert darüber wird abgeschnitten und erzeugt Verzerrung). -6 dBFS ist halb so laut wie das Maximum, -20 dBFS ist die typische Sprach-Pegelung in professionellen Aufnahmen, -40 dBFS ist deutlich leiser als geflüsterte Sprache, -60 dBFS gilt als Rauschteppich eines guten Mikrofons.

Eine 0-100-Skala wäre für den Nutzer einfacher zu interpretieren, aber sie würde drei Probleme einführen: erstens müsste das Tool intern trotzdem in dBFS rechnen (weil die RMS-Werte logarithmisch verteilt sind), zweitens wäre die Schwelle nicht direkt vergleichbar mit Werten aus anderen Werkzeugen (Audacity, Adobe Audition, Reaper arbeiten alle in dBFS), und drittens würde sie verlangen, dass die Auflösung im leisen Bereich (-40 bis -60 dBFS) genauso fein ist wie im lauten — was schwer abbildbar ist.

Für die meisten Anwendungsfälle reicht dieser Bereich aus:

Saubere Sprache (Studio-Mic): -38 bis -42 dBFS
Sprache mit leichter Atmo: -45 bis -50 dBFS
Sprache mit starkem Hintergrund: -50 bis -55 dBFS
Musik mit Pianissimo-Passagen: -55 bis -60 dBFS

Wenn das Tool zu viel ausschneidet, senke die Schwelle (Richtung -50). Wenn zu wenig erkannt wird, erhöhe sie (Richtung -30).

Wie funktioniert die RMS-Analyse?

RMS steht für „Root Mean Square” — die Wurzel aus dem Mittelwert der quadrierten Samples in einem Fenster. Dieses Maß ist eng mit der wahrgenommenen Lautstärke korreliert (anders als der Spitzenpegel, der einzelne kurze Peaks überbewertet) und wird in der Audio-Forensik, im Sprach-Codec-Design und in der Loudness-Normalisierung (EBU R128) breit genutzt.

Das Tool teilt die Mono-Spur in nicht-überlappende Fenster von je 20 Millisekunden Länge. Bei 48 kHz Samplerate sind das 960 Samples pro Fenster, bei 44,1 kHz exakt 882. Pro Fenster wird die RMS-Amplitude berechnet:

RMS = sqrt( (s_0² + s_1² + ... + s_n²) / n )

Anschließend wird jeder RMS-Wert mit der Schwelle verglichen — direkt in linearer Amplitude, nicht in dBFS (die Konvertierung Schwelle dBFS → linear passiert einmal beim Start der Analyse). Liegt RMS unter Schwelle, gilt das Fenster als „silent”, sonst als „loud”. Aus der Folge silent/loud-Flags werden Regionen zusammengesetzt und gegen die minimale Stille-Dauer gefiltert.

Diese Methode hat zwei Vorzüge gegenüber Spitzenwert-Detektion: erstens reagiert sie nicht auf einzelne Klick-Peaks (ein Mausklick im Hintergrund wirft die Erkennung nicht aus dem Gleichgewicht), zweitens entspricht sie ungefähr dem, was das menschliche Ohr als Lautstärke wahrnimmt — Audacity, Reaper und die meisten Podcast-Tools nutzen das gleiche Prinzip.

Wie ist die minimale Stille-Dauer kalibriert?

Defaults sind speech-tuned. 500 Millisekunden ist die Schwelle, ab der eine Sprechpause als „echte Pause” gilt. Kürzere Stille-Phasen (kurzes Atmen, Konsonanten-Anschlüsse, mentale Pausen mid-sentence) bleiben erhalten — sonst klingt das Ergebnis nach robotischem, abgehacktem Auto-Cut.

Anpassungs-Faustregel:

200-300 Millisekunden: aggressiver Schnitt, gut für Sprachmemos, in denen jede Pause raus soll
400-600 Millisekunden: natürlicher Podcast-Schnitt, behält Atempausen
800-1500 Millisekunden: sanfter Schnitt, schneidet nur lange „Hänger” raus (z.B. zwischen einem Themenwechsel)

Für Voice-Over-Aufnahmen, die später eng auf Bild gesetzt werden, sind 200 ms üblich. Für Konversations-Podcasts mit zwei Sprechern sind 500-700 ms angemessen. Für Interview-Schnitte mit langen Denk-Pausen vor einer Antwort sind 1000-1500 ms gut.

Was passiert mit dem Polster (Padding)?

Der Polster-Wert (Lead/Tail) erweitert jeden Sprech-Abschnitt um diese Anzahl Millisekunden vor seinem Anfang und nach seinem Ende, bevor der Schnitt angesetzt wird. Effekt: der Schnitt landet nicht hart auf dem ersten oder letzten Konsonanten, sondern auf einem ruhigen Audio-Anteil — typischerweise leise Raum-Atmo oder ein leichter Atemzug.

Ohne Polster klingen Auto-Cut-Übergänge oft mechanisch und „abgeknipst”, besonders bei Plosiven (P, B, T, K, D) am Anfang oder Ende eines Wortes. Mit 80 ms Polster wird der Übergang weicher, mit 200 ms bleibt deutlich Raum-Anteil zwischen den geschnittenen Abschnitten.

Wenn zwei Sprech-Abschnitte nach dem Polster überlappen würden, fügt das Tool sie automatisch zu einem zusammen. Das verhindert, dass das Polster paradoxerweise wieder Stille-Anteile zurückbringt.

Wann ist Auto-Stille-Schnitt sinnvoll — und wann nicht?

Sinnvoll bei:

Sprachmemos und Diktaten: lange Denk-Pausen raus, Inhalt kompakt
Single-Speaker-Podcasts: vor dem manuellen Feinschnitt grob durchhaken
Voice-Over-Aufnahmen: Re-Takes und falsche Anfänge schnell aussortieren
Sprach-Trainings (Lautübungen, Sprach-Lern-Aufnahmen): Lehrer-/Schüler-Stille-Trimm
Sprach-Notizen für die Transkription: spart Zeit bei automatischer Transkription

Weniger sinnvoll bei:

Musik: RMS-basierte Stille-Erkennung schneidet leise Passagen versehentlich raus (Pianissimo-Stellen, Hall-Ausklang)
Hörspielen und Dramatik: dramatische Pausen sind Teil der Inszenierung
Live-Mitschnitten mit Publikum: die „atmenden Pausen” zwischen Sätzen geben dem Mitschnitt seinen Charakter
Mehr-Spur-Aufnahmen, die manuell synchron bleiben müssen: Stille-Schnitt verschiebt die Timing-Anker
Sehr hochwertigem Studio-Material: dort macht ein menschlicher Schnitt (DAW + Kopfhörer) den Unterschied

Für die ersten fünf Anwendungs-Cluster ist Auto-Schnitt eine Stunden-spar-Maschine. Für die letzten fünf ist eine DAW wie Audacity (Open Source) oder Reaper die bessere Wahl.

Wie unterscheidet sich dieses Tool von anderen Stille-Schneidern?

Die meisten Online-Schnittwerkzeuge schicken deine Datei auf einen Server. Auch wenn der Server „nichts speichert” — die Datei verlässt deinen Rechner kurz und liegt im Speicher eines fremden Systems. Das ist für Voice-Memos, Therapie-Notizen, vertrauliche Interviews oder Schul-Aufnahmen ein konkreter Daten-Schutz-Issue.

Drei strukturelle Unterschiede:

Pure-client. Web-Audio-API dekodiert lokal, Canvas zeichnet die Wellenform, RMS-Analyse läuft im Haupt-Thread (für Dateien unter 200 MB schnell genug), WAV-Export wird im Browser zusammengebaut. Keine Server-Roundtrip.
Kein Konto-Wall. Anders als bei größeren Auto-Cut-Anbietern (die einen Free-Tier mit Minutenlimit hinter Anmeldung verstecken) gibt es hier kein Limit außer dem 200-MB-File-Cap und der Browser-RAM-Grenze.
Mobile-First, refined-minimalism. Die Wellenform reagiert auf Touch, die Slider haben 44 × 44 Touch-Targets, die Schrift ist Inter mit JetBrains Mono für Zahlen — und das Tool funktioniert auch ohne Cookie-Banner, weil es schlicht keine Cookies setzt.

Diese drei Punkte sind nicht „nice to have” — sie sind die strukturelle Differenzierung gegen die etablierten Anbieter, deren Geschäftsmodell auf Email-Capture und Abo-Funnel basiert.

Wie genau ist die Stille-Erkennung?

Die Genauigkeit hängt von zwei Faktoren ab: (1) der Schwelle in dBFS und (2) der Qualität der Aufnahme. Bei sauberer Studio-Sprache (-25 bis -15 dBFS RMS-Sprachpegel) mit Schwelle -40 dBFS liegen Erkennungs-Genauigkeit und Schnitt-Position innerhalb einer 20-Millisekunden-Fenster-Auflösung — also rund 50 mal pro Sekunde abgetastet. Das ist mehr Auflösung, als ein menschlicher Hörer im Schnitt-Übergang wahrnehmen kann.

Bei lauteren Hintergrund-Geräuschen (Klima, Verkehr, Computer-Lüfter) braucht es eine Schwelle, die spezifisch unter dem Rauschteppich liegt — typischerweise -50 bis -55 dBFS. In diesem Bereich werden manchmal sehr leise Konsonanten (s, f, sh) als Stille fehl-klassifiziert. Das Polster fängt diese Fehl-Schnitte teilweise auf, aber für kritische Aufnahmen empfiehlt sich vor dem Schnitt eine Audacity-Noise-Reduction — und erst dann der Stille-Schnitt mit -40 dBFS Schwelle.

Für Podcast-Schnitt ist die Genauigkeit fast immer ausreichend, vorausgesetzt das Polster ist nicht zu knapp eingestellt (mindestens 80 ms, idealerweise 150-200 ms). Für forensische Audio-Arbeiten oder forensisch verwertbare Transkripte ist dieses Tool die falsche Wahl — dort braucht es spezialisierte Sprach-Forensik-Software.

Was passiert nach dem Export?

Die exportierte WAV-Datei landet im Standard-Download-Ordner deines Browsers. Sie ist eine 16-bit PCM Mono-Spur — kompatibel mit jeder Schnitt-Software (Audacity, Reaper, Adobe Audition, Logic Pro, Pro Tools), jedem Media-Player und den meisten Transkriptions-Tools.

Falls du das Original-Format (MP3, M4A, OGG, FLAC) behalten willst, wähle den „Original”-Export — der Schnitt wird dann nicht angewendet, sondern die ursprüngliche Datei einfach durchgereicht. Das ist sinnvoll, wenn du keine stillen Stellen erkennen lässt und nur das Tool zur Inspektion nutzt.

Für die anschließende Transkription empfiehlt sich das Schwester-Tool „Audio-Transkription” (Whisper-basiert, läuft ebenfalls lokal im Browser). Für weiteren Sprach-Schnitt das Schwester-Tool „Audio zuschneiden” (Bereiche markieren, ohne Auto-Trim). Beide Tools nutzen denselben Audio-Container-Stack und können die exportierte WAV-Datei direkt verarbeiten.

Gibt es einen Lautstärke-Normalize-Modus?

Bewusst nicht in dieser Version. Stille-Schnitt und Lautstärke-Normalisierung sind zwei separate Aufgaben, die unterschiedliche Audio-Entscheidungen verlangen — eine RMS-Loudness-Normalisierung (EBU R128, -23 LUFS Target) braucht eine separate Pipeline mit echter Loudness-Messung, nicht nur RMS. Das wird als eigenständiges Schwester-Tool entwickelt.

Wer schnell vorab-normalisieren will, kann das im DAW seines Vertrauens nachholen — Audacity-Effect „Loudness Normalization” trifft den EBU-R128-Standard, ffmpeg-loudnorm ist die Kommandozeilen-Variante. Beide brauchen einen separaten Schritt; das wird hier bewusst nicht in einem einzigen „Magic Button” zusammengeworfen, weil die richtige Reihenfolge (erst Stille raus, dann normalisieren) bewusster Teil eines guten Audio-Workflows ist.

Audio-Stille entfernen — Auto-Cut für Podcasts und Voice-Memos

So funktioniert es

Text oder Code einfügen

Automatische Verarbeitung

Ergebnis kopieren

Datenschutz

Wie benutzt du dieses Tool?