Wie benutzt du dieses Tool?
- Wähle eine Audio-Datei (MP3, WAV, M4A, OGG) per Klick oder Drag-and-Drop.
- Wähle die Qualitätsstufe: Schnell (~152 MB, mobil-tauglich), Genau (~291 MB, Default) oder Präzise (~968 MB, Desktop).
- Optional Sprache erzwingen, falls die Auto-Erkennung daneben liegt – sonst Auto-Erkennung lassen.
- Klicke 'Transkription starten'. Das Modell lädt einmalig in den Browser-Cache und steht danach offline bereit.
- Kopiere das Ergebnis oder lade es als TXT- oder SRT-Datei (mit Zeitstempeln für Untertitel) herunter.
Wie funktioniert die Audio-Transkription im Browser?
Die Verarbeitung läuft in zwei Stufen direkt auf deinem Gerät – ohne dass eine Datei das Gerät verlässt. Im ersten Schritt normalisiert die Web Audio API deine Datei: Sie wird auf 16 kHz Mono heruntergerechnet, weil Spracherkennungs-Modelle dieses Eingangsformat erwarten. Mehrere Kanäle werden zu einem Mono-Signal gemittelt, der Sample-Rate-Konverter glättet die Frequenzen.
Im zweiten Schritt übernimmt eine in WebAssembly kompilierte Inferenz-Engine. WebAssembly führt rechenintensive Algorithmen mit nahezu nativer Geschwindigkeit im Browser aus – kein Plugin, keine Installation. Beim ersten Aufruf landet das Modell einmalig im Browser-Cache. Ab dem zweiten Aufruf läuft die Transkription vollständig offline.
Drei Qualitätsstufen – welche passt?
Die Wahl ist ein Kompromiss zwischen Download-Größe, Geschwindigkeit und Erkennungs-Genauigkeit:
| Stufe | Modell-Größe | Geschwindigkeit | Empfehlung |
|---|---|---|---|
| Schnell | ~152 MB | sehr schnell | Mobile, kurze Memos, Notizen |
| Genau | ~291 MB | ausgewogen | Default für Meetings, Interviews, Podcasts |
| Präzise | ~968 MB | langsamer | Studio-Aufnahmen, Fachvorträge, Akzent-Audio |
Die Stufe wählst du im Modell-Picker direkt unter dem Upload-Bereich. Wechsel ist jederzeit möglich – jede Stufe wird einzeln gecached.
100 % Datenschutz, 0 Cloud
Das Tool nimmt zu keinem Zeitpunkt Kontakt zu einem externen Server auf. Kein Account, keine Anmeldung, keine Einwilligung in irgendeine Datenweitergabe. Schließt du den Browser-Tab, sind keine Daten mehr vorhanden – weder lokal gespeichert noch in einer Cloud. Das macht das Tool besonders geeignet für vertrauliche Aufnahmen: Meetings unter NDA, Arzt-Gespräche, Anwalts-Konsultationen oder interne HR-Interviews.
Wie erzielst du die besten Ergebnisse?
- Klare Aufnahme: Je weniger Hintergrundgeräusche, desto präziser die Erkennung. Ein stiller Raum hilft mehr als nachträgliche Filter.
- Mikrofon-Abstand: 20–30 cm zum Mikrofon reduziert Verzerrungen und Plosivlaute.
- Deutliche Aussprache: Langsames, deutliches Sprechen erhöht die Erkennungsrate – besonders bei Fachbegriffen.
- Bitrate für große Dateien: MP3 mit 128 kbps komprimiert eine Stunde Sprache auf unter 60 MB. Höhere Bitraten bringen für Spracherkennung keinen Mehrwert.
- Lange Aufnahmen aufteilen: Trenne mehrstündige Interviews in 30–60-Minuten-Segmente. Das ist stabiler und gibt dir natürliche Gliederungspunkte.
- Sprache erzwingen bei kurzen Clips: Auto-Erkennung braucht ca. 30 Sekunden Audio-Material. Bei kürzeren Clips oder starken Akzenten den Sprach-Override nutzen.
TXT oder SRT – welcher Export passt?
Beim Download wählst du zwischen zwei Formaten:
- TXT – reiner Fließtext, ein Absatz, ideal für Meeting-Protokolle, Blog-Drafts oder Recherche-Notizen.
- SRT – SubRip-Untertitel-Format mit Start- und End-Zeitstempeln pro Block (
00:01:23,456 --> 00:01:28,910). Lässt sich direkt in YouTube, Premiere Pro, DaVinci Resolve, CapCut oder VLC einbinden.
Wer Untertitel für Social-Content oder Lehrvideos braucht, lädt SRT herunter und importiert es in den Video-Editor. Schriftart, Größe und Position werden vom Player gerendert – das Tool liefert nur den synchronisierten Text.
Wann lohnt sich Browser-Transkription?
Browser-basierte Transkription ist immer dann erste Wahl, wenn Vertraulichkeit oder Datenschutz-Compliance eine Rolle spielen.
Meeting-Protokolle. Aufnahmen interner Besprechungen müssen oft vertraulich bleiben. Da keine Audiodaten nach außen übertragen werden, ist ein ungewolltes Datenleck ausgeschlossen. Eine Stunde Meeting produziert typischerweise 5.000–8.000 Wörter Transkript.
Interview-Transkripte. Journalistische Interviews, qualitative Marktforschung oder HR-Gespräche lassen sich direkt nach dem Termin verschriftlichen – ohne dass eine dritte Partei Zugriff auf den Inhalt erhält.
Sprachnotizen digitalisieren. Gesprochene Ideen, Einkaufslisten oder Tagebucheinträge schnell verschriftlichen und in Notiz-Apps wie Obsidian, Notion oder Apple Notes weiterverarbeiten.
Untertitel für eigene Videos. Lehrvideos, Tutorials oder Reels: SRT-Export gibt dir die Basis, an der du im Editor nur noch Schreibfehler korrigierst. Verbessert Barrierefreiheit für Gehörlose und alle, die Videos ohne Ton schauen.
Akademische Forschung. Qualitative Forschende transkribieren Interview-Mitschnitte ohne sensible Daten an externe Transkriptions-Dienstleister zu übergeben – DSGVO-konform, ohne Auftragsverarbeitungs-Vertrag.
Welche Formate werden unterstützt?
Das Tool akzeptiert die gängigsten Audio-Formate: MP3, WAV, M4A (AAC), OGG Vorbis und WebM Opus. WAV liefert die beste Ausgangsqualität, ist aber deutlich größer. MP3 bietet den besten Kompromiss aus Größe und Qualität. Sehr große Dateien über 200 MB können auf älteren Geräten oder Smartphones zu Speicher-Engpässen führen – in dem Fall vorher aufteilen.
Welche Tools passen dazu?
Aus dem kittokit-Ökosystem zum Workflow Audio → Text → Weiterverarbeitung:
- Sprache verbessern — Rauschen, Echo und Hintergrundgeräusche aus Aufnahmen entfernen, bevor du sie transkribierst. Spürt deutlich höhere Erkennungs-Genauigkeit nach sich.
- Zeichenzähler — Wörter, Zeichen und Lesezeit deines Transkripts ermitteln. Praktisch, um Meeting-Protokolle für Newsletter oder Blog-Drafts zu kürzen.
- Text-Diff — Zwei Transkript-Versionen vergleichen, etwa Original und Lektorats-Version. Zeigt Änderungen Wort für Wort markiert.
Zuletzt aktualisiert: