Werden meine Audio-Daten auf einen Server hochgeladen?

Nein. Die Transkription läuft vollständig lokal in deinem Browser via WebAssembly. Es gibt kein Backend, keinen API-Key, keine Logs. Deine Audiodatei verlässt dein Gerät zu keinem Zeitpunkt.

Welche Sprachen werden unterstützt?

Auto-Erkennung sowie ein Force-Modus für Deutsch, Englisch, Französisch und Spanisch. Das zugrunde liegende neuronale Spracherkennungs-Modell unterstützt rund 100 Sprachen – am zuverlässigsten arbeitet es bei Deutsch und Englisch mit deutlicher Aussprache.

Welche Formate akzeptiert das Tool?

MP3, WAV, M4A (AAC), OGG und WebM. Damit deckst du Smartphone-Sprachmemos, Diktiergeräte, Zoom-/Teams-Aufnahmen und gängige Podcast-Exporte ab. Für unübliche Formate (FLAC, AIFF, WMA) vorher in MP3 mit 128 kbps konvertieren – höhere Bitraten verbessern die Erkennungs-Genauigkeit nicht.

Wie lange dauert eine Transkription?

Auf einem aktuellen Laptop erreicht die Verarbeitung etwa 2–4× Echtzeit-Geschwindigkeit. Eine 5-minütige Aufnahme ist meist in 1–2 Minuten fertig, ein 30-Minuten-Meeting in 8–15 Minuten. Auf älteren Geräten oder Smartphones entsprechend länger.

Kann ich SRT-Untertitel mit Zeitstempeln exportieren?

Ja. Beim Download wählst du zwischen reinem TXT-Output und SRT-Format. SRT enthält pro Untertitel-Block Start- und End-Zeitstempel (HH:MM:SS,mmm) und lässt sich direkt in Premiere, DaVinci Resolve, CapCut oder VLC einbinden.

Wie genau ist die Erkennung?

Bei klarer, nahbesprochener Aufnahme in ruhiger Umgebung liegt die Wort-Genauigkeit typischerweise zwischen 90 und 95 Prozent. Hintergrundmusik, starke Akzente, Fachjargon und sich überlappende Sprecher senken den Wert spürbar. Vor der Veröffentlichung immer Korrektur lesen.

Kann ich mehrere Sprecher unterscheiden?

Speaker-Diarisierung (Wer-sagte-was) ist aktuell nicht unterstützt. Die Ausgabe ist ein durchgehender Transkript-Strom. Sprechernamen lassen sich nach dem Kopieren manuell ergänzen.

Funktioniert das Tool offline?

Ja. Sobald das Modell einmalig im Browser-Cache liegt, läuft die Transkription komplett ohne Internetverbindung. Praktisch für Recherche-Reisen, Zugfahrten oder vertrauliche Aufnahmen ohne externe Verbindung.

Audio-Transkription – Sprache zu Text direkt im Browser

Wie funktioniert die Audio-Transkription im Browser?

Die Verarbeitung läuft in zwei Stufen direkt auf deinem Gerät – ohne dass eine Datei das Gerät verlässt. Im ersten Schritt normalisiert die Web Audio API deine Datei: Sie wird auf 16 kHz Mono heruntergerechnet, weil Spracherkennungs-Modelle dieses Eingangsformat erwarten. Mehrere Kanäle werden zu einem Mono-Signal gemittelt, der Sample-Rate-Konverter glättet die Frequenzen.

Im zweiten Schritt übernimmt eine in WebAssembly kompilierte Inferenz-Engine. WebAssembly führt rechenintensive Algorithmen mit nahezu nativer Geschwindigkeit im Browser aus – kein Plugin, keine Installation. Beim ersten Aufruf landet das Modell einmalig im Browser-Cache. Ab dem zweiten Aufruf läuft die Transkription vollständig offline.

Drei Qualitätsstufen – welche passt?

Die Wahl ist ein Kompromiss zwischen Download-Größe, Geschwindigkeit und Erkennungs-Genauigkeit:

Stufe	Modell-Größe	Geschwindigkeit	Empfehlung
Schnell	~152 MB	sehr schnell	Mobile, kurze Memos, Notizen
Genau	~291 MB	ausgewogen	Default für Meetings, Interviews, Podcasts
Präzise	~968 MB	langsamer	Studio-Aufnahmen, Fachvorträge, Akzent-Audio

Die Stufe wählst du im Modell-Picker direkt unter dem Upload-Bereich. Wechsel ist jederzeit möglich – jede Stufe wird einzeln gecached.

100 % Datenschutz, 0 Cloud

Das Tool nimmt zu keinem Zeitpunkt Kontakt zu einem externen Server auf. Kein Account, keine Anmeldung, keine Einwilligung in irgendeine Datenweitergabe. Schließt du den Browser-Tab, sind keine Daten mehr vorhanden – weder lokal gespeichert noch in einer Cloud. Das macht das Tool besonders geeignet für vertrauliche Aufnahmen: Meetings unter NDA, Arzt-Gespräche, Anwalts-Konsultationen oder interne HR-Interviews.

Wie erzielst du die besten Ergebnisse?

Klare Aufnahme: Je weniger Hintergrundgeräusche, desto präziser die Erkennung. Ein stiller Raum hilft mehr als nachträgliche Filter.
Mikrofon-Abstand: 20–30 cm zum Mikrofon reduziert Verzerrungen und Plosivlaute.
Deutliche Aussprache: Langsames, deutliches Sprechen erhöht die Erkennungsrate – besonders bei Fachbegriffen.
Bitrate für große Dateien: MP3 mit 128 kbps komprimiert eine Stunde Sprache auf unter 60 MB. Höhere Bitraten bringen für Spracherkennung keinen Mehrwert.
Lange Aufnahmen aufteilen: Trenne mehrstündige Interviews in 30–60-Minuten-Segmente. Das ist stabiler und gibt dir natürliche Gliederungspunkte.
Sprache erzwingen bei kurzen Clips: Auto-Erkennung braucht ca. 30 Sekunden Audio-Material. Bei kürzeren Clips oder starken Akzenten den Sprach-Override nutzen.

TXT oder SRT – welcher Export passt?

Beim Download wählst du zwischen zwei Formaten:

TXT – reiner Fließtext, ein Absatz, ideal für Meeting-Protokolle, Blog-Drafts oder Recherche-Notizen.
SRT – SubRip-Untertitel-Format mit Start- und End-Zeitstempeln pro Block (00:01:23,456 --> 00:01:28,910). Lässt sich direkt in YouTube, Premiere Pro, DaVinci Resolve, CapCut oder VLC einbinden.

Wer Untertitel für Social-Content oder Lehrvideos braucht, lädt SRT herunter und importiert es in den Video-Editor. Schriftart, Größe und Position werden vom Player gerendert – das Tool liefert nur den synchronisierten Text.

Wann lohnt sich Browser-Transkription?

Browser-basierte Transkription ist immer dann erste Wahl, wenn Vertraulichkeit oder Datenschutz-Compliance eine Rolle spielen.

Meeting-Protokolle. Aufnahmen interner Besprechungen müssen oft vertraulich bleiben. Da keine Audiodaten nach außen übertragen werden, ist ein ungewolltes Datenleck ausgeschlossen. Eine Stunde Meeting produziert typischerweise 5.000–8.000 Wörter Transkript.

Interview-Transkripte. Journalistische Interviews, qualitative Marktforschung oder HR-Gespräche lassen sich direkt nach dem Termin verschriftlichen – ohne dass eine dritte Partei Zugriff auf den Inhalt erhält.

Sprachnotizen digitalisieren. Gesprochene Ideen, Einkaufslisten oder Tagebucheinträge schnell verschriftlichen und in Notiz-Apps wie Obsidian, Notion oder Apple Notes weiterverarbeiten.

Untertitel für eigene Videos. Lehrvideos, Tutorials oder Reels: SRT-Export gibt dir die Basis, an der du im Editor nur noch Schreibfehler korrigierst. Verbessert Barrierefreiheit für Gehörlose und alle, die Videos ohne Ton schauen.

Akademische Forschung. Qualitative Forschende transkribieren Interview-Mitschnitte ohne sensible Daten an externe Transkriptions-Dienstleister zu übergeben – DSGVO-konform, ohne Auftragsverarbeitungs-Vertrag.

Welche Formate werden unterstützt?

Das Tool akzeptiert die gängigsten Audio-Formate: MP3, WAV, M4A (AAC), OGG Vorbis und WebM Opus. WAV liefert die beste Ausgangsqualität, ist aber deutlich größer. MP3 bietet den besten Kompromiss aus Größe und Qualität. Sehr große Dateien über 200 MB können auf älteren Geräten oder Smartphones zu Speicher-Engpässen führen – in dem Fall vorher aufteilen.

Welche Tools passen dazu?

Aus dem kittokit-Ökosystem zum Workflow Audio → Text → Weiterverarbeitung:

Sprache verbessern — Rauschen, Echo und Hintergrundgeräusche aus Aufnahmen entfernen, bevor du sie transkribierst. Spürt deutlich höhere Erkennungs-Genauigkeit nach sich.
Zeichenzähler — Wörter, Zeichen und Lesezeit deines Transkripts ermitteln. Praktisch, um Meeting-Protokolle für Newsletter oder Blog-Drafts zu kürzen.
Text-Diff — Zwei Transkript-Versionen vergleichen, etwa Original und Lektorats-Version. Zeigt Änderungen Wort für Wort markiert.

Audio Transkription

So funktioniert es

Audio-Datei auswählen

Qualität & Sprache wählen

Transkript abrufen

Datenschutz

Wie benutzt du dieses Tool?