Wie benutzt du dieses Tool?
- Wähle eine englische Audio-Datei (MP3, WAV, M4A, OGG, WebM) per Klick oder Drag-and-Drop.
- Wähle die Qualitätsstufe: Schnell (~93 MB, läuft auch mobil) oder Genau (~188 MB, Desktop empfohlen).
- Klicke 'Transkription starten'. Das Modell lädt einmalig in den Browser-Cache und steht danach offline bereit.
- Beobachte den Echtzeit-Faktor: Werte unter 1.0× bedeuten, das Tool ist schneller als die Audio-Länge.
- Kopiere das Ergebnis oder lade es als TXT- oder SRT-Datei (mit Zeitstempeln für Untertitel) herunter.
Warum ein eigenes Tool nur für englisches Audio?
Englisch ist die am häufigsten transkribierte Sprache überhaupt — Podcasts, Tech-Talks, internationale Meetings, Youtube-Tutorials. Mehrsprachige Spracherkennungs-Modelle müssen für rund 100 Sprachen Tokens, Vokabular und Sprachidentifikation mitführen. Das bläht das Modell auf, kostet Speicher und Inferenz-Zeit — auch wenn du nur Englisch sprichst.
Ein speziell auf Englisch trainiertes Modell entfernt diesen Overhead. Der Decoder schrumpft auf rund die Hälfte, die Inferenz wird messbar schneller. Auf identischer Hardware verarbeitet die Schnellstufe Audio typischerweise unter Echtzeit — ein zehnminütiger Podcast ist häufig in 90 Sekunden fertig. Beim mehrsprachigen Audio-Transkription-Tool dauert dieselbe Aufnahme in der „Genau”-Stufe drei- bis viermal so lange.
Wie funktioniert die Transkription im Browser?
Die Verarbeitung läuft in zwei Stufen direkt auf deinem Gerät — ohne dass eine Datei das Gerät verlässt. Im ersten Schritt normalisiert die Web Audio API deine Datei: Sie wird auf 16 kHz Mono heruntergerechnet, weil Spracherkennungs-Modelle dieses Eingangsformat erwarten. Mehrere Kanäle werden zu einem Mono-Signal gemittelt.
Im zweiten Schritt übernimmt eine in WebAssembly kompilierte Inferenz-Engine. WebAssembly führt rechenintensive Algorithmen mit nahezu nativer Geschwindigkeit im Browser aus — kein Plugin, keine Installation. Beim ersten Aufruf landet das Modell einmalig im Browser-Cache. Ab dem zweiten Aufruf läuft die Transkription vollständig offline.
Zwei Qualitätsstufen — welche passt?
Die Wahl ist ein Kompromiss zwischen Download-Größe und Erkennungs-Genauigkeit:
| Stufe | Modell-Größe | Empfehlung |
|---|---|---|
| Schnell | ~93 MB | Kurze Memos, Calls unter 30 Minuten, mobile Geräte |
| Genau | ~188 MB | Lange Vorträge, Akzent-Audio, verrauschte Aufnahmen |
Die Stufe wählst du im Modell-Picker direkt unter dem Upload-Bereich. Wechsel ist jederzeit möglich — jede Stufe wird einzeln im Browser gecached.
Was bedeutet der Echtzeit-Faktor?
Nach jeder Transkription erscheint im Ergebnis-Bereich der Echtzeit-Faktor. Er drückt aus, wie lange die Verarbeitung relativ zur Audio-Länge gedauert hat:
- <1.0× — schneller als die Aufnahme (z.B. 0.4× = 40% der Audio-Länge).
- 1.0× — Verarbeitung dauerte genauso lange wie das Audio.
- >1.0× — Audio wurde langsamer als in Echtzeit verarbeitet.
Auf aktuellen Laptops mit der Schnellstufe liegt der Wert für klare Aufnahmen meist zwischen 0.3× und 0.6×. Bei langen Aufnahmen, lauten Hintergrundgeräuschen oder schwacher Hardware steigt er an. Auf älteren Mobilgeräten kann auch die Schnellstufe über 1.0× liegen — in dem Fall lohnt sich das Aufteilen in kürzere Segmente.
Wie ist der Datenschutz garantiert?
Das Tool nimmt zu keinem Zeitpunkt Kontakt zu einem externen Server auf. Kein Account, keine Anmeldung, keine Einwilligung in irgendeine Datenweitergabe. Schließt du den Browser-Tab, sind keine Daten mehr vorhanden — weder lokal gespeichert noch in einer Cloud. Das macht das Tool besonders geeignet für:
- Vertrauliche Gespräche — Recruiting-Interviews, Anwalts-Konsultationen, Arzt-Mitschnitte.
- NDA-Inhalte — interne Meetings, Strategy-Calls, Produkt-Briefings.
- Journalistische Quellen — Interview-Aufnahmen ohne Drittpartei.
- Akademische Forschung — DSGVO-konform, kein Auftragsverarbeitungs-Vertrag nötig.
TXT oder SRT — welcher Export passt?
Beim Download wählst du zwischen zwei Formaten:
- TXT — reiner Fließtext, ein Absatz, ideal für Meeting-Protokolle, Blog-Drafts oder Recherche-Notizen.
- SRT — SubRip-Untertitel-Format mit Start- und End-Zeitstempeln pro Block (
00:01:23,456 --> 00:01:28,910). Lässt sich direkt in YouTube, Premiere Pro, DaVinci Resolve, CapCut oder VLC einbinden.
Wer Untertitel für Social-Content oder Lehrvideos braucht, lädt SRT herunter und importiert es in den Video-Editor. Schriftart, Größe und Position werden vom Player gerendert — das Tool liefert nur den synchronisierten Text.
Wie erzielst du die besten Ergebnisse?
- Klare Aufnahme — Je weniger Hintergrundgeräusche, desto präziser die Erkennung. Ein stiller Raum hilft mehr als nachträgliche Filter.
- Mikrofon-Abstand 20–30 cm — reduziert Verzerrungen und Plosivlaute.
- Deutliche Aussprache — Langsames, deutliches Sprechen erhöht die Erkennungsrate, besonders bei Fachbegriffen.
- Lange Aufnahmen aufteilen — Trenne mehrstündige Interviews in 30–60-Minuten-Segmente. Das ist stabiler und gibt dir natürliche Gliederungspunkte.
- 128 kbps MP3 reicht — Höhere Bitraten verbessern die Erkennung nicht.
Wann lohnt sich Browser-Transkription?
Browser-basierte Transkription ist immer dann erste Wahl, wenn Vertraulichkeit oder Datenschutz-Compliance eine Rolle spielen:
Podcast-Show-Notes. Eine Episode komplett verschriftlichen, daraus Zitate ziehen, Kapitelmarken setzen oder eine SEO-freundliche Beschreibung generieren. Eine Stunde Podcast produziert typischerweise 5.000–8.000 Wörter Transkript.
Englische Meetings & Calls. Internationale Standups, Customer-Interviews mit US-/UK-Kunden, Investor-Calls auf Englisch — schnell verschriftlichen, ohne sensible Inhalte an externe Transkriptions-Dienste zu geben.
Video-Untertitel. Tutorials, Reels oder Lehrvideos auf Englisch: SRT-Export gibt dir die Basis, an der du im Editor nur noch Schreibfehler korrigierst. Verbessert Barrierefreiheit für Gehörlose und alle, die Videos ohne Ton schauen.
Akademische Forschung. Qualitative Forschende transkribieren englischsprachige Experten-Interviews ohne sensible Daten an externe Transkriptions-Dienstleister zu übergeben — DSGVO-konform, ohne Auftragsverarbeitungs-Vertrag.
Welche Tools passen dazu?
Aus dem kittokit-Ökosystem zum Workflow Audio → Text → Weiterverarbeitung:
- Audio-Transkription — Für Deutsch, Französisch, Spanisch und gemischtsprachige Aufnahmen. Größeres Modell, dafür mehrsprachig.
- Sprache verbessern — Rauschen, Echo und Hintergrundgeräusche aus Aufnahmen entfernen, bevor du sie transkribierst. Spürbar höhere Erkennungs-Genauigkeit.
- Text-Diff — Zwei Transkript-Versionen vergleichen, etwa Original und Lektorats-Version. Zeigt Änderungen Wort für Wort markiert.
Zuletzt aktualisiert: