Wie benutzt du dieses Tool?
- Tippe oder füge deinen Text in das Eingabefeld ein — bis zu 50.000 Zeichen.
- Wähle die Engine: ‚Schnell & online‘ nutzt die Browser-Sprachausgabe; ‚Privat & offline‘ ist nur für englische Texte verfügbar.
- Wähle eine Stimme und das Sprechtempo (0,5× bis 2,0×).
- Klicke ‚Vorlesen starten‘. Bei der Browser-Sprachausgabe hörst du das Ergebnis sofort; bei der Offline-Engine erscheint ein Audio-Player und MP3-Download.
- Für lange Texte: Einzelne harte Pausen lassen sich per `[pause 500ms]`-Marker im Text einfügen.
Was ist Text-zu-Sprache und warum lokal im Browser?
Text-zu-Sprache (Sprachsynthese) wandelt geschriebene Sätze in gesprochenes Audio um. Standard-Anwendungen reichen von Hörbüchern und Vorlese-Funktionen für Sehbehinderte bis hin zu Voice-Over für Videos, Audio-Newsletter und das Korrekturlesen langer Texte per Gehör.
Klassisch laufen solche Dienste in der Cloud: Du schickst deinen Text an einen externen Server, der Server schickt eine Audio-Datei zurück. Bei längeren oder vertraulichen Texten ist das problematisch — die Inhalte werden gespeichert, kommerziell ausgewertet oder per DSGVO auftragsverarbeitungs-pflichtig.
Dieses Tool dreht den Spieß um: Die Sprachausgabe läuft direkt in deinem Browser. Zwei Engines stehen zur Wahl, und der Engine-Schalter zeigt jederzeit transparent, welche Daten dein Gerät verlassen können.
Zwei Engines — welche passt wann?
Der Hybrid-Aufbau ist die zentrale Designentscheidung. Beide Engines haben Stärken und Schwächen, beide werden über denselben Schalter erreichbar:
| Engine | Verfügbarkeit | Privatsphäre | Stimm-Qualität | Modell-Download |
|---|---|---|---|---|
| Schnell & online | Alle Sprachen des Systems | Eventuell Cloud-Roundtrip | Hängt vom System ab | 0 MB |
| Privat & offline (KI) | Nur Englisch | 100% lokal nach Download | Sehr natürlich | ~92 MB einmalig |
Die Browser-Sprachausgabe ist überall sofort verfügbar — Windows, macOS, iOS, Android und Linux bringen System-Stimmen mit. Die Qualität schwankt je nach Plattform stark: Apple-Geräte haben sehr gute Stimmen, Windows ist solide, Android variiert stark zwischen den Herstellern.
Das Offline-KI-Modell liefert die natürlichste Aussprache und läuft nach dem einmaligen Download ohne jegliche Internet-Verbindung. Der Nachteil: Es deckt nur amerikanisches und britisches Englisch ab. Für deutschsprachige Texte bleibt die Browser-Sprachausgabe also der praktikable Weg.
Wann eignet sich die Browser-Sprachausgabe?
Browser-basierte Sprachausgabe ist erste Wahl für:
- Schnelles Korrekturlesen. Lass dir deinen Blog-Entwurf oder Aufsatz vorlesen — schlechte Satzstruktur fällt beim Hören sofort auf.
- Sehbehinderten-Unterstützung. Auf langen Texten ad-hoc, ohne extra Software installieren zu müssen.
- Sprachenlernen. Höre dir die korrekte Aussprache deutscher Sätze in unterschiedlichen System-Stimmen an.
- Schnelle Audio-Drafts. Erster Eindruck einer geplanten Voice-Over-Aufnahme, bevor du ein Studio buchst.
Achte auf den Hinweis oberhalb der Engine-Auswahl: Bei Chrome und Edge können bestimmte System-Stimmen den Text an Google bzw. Microsoft schicken, um ihn dort zu synthetisieren. Firefox und Safari arbeiten ausschließlich mit lokalen System-Stimmen, schicken also nichts. Wenn du Vertraulichkeit brauchst, nutze die Offline-KI-Engine (Englisch) oder einen Browser, der nur lokale Stimmen verwendet.
Wie funktionieren Pausen-Marker?
Geht es um vorgelesene Hörbücher, Tutorial-Voice-Overs oder Präsentations-Aufnahmen, brauchst du gezielte Atempausen. Schreibe dazu einfach im Text:
Heute sprechen wir über Datenschutz. [pause 800ms] Das geht alle an.
Der Marker [pause 500ms] legt eine 500-Millisekunden-Pause an dieser Stelle ein. Erlaubte Werte: 50 bis 5.000 Millisekunden. Marker außerhalb des Bereichs werden auf die nächstmögliche Grenze geschnitten — das verhindert versehentliche Mehrsekunden-Lücken durch Tippfehler.
Bei der Browser-Sprachausgabe werden die Pausen als zwei getrennte Sätze mit setTimeout zwischendurch realisiert. Bei der Offline-KI-Engine werden die Pausen als reine Stille direkt in den Audio-Stream eingefügt.
Was bedeutet das EU-KI-Verordnungs-Wasserzeichen?
Seit August 2026 verlangt Artikel 50 der EU-KI-Verordnung, dass KI-generierte Audio-, Video- und Text-Inhalte als solche kenntlich gemacht werden. Für Sprachsynthese heißt das: Wer KI-erzeugte Stimmen veröffentlicht (Podcast, Werbung, Hörbuch), muss das transparent machen.
Dieses Tool erfüllt die Pflicht zweistufig:
- Sichtbar im UI — über dem Audio-Player steht der Hinweis „KI-generiert”.
- Maschinenlesbar in der Datei — beim MP3-Download bettet das Tool ein ID3-Tag im Untertitel-Feld ein, das die Engine und Stimme dokumentiert. Plattformen können das Tag automatisch auslesen und entsprechende Hinweise anzeigen.
Diese Markierung darfst du nicht entfernen, wenn du das Audio veröffentlichst — Artikel 50 §4 schreibt sie für KI-generiertes Sprach-Material vor.
Welche Tipps verbessern das Ergebnis?
- Punktiere klar. Punkte, Kommas, Doppelpunkte und Gedankenstriche steuern die natürliche Sprachmelodie. Schlampige Punktierung führt zu Monoton-Sprechen.
- Abkürzungen ausschreiben. „z.B.” spricht der Browser eher als „zett be” denn als „zum Beispiel”. Schreib im Vorlese-Text die Vollform.
- Zahlen behutsam einsetzen. „1.500” wird oft als „eins-Punkt-fünfhundert” interpretiert. Schreibe lange Zahlen als Wörter, wenn die Sprachausgabe sie sonst zerstückelt.
- Anführungszeichen sind problematisch. Manche Stimmen lesen das Zeichen wörtlich vor. Wenn du Zitate brauchst, kennzeichne sie textuell — etwa mit „Zitat Anfang … Zitat Ende”.
- Tempo anpassen. Hörbuch-Stimmen klingen bei 0,9× natürlicher, Erklär-Video-Voice-Overs profitieren von 1,1×. Probiere drei Tempi durch.
Wann lohnt sich die Offline-KI-Engine?
Wenn du englische Texte sehr natürlich vorgelesen brauchst und das Audio vielleicht sogar veröffentlichen willst, ist die Offline-KI-Engine deutlich überzeugender als die Browser-Sprachausgabe. Der Klang erinnert an menschliche Aufnahmen, die einzelnen Stimmen tragen unterscheidbare Charakteristika.
Praktische Einsatzfälle:
Englische Voice-Over für Tutorials. Du brauchst kein Studio, keine Sprecher-Aufnahme — pack das Skript in das Tool, wähle eine Stimme, lade das MP3 herunter und montiere es in deinen Video-Editor.
Hörbuch-Drafts für Eigenpublikationen. Bevor du in eine echte Aufnahme investierst, prüfe Textfluss und Aussprache mit der KI-Stimme. Spart teure Studio-Stunden für Skript-Anpassungen.
Sprachenlernen für deutsche Muttersprachler. Englische Texte (Vokabel-Listen, Übungssätze, Lehrtexte) mit konsistent natürlicher Aussprache in mehreren Stimmen anhören.
Barrierefreie Veröffentlichungen. Erstelle MP3-Versionen englischer Blog-Texte für blinde Leser — vollständig DSGVO-konform, weil weder dein Text noch das Audio jemals dein Gerät verlässt.
Welche Tools passen dazu?
Aus dem kittokit-Ökosystem zum Sprach-Workflow:
- Audio-Transkription — Der umgekehrte Weg: Audio zu Text, mehrsprachig (Deutsch, Englisch, Französisch, Spanisch).
- Schnell-Transkription EN — Wer englische Aufnahmen blitzschnell in Text umwandeln will: spezialisiertes Modell, bis zu 6× schneller als das mehrsprachige.
- Sprache verbessern — Wenn du eigene Aufnahmen hast und Rauschen, Echo oder Hintergrundgeräusche loswerden willst.
Zuletzt aktualisiert: