Warum ist das Offline-KI-Modell für Deutsch nicht verfügbar?

Aktuell verfügbare offene KI-Stimm-Modelle, die unter freier Lizenz im Browser laufen, decken nur Englisch in mehreren Dialekten ab. Für Deutsch bleibt die Browser-Sprachausgabe die schnellste und qualitativ akzeptable Wahl. Sobald ein vergleichbares freies Modell für Deutsch erscheint, ergänzen wir es hier.

Geht mein Text bei der Browser-Sprachausgabe an einen Server?

Möglicherweise. Chrome und Edge schicken den Text bei einigen System-Stimmen an Google bzw. Microsoft, um ihn synthetisieren zu lassen. Firefox und Safari nutzen lokale System-Stimmen, schicken also nichts. Die genaue Implementierung hängt vom Browser und Betriebssystem ab. Wenn du sicher gehen willst, dass nichts dein Gerät verlässt: das lokale KI-Modell wählen (nur für Englisch verfügbar).

Wie groß ist das KI-Modell?

Rund 92 MB. Es wird beim ersten Aufruf einmalig in den Browser-Cache geladen und steht danach offline bereit. Du brauchst es nur einmal herunterzuladen, danach läuft die Sprachausgabe ohne Internet.

Welche Sprachen unterstützt die Browser-Sprachausgabe?

Das hängt von deinem Betriebssystem ab. Windows, macOS, iOS und Android bringen typischerweise Deutsch, Englisch, Französisch, Spanisch, Italienisch und weitere Sprachen mit. Im Sprach-Dropdown siehst du alle Stimmen, die dein System anbietet — je System unterschiedlich.

Wie lang darf der Text sein?

Bis zu 50.000 Zeichen pro Vorgang. Lange Texte werden automatisch an Satz-Grenzen aufgeteilt und nacheinander vorgelesen — beim Audio-Player merkst du davon nichts. Für extrem lange Texte (mehrere Bücher) empfiehlt sich das Aufteilen in einzelne Kapitel.

Kann ich Pausen einfügen?

Ja. Schreibe `[pause 500ms]` an die gewünschte Stelle im Text — das Tool legt dort eine 500-Millisekunden-Pause ein. Werte zwischen 50 und 5.000 Millisekunden funktionieren. Praktisch für Vorlesetexte, Hörbuch-Drafts oder Präsentations-Aufnahmen mit gezielten Atempausen.

In welchen Formaten kann ich das Audio herunterladen?

MP3 (gespeichert mit ID3-Tag-Wasserzeichen gemäß EU-KI-Verordnung Art. 50) oder unkomprimiert als WAV. MP3 reicht für die meisten Anwendungen und ist deutlich kleiner. Der Download steht nur für die Offline-KI-Engine zur Verfügung — die Browser-Sprachausgabe lässt sich technisch nicht zuverlässig in eine Datei aufzeichnen.

Ist das Tool kostenlos und für kommerzielle Nutzung erlaubt?

Ja. Das Tool selbst ist quelloffen und kostenlos. Das erzeugte Audio darfst du frei verwenden — privat oder kommerziell. Bei der Offline-KI-Engine bedenke jedoch: Die KI-generierte Stimme muss laut EU-KI-Verordnung Art. 50 als KI-generiert kenntlich gemacht werden, das ID3-Wasserzeichen erfüllt diese Pflicht maschinenlesbar.

Text zu Sprache — Vorlesen im Browser, kostenlos

Was ist Text-zu-Sprache und warum lokal im Browser?

Text-zu-Sprache (Sprachsynthese) wandelt geschriebene Sätze in gesprochenes Audio um. Standard-Anwendungen reichen von Hörbüchern und Vorlese-Funktionen für Sehbehinderte bis hin zu Voice-Over für Videos, Audio-Newsletter und das Korrekturlesen langer Texte per Gehör.

Klassisch laufen solche Dienste in der Cloud: Du schickst deinen Text an einen externen Server, der Server schickt eine Audio-Datei zurück. Bei längeren oder vertraulichen Texten ist das problematisch — die Inhalte werden gespeichert, kommerziell ausgewertet oder per DSGVO auftragsverarbeitungs-pflichtig.

Dieses Tool dreht den Spieß um: Die Sprachausgabe läuft direkt in deinem Browser. Zwei Engines stehen zur Wahl, und der Engine-Schalter zeigt jederzeit transparent, welche Daten dein Gerät verlassen können.

Zwei Engines — welche passt wann?

Der Hybrid-Aufbau ist die zentrale Designentscheidung. Beide Engines haben Stärken und Schwächen, beide werden über denselben Schalter erreichbar:

Engine	Verfügbarkeit	Privatsphäre	Stimm-Qualität	Modell-Download
Schnell & online	Alle Sprachen des Systems	Eventuell Cloud-Roundtrip	Hängt vom System ab	0 MB
Privat & offline (KI)	Nur Englisch	100% lokal nach Download	Sehr natürlich	~92 MB einmalig

Die Browser-Sprachausgabe ist überall sofort verfügbar — Windows, macOS, iOS, Android und Linux bringen System-Stimmen mit. Die Qualität schwankt je nach Plattform stark: Apple-Geräte haben sehr gute Stimmen, Windows ist solide, Android variiert stark zwischen den Herstellern.

Das Offline-KI-Modell liefert die natürlichste Aussprache und läuft nach dem einmaligen Download ohne jegliche Internet-Verbindung. Der Nachteil: Es deckt nur amerikanisches und britisches Englisch ab. Für deutschsprachige Texte bleibt die Browser-Sprachausgabe also der praktikable Weg.

Wann eignet sich die Browser-Sprachausgabe?

Browser-basierte Sprachausgabe ist erste Wahl für:

Schnelles Korrekturlesen. Lass dir deinen Blog-Entwurf oder Aufsatz vorlesen — schlechte Satzstruktur fällt beim Hören sofort auf.
Sehbehinderten-Unterstützung. Auf langen Texten ad-hoc, ohne extra Software installieren zu müssen.
Sprachenlernen. Höre dir die korrekte Aussprache deutscher Sätze in unterschiedlichen System-Stimmen an.
Schnelle Audio-Drafts. Erster Eindruck einer geplanten Voice-Over-Aufnahme, bevor du ein Studio buchst.

Achte auf den Hinweis oberhalb der Engine-Auswahl: Bei Chrome und Edge können bestimmte System-Stimmen den Text an Google bzw. Microsoft schicken, um ihn dort zu synthetisieren. Firefox und Safari arbeiten ausschließlich mit lokalen System-Stimmen, schicken also nichts. Wenn du Vertraulichkeit brauchst, nutze die Offline-KI-Engine (Englisch) oder einen Browser, der nur lokale Stimmen verwendet.

Wie funktionieren Pausen-Marker?

Geht es um vorgelesene Hörbücher, Tutorial-Voice-Overs oder Präsentations-Aufnahmen, brauchst du gezielte Atempausen. Schreibe dazu einfach im Text:

Heute sprechen wir über Datenschutz. [pause 800ms] Das geht alle an.

Der Marker [pause 500ms] legt eine 500-Millisekunden-Pause an dieser Stelle ein. Erlaubte Werte: 50 bis 5.000 Millisekunden. Marker außerhalb des Bereichs werden auf die nächstmögliche Grenze geschnitten — das verhindert versehentliche Mehrsekunden-Lücken durch Tippfehler.

Bei der Browser-Sprachausgabe werden die Pausen als zwei getrennte Sätze mit setTimeout zwischendurch realisiert. Bei der Offline-KI-Engine werden die Pausen als reine Stille direkt in den Audio-Stream eingefügt.

Was bedeutet das EU-KI-Verordnungs-Wasserzeichen?

Seit August 2026 verlangt Artikel 50 der EU-KI-Verordnung, dass KI-generierte Audio-, Video- und Text-Inhalte als solche kenntlich gemacht werden. Für Sprachsynthese heißt das: Wer KI-erzeugte Stimmen veröffentlicht (Podcast, Werbung, Hörbuch), muss das transparent machen.

Dieses Tool erfüllt die Pflicht zweistufig:

Sichtbar im UI — über dem Audio-Player steht der Hinweis „KI-generiert”.
Maschinenlesbar in der Datei — beim MP3-Download bettet das Tool ein ID3-Tag im Untertitel-Feld ein, das die Engine und Stimme dokumentiert. Plattformen können das Tag automatisch auslesen und entsprechende Hinweise anzeigen.

Diese Markierung darfst du nicht entfernen, wenn du das Audio veröffentlichst — Artikel 50 §4 schreibt sie für KI-generiertes Sprach-Material vor.

Welche Tipps verbessern das Ergebnis?

Punktiere klar. Punkte, Kommas, Doppelpunkte und Gedankenstriche steuern die natürliche Sprachmelodie. Schlampige Punktierung führt zu Monoton-Sprechen.
Abkürzungen ausschreiben. „z.B.” spricht der Browser eher als „zett be” denn als „zum Beispiel”. Schreib im Vorlese-Text die Vollform.
Zahlen behutsam einsetzen. „1.500” wird oft als „eins-Punkt-fünfhundert” interpretiert. Schreibe lange Zahlen als Wörter, wenn die Sprachausgabe sie sonst zerstückelt.
Anführungszeichen sind problematisch. Manche Stimmen lesen das Zeichen wörtlich vor. Wenn du Zitate brauchst, kennzeichne sie textuell — etwa mit „Zitat Anfang … Zitat Ende”.
Tempo anpassen. Hörbuch-Stimmen klingen bei 0,9× natürlicher, Erklär-Video-Voice-Overs profitieren von 1,1×. Probiere drei Tempi durch.

Wann lohnt sich die Offline-KI-Engine?

Wenn du englische Texte sehr natürlich vorgelesen brauchst und das Audio vielleicht sogar veröffentlichen willst, ist die Offline-KI-Engine deutlich überzeugender als die Browser-Sprachausgabe. Der Klang erinnert an menschliche Aufnahmen, die einzelnen Stimmen tragen unterscheidbare Charakteristika.

Praktische Einsatzfälle:

Englische Voice-Over für Tutorials. Du brauchst kein Studio, keine Sprecher-Aufnahme — pack das Skript in das Tool, wähle eine Stimme, lade das MP3 herunter und montiere es in deinen Video-Editor.

Hörbuch-Drafts für Eigenpublikationen. Bevor du in eine echte Aufnahme investierst, prüfe Textfluss und Aussprache mit der KI-Stimme. Spart teure Studio-Stunden für Skript-Anpassungen.

Sprachenlernen für deutsche Muttersprachler. Englische Texte (Vokabel-Listen, Übungssätze, Lehrtexte) mit konsistent natürlicher Aussprache in mehreren Stimmen anhören.

Barrierefreie Veröffentlichungen. Erstelle MP3-Versionen englischer Blog-Texte für blinde Leser — vollständig DSGVO-konform, weil weder dein Text noch das Audio jemals dein Gerät verlässt.

Welche Tools passen dazu?

Aus dem kittokit-Ökosystem zum Sprach-Workflow:

Audio-Transkription — Der umgekehrte Weg: Audio zu Text, mehrsprachig (Deutsch, Englisch, Französisch, Spanisch).
Schnell-Transkription EN — Wer englische Aufnahmen blitzschnell in Text umwandeln will: spezialisiertes Modell, bis zu 6× schneller als das mehrsprachige.
Sprache verbessern — Wenn du eigene Aufnahmen hast und Rauschen, Echo oder Hintergrundgeräusche loswerden willst.

Text zu Sprache — Vorlesen im Browser

So funktioniert es

Text einfügen

Engine, Stimme und Tempo wählen

Vorlesen lassen oder herunterladen

Datenschutz

Wie benutzt du dieses Tool?