Zum Inhalt springen
Läuft lokal · kein Upload

Text zu Sprache — Vorlesen im Browser

Geschriebener Text als gesprochene Stimme — sofort, im Browser, ohne Account.

Hinweis zur Browser-Sprachausgabe: Manche Browser (Chrome, Edge) schicken den Text bei bestimmten System-Stimmen an Google oder Microsoft, um ihn dort synthetisieren zu lassen. Wenn du sicher gehen willst, dass nichts dein Gerät verlässt: das lokale KI-Modell wählen (nur für Englisch).
Hinweis zur deutschen Sprachausgabe: Auf Deutsch ist aktuell nur die schnelle Browser-Sprachausgabe verfügbar. Das lokale KI-Modell unterstützt aktuell nur Englisch.
0 / 50.000

Tipp: Schreibe `[pause 500ms]` an die gewünschte Stelle, um eine harte Pause einzufügen (50–5000 ms).

So funktioniert es

  1. 01

    Text einfügen

    Tippe den Text oder füge ihn aus der Zwischenablage in das Eingabefeld ein. Bis zu 50.000 Zeichen funktionieren.

  2. 02

    Engine, Stimme und Tempo wählen

    Für Deutsch ist die Browser-Sprachausgabe voreingestellt. Im Drop-down wählst du eine System-Stimme; mit dem Schieberegler regelst du das Tempo zwischen 0,5× und 2,0×.

  3. 03

    Vorlesen lassen oder herunterladen

    Browser-Sprachausgabe spielt sofort ab; bei der Offline-KI-Engine bekommst du einen Audio-Player und kannst MP3 oder WAV herunterladen.

Datenschutz

Bei der Offline-KI-Engine bleibt alles lokal — kein Server-Kontakt nach dem einmaligen Modell-Download. Die Browser-Sprachausgabe nutzt dagegen System-Stimmen, die je nach Browser und Betriebssystem Text an Google oder Microsoft schicken können. Diese Entscheidung triffst du oben über den Engine-Schalter.

Wer Texte vorlesen lassen will, landet sonst bei Cloud-Diensten mit Anmeldung, Limit pro Tag und Tracking. Hier wirfst du den Text rein und der Browser spricht ihn aus — sofort, ohne Konto, ohne Limit. Für Deutsch greift die schnelle Browser-Sprachausgabe, die jedes moderne System mitbringt. Für englischsprachige Texte gibt es zusätzlich ein lokales KI-Modell, das vollständig offline und ohne Cloud-Verbindung arbeitet.

01 — Anleitung

Wie benutzt du dieses Tool?

  1. Tippe oder füge deinen Text in das Eingabefeld ein — bis zu 50.000 Zeichen.
  2. Wähle die Engine: ‚Schnell & online‘ nutzt die Browser-Sprachausgabe; ‚Privat & offline‘ ist nur für englische Texte verfügbar.
  3. Wähle eine Stimme und das Sprechtempo (0,5× bis 2,0×).
  4. Klicke ‚Vorlesen starten‘. Bei der Browser-Sprachausgabe hörst du das Ergebnis sofort; bei der Offline-Engine erscheint ein Audio-Player und MP3-Download.
  5. Für lange Texte: Einzelne harte Pausen lassen sich per `[pause 500ms]`-Marker im Text einfügen.

Was ist Text-zu-Sprache und warum lokal im Browser?

Text-zu-Sprache (Sprachsynthese) wandelt geschriebene Sätze in gesprochenes Audio um. Standard-Anwendungen reichen von Hörbüchern und Vorlese-Funktionen für Sehbehinderte bis hin zu Voice-Over für Videos, Audio-Newsletter und das Korrekturlesen langer Texte per Gehör.

Klassisch laufen solche Dienste in der Cloud: Du schickst deinen Text an einen externen Server, der Server schickt eine Audio-Datei zurück. Bei längeren oder vertraulichen Texten ist das problematisch — die Inhalte werden gespeichert, kommerziell ausgewertet oder per DSGVO auftragsverarbeitungs-pflichtig.

Dieses Tool dreht den Spieß um: Die Sprachausgabe läuft direkt in deinem Browser. Zwei Engines stehen zur Wahl, und der Engine-Schalter zeigt jederzeit transparent, welche Daten dein Gerät verlassen können.

Zwei Engines — welche passt wann?

Der Hybrid-Aufbau ist die zentrale Designentscheidung. Beide Engines haben Stärken und Schwächen, beide werden über denselben Schalter erreichbar:

EngineVerfügbarkeitPrivatsphäreStimm-QualitätModell-Download
Schnell & onlineAlle Sprachen des SystemsEventuell Cloud-RoundtripHängt vom System ab0 MB
Privat & offline (KI)Nur Englisch100% lokal nach DownloadSehr natürlich~92 MB einmalig

Die Browser-Sprachausgabe ist überall sofort verfügbar — Windows, macOS, iOS, Android und Linux bringen System-Stimmen mit. Die Qualität schwankt je nach Plattform stark: Apple-Geräte haben sehr gute Stimmen, Windows ist solide, Android variiert stark zwischen den Herstellern.

Das Offline-KI-Modell liefert die natürlichste Aussprache und läuft nach dem einmaligen Download ohne jegliche Internet-Verbindung. Der Nachteil: Es deckt nur amerikanisches und britisches Englisch ab. Für deutschsprachige Texte bleibt die Browser-Sprachausgabe also der praktikable Weg.

Wann eignet sich die Browser-Sprachausgabe?

Browser-basierte Sprachausgabe ist erste Wahl für:

  • Schnelles Korrekturlesen. Lass dir deinen Blog-Entwurf oder Aufsatz vorlesen — schlechte Satzstruktur fällt beim Hören sofort auf.
  • Sehbehinderten-Unterstützung. Auf langen Texten ad-hoc, ohne extra Software installieren zu müssen.
  • Sprachenlernen. Höre dir die korrekte Aussprache deutscher Sätze in unterschiedlichen System-Stimmen an.
  • Schnelle Audio-Drafts. Erster Eindruck einer geplanten Voice-Over-Aufnahme, bevor du ein Studio buchst.

Achte auf den Hinweis oberhalb der Engine-Auswahl: Bei Chrome und Edge können bestimmte System-Stimmen den Text an Google bzw. Microsoft schicken, um ihn dort zu synthetisieren. Firefox und Safari arbeiten ausschließlich mit lokalen System-Stimmen, schicken also nichts. Wenn du Vertraulichkeit brauchst, nutze die Offline-KI-Engine (Englisch) oder einen Browser, der nur lokale Stimmen verwendet.

Wie funktionieren Pausen-Marker?

Geht es um vorgelesene Hörbücher, Tutorial-Voice-Overs oder Präsentations-Aufnahmen, brauchst du gezielte Atempausen. Schreibe dazu einfach im Text:

Heute sprechen wir über Datenschutz. [pause 800ms] Das geht alle an.

Der Marker [pause 500ms] legt eine 500-Millisekunden-Pause an dieser Stelle ein. Erlaubte Werte: 50 bis 5.000 Millisekunden. Marker außerhalb des Bereichs werden auf die nächstmögliche Grenze geschnitten — das verhindert versehentliche Mehrsekunden-Lücken durch Tippfehler.

Bei der Browser-Sprachausgabe werden die Pausen als zwei getrennte Sätze mit setTimeout zwischendurch realisiert. Bei der Offline-KI-Engine werden die Pausen als reine Stille direkt in den Audio-Stream eingefügt.

Was bedeutet das EU-KI-Verordnungs-Wasserzeichen?

Seit August 2026 verlangt Artikel 50 der EU-KI-Verordnung, dass KI-generierte Audio-, Video- und Text-Inhalte als solche kenntlich gemacht werden. Für Sprachsynthese heißt das: Wer KI-erzeugte Stimmen veröffentlicht (Podcast, Werbung, Hörbuch), muss das transparent machen.

Dieses Tool erfüllt die Pflicht zweistufig:

  1. Sichtbar im UI — über dem Audio-Player steht der Hinweis „KI-generiert”.
  2. Maschinenlesbar in der Datei — beim MP3-Download bettet das Tool ein ID3-Tag im Untertitel-Feld ein, das die Engine und Stimme dokumentiert. Plattformen können das Tag automatisch auslesen und entsprechende Hinweise anzeigen.

Diese Markierung darfst du nicht entfernen, wenn du das Audio veröffentlichst — Artikel 50 §4 schreibt sie für KI-generiertes Sprach-Material vor.

Welche Tipps verbessern das Ergebnis?

  • Punktiere klar. Punkte, Kommas, Doppelpunkte und Gedankenstriche steuern die natürliche Sprachmelodie. Schlampige Punktierung führt zu Monoton-Sprechen.
  • Abkürzungen ausschreiben. „z.B.” spricht der Browser eher als „zett be” denn als „zum Beispiel”. Schreib im Vorlese-Text die Vollform.
  • Zahlen behutsam einsetzen. „1.500” wird oft als „eins-Punkt-fünfhundert” interpretiert. Schreibe lange Zahlen als Wörter, wenn die Sprachausgabe sie sonst zerstückelt.
  • Anführungszeichen sind problematisch. Manche Stimmen lesen das Zeichen wörtlich vor. Wenn du Zitate brauchst, kennzeichne sie textuell — etwa mit „Zitat Anfang … Zitat Ende”.
  • Tempo anpassen. Hörbuch-Stimmen klingen bei 0,9× natürlicher, Erklär-Video-Voice-Overs profitieren von 1,1×. Probiere drei Tempi durch.

Wann lohnt sich die Offline-KI-Engine?

Wenn du englische Texte sehr natürlich vorgelesen brauchst und das Audio vielleicht sogar veröffentlichen willst, ist die Offline-KI-Engine deutlich überzeugender als die Browser-Sprachausgabe. Der Klang erinnert an menschliche Aufnahmen, die einzelnen Stimmen tragen unterscheidbare Charakteristika.

Praktische Einsatzfälle:

Englische Voice-Over für Tutorials. Du brauchst kein Studio, keine Sprecher-Aufnahme — pack das Skript in das Tool, wähle eine Stimme, lade das MP3 herunter und montiere es in deinen Video-Editor.

Hörbuch-Drafts für Eigenpublikationen. Bevor du in eine echte Aufnahme investierst, prüfe Textfluss und Aussprache mit der KI-Stimme. Spart teure Studio-Stunden für Skript-Anpassungen.

Sprachenlernen für deutsche Muttersprachler. Englische Texte (Vokabel-Listen, Übungssätze, Lehrtexte) mit konsistent natürlicher Aussprache in mehreren Stimmen anhören.

Barrierefreie Veröffentlichungen. Erstelle MP3-Versionen englischer Blog-Texte für blinde Leser — vollständig DSGVO-konform, weil weder dein Text noch das Audio jemals dein Gerät verlässt.

Welche Tools passen dazu?

Aus dem kittokit-Ökosystem zum Sprach-Workflow:

  • Audio-Transkription — Der umgekehrte Weg: Audio zu Text, mehrsprachig (Deutsch, Englisch, Französisch, Spanisch).
  • Schnell-Transkription EN — Wer englische Aufnahmen blitzschnell in Text umwandeln will: spezialisiertes Modell, bis zu 6× schneller als das mehrsprachige.
  • Sprache verbessern — Wenn du eigene Aufnahmen hast und Rauschen, Echo oder Hintergrundgeräusche loswerden willst.

Zuletzt aktualisiert:

Das könnte dir auch gefallen