Die besten deutschen TTS-Stimmen 2026: Hedda, Thorsten & Edge Online im Vergleich

Veröffentlicht 10. Mai 2026

Wer 2026 nach einer wirklich gut klingenden deutschen Text-to-Speech-Stimme sucht, muss zwischen drei Welten wählen: den alten SAPI-Klassikern, die jeder Windows-Rechner hat; den neuronalen Online-Stimmen von Edge; und der wachsenden Piper-Familie um Thorsten. Eine vierte Welt — Kokoro — kann derzeit noch kein Deutsch. Dieser Artikel ordnet ein, was du wann nehmen solltest.

Was sich 2026 geändert hat

Drei Verschiebungen sind für deutschsprachige Hörer relevant. Erstens: Microsoft hat die Edge-Online-Stimmen (Azure Neural) auf inzwischen 19 deutsche Varianten ausgebaut — Deutschland, Österreich, Schweiz — und sie klingen, ehrlich gesagt, besser als die meisten kostenpflichtigen TTS-Anbieter vor zwei Jahren. Zweitens: die Piper-Community hat das Thorsten-Korpus auf low/medium/high-Qualitätsstufen ausgefahren und mit thorsten_emotional-medium sogar Emotionsmarker im Text ergänzt — ein offline lauffähiges Feature, das es sonst nirgends frei gibt. Drittens, und das ist die schlechte Nachricht: Kokoro-82M, das aktuell beste freie englische Modell, kann noch kein Deutsch. Wer Kokoro-Qualität auf Deutsch will, muss aktuell warten oder sich mit Piper Thorsten high begnügen — was näher dran ist, als die meisten denken.

Microsoft Hedda und die alte Garde

Wer ein Windows-System älter als Windows 11 22H2 nutzt oder unter Chrome arbeitet (das die Edge-Online-Stimmen nicht durchreicht), bekommt die SAPI-Klassiker zu hören:

Microsoft Hedda — die Standard-Frauenstimme, seit Windows 7 unverändert. Nüchtern, klar, leicht mechanisch. Für kurze Systemmeldungen brauchbar, für ein Hörbuch nicht.
Microsoft Stefan — das männliche Pendant zu Hedda. Etwas tieferer Frequenzgang, gleicher Charakter. Die Aussprache ist solide, die Prosodie flach.
Microsoft Katja (klassisch, nicht zu verwechseln mit der neueren Katja Online) — die zweite Frauenstimme aus der gleichen Generation. Etwas wärmer als Hedda, aber im selben Robotik-Bereich.
Microsoft Michael (de-AT) und Microsoft Karsten (de-CH) — österreichische und schweizerische SAPI-Stimmen. Wer für eine Zielgruppe in Wien oder Zürich produziert, wird sie kurz testen und dann doch zur Edge-Online-Variante greifen, weil der Akzent dort sauberer sitzt.

Die SAPI-Stimmen haben einen sinnvollen Anwendungsfall: sofortige Wiedergabe ohne Modell-Download, ohne GPU, ohne Internet — also Bedienungshilfen, kurze Bestätigungen, Push-Vorlesen aus einer Webview. Für Lese-Sessions länger als zwei, drei Sätze sind die neueren Optionen schlicht überlegen.

Edge Online: Katja, Conrad, Amala und 16 weitere

Die mit Abstand größte Auswahl an freien deutschen Neural-Stimmen kommt aus Microsofts Azure-Cloud, ausgeliefert über den Edge-Browser. Insgesamt 19 Varianten, davon 15 für Deutschland, 2 für Österreich und 2 für die Schweiz:

Microsoft Katja Online — die neue Standardstimme. Hellere Färbung als die alte Katja, deutlich natürlichere Satzmelodie. Erste Wahl für allgemeines Vorlesen.
Microsoft Conrad Online — die männliche Standard-Edge-Stimme. Trocken, klar, gut artikuliert. Nachrichtensprecher-Feeling.
Microsoft Amala Online — wärmer als Katja, leicht dunklere Färbung. Gut für Erzähltexte und längere Artikel.
Microsoft Bernd, Christoph, Kasper, Killian, Klaus, Ralf — sechs zusätzliche männliche Online-Stimmen. Bernd und Klaus sind die beiden „seriösesten" — geeignet für Sachtexte. Killian und Kasper haben mehr Energie, taugen für Marketing- und Werbe-Skripte. Ralf liegt dazwischen.
Microsoft Elke, Klarissa, Louisa, Maja, Tanja — fünf zusätzliche weibliche Stimmen. Maja ist die jugendlichste, Louisa die ruhigste, Tanja die professionellste.
Microsoft Gisela Online — eine Kinderstimme. Nützlich für Hörbücher mit kindlichen Erzählern, aber unbrauchbar für Erwachsenentexte.
Microsoft Ingrid Online und Jonas Online (de-AT) — die einzigen halbwegs natürlich klingenden österreichischen Neural-Stimmen, die kostenlos in einem Browser laufen.
Microsoft Leni Online und Jan Online (de-CH) — analog für Schweizerdeutsch (genauer: Schweizer Hochdeutsch — kein Dialekt).

Persönliche Top 3 für allgemeines Vorlesen: Amala Online für Erzähltexte, Conrad Online für Nachrichten und Sachtexte, Klaus Online wenn die Stimme richtig autoritär klingen soll. Die Edge-Online-Stimmen funktionieren nur in Microsoft Edge und benötigen eine Internetverbindung — der Synthese-Aufruf läuft live gegen Azure. Für Datenschutz-sensible Texte ist das ein Tradeoff: hervorragende Qualität, aber dein Text geht durch die Microsoft-Cloud. Wenn das ein Problem ist, ist Piper unten die richtige Antwort.

Apple Anna, Helena, Markus

Auf macOS und iOS bekommt man eine kuratierte, kleinere Auswahl deutscher Stimmen, die alle in der Voreinstellung „Premium" als Sprachpaket nachladbar sind:

Anna — die langjährige Standard-Stimme auf macOS und iOS. In der Premium-Variante deutlich wärmer als jede SAPI-Stimme; in der Standard-Variante eher mit den alten Microsoft-Stimmen vergleichbar.
Helena (Siri) — die modernere Siri-Frauenstimme. Eindeutig der Apple-Schritt in Richtung Neural. Sehr glatt, leicht generisch.
Markus (Siri) — das männliche Siri-Pendant. Gut für längere Lese-Sessions, weil die Prosodie über Sätze hinweg konsistent bleibt.
Petra (Enhanced) — eine ältere Premium-Stimme, weiblicher und etwas dunkler als Anna. Wer auf einem älteren macOS-System unterwegs ist, sollte sie ausprobieren.

Apple-Stimmen sind via Web Speech in jedem Browser auf dem Gerät verfügbar — Safari, Chrome, Firefox. Im Gegensatz zu Edge Online wird hier nichts an die Cloud gesendet, die Synthese läuft komplett lokal mit dem nachgeladenen Sprachpaket. Wer auf einem Mac sitzt und Datenschutz priorisiert: Helena oder Markus sind die beste Mischung aus Qualität und lokaler Verarbeitung, die du ohne weiteren Setup-Aufwand bekommst.

Piper Thorsten — die beste freie deutsche neuronale Stimme

Wer offline arbeitet, Datenschutz zur Priorität macht oder einfach die freieste, transparenteste Lösung will, kommt 2026 um Piper nicht herum. Die Piper-Modelle laufen als WebAssembly im Browser, einmal ~60 MB heruntergeladen, danach komplett offline. Bei Quick TTS werden sie über die Engine-Auswahl aktiviert.

Das Highlight des deutschen Piper-Katalogs ist die Thorsten-Familie:

de_DE-thorsten-low — kleinstes Modell, schnellste Inferenz. Klingt erkennbar synthetisch, aber sauber. Geeignet für Bestätigungen, Schaltflächentexte, kurze Vorlesungen.
de_DE-thorsten-medium — der vernünftige Default. Spürbar wärmer als die low-Variante, kaum längere Inferenzzeit. Für die meisten Anwendungsfälle die richtige Wahl.
de_DE-thorsten-high — das beste freie deutsche neuronale Vorlese-Modell, das es 2026 gibt. Größeres Modell, sauberere Konsonanten, weniger VITS-Artefakte auf langen Sätzen. Wenn du ein Kapitel durchhören willst und nichts dabei stört: das hier.
de_DE-thorsten_emotional-medium — eine Variante mit Emotionsmarkern. Du kannst im Text Tags wie Freude, Wut oder Langeweile einbetten, und die Synthese folgt. Das ist ein Forschungs-Feature, kein Produktions-Feature, aber für Hörspiele oder Charakter-Lesungen ungewöhnlich brauchbar.

Daneben lohnen sich aus dem deutschen Piper-Katalog:

de_DE-eva_k-x_low — die einzige weibliche deutsche Piper-Stimme. „x_low" heißt: kleines Modell, hörbare Synthese-Spuren. Brauchbar als Abwechslung zu Thorsten, wenn du eine Frauenstimme willst und Edge Online nicht in Frage kommt.
de_DE-karlsson-low, de_DE-kerstin-low, de_DE-ramona-low — drei kleinere Community-Stimmen. Karlsson hat eine etwas knurrigere Färbung, Kerstin ist die hellste, Ramona die ruhigste.
de_DE-pavoque-low — eine ältere Community-Stimme aus dem PAVOQUE-Korpus. Historisch interessant, qualitativ inzwischen überholt.
de_DE-mls-medium — aus dem Multilingual LibriSpeech-Korpus. Etwas neutraler, aber auch flacher als Thorsten.

Praxis-Tipp: Wenn du nicht weißt, welches du nehmen sollst, lade de_DE-thorsten-medium und bleib dabei. Wenn du ein langes Hörbuch produzierst, lade einmal de_DE-thorsten-high und nimm die längere Cold-Start-Zeit in Kauf.

Was Kokoro nicht kann

Ehrlich: Kokoro-82M, das aktuell beeindruckendste freie offene Neural-TTS-Modell, hat 2026 noch keinen deutschen Sprachsatz. Die offizielle VOICES.md listet Englisch (US/UK), Spanisch, Portugiesisch, Französisch, Italienisch, Hindi, Mandarin und Japanisch — aber kein Deutsch. Es gibt Community-Versuche, ein deutsches Voicepack zu trainieren, aber bis dato nichts produktionsreifes.

Das heißt für deutsche Hörer: aktuell ist Piper Thorsten high das Maximum an freier neuronaler Qualität, das du für Deutsch im Browser bekommst. Wenn Kokoro deutsche Stimmen bekommt, wird sich diese Empfehlung verschieben. Bis dahin: Edge Online für maximale Qualität mit Cloud-Tradeoff, Piper Thorsten für maximale Qualität offline.

Welche solltest du wählen?

Eine kurze Entscheidungsmatrix, gegliedert nach Anwendungsfall:

Kurze Texte vorlesen, Edge-Browser verfügbar: Edge Online — Katja Online oder Amala Online. Höchste Qualität, sofort spielbereit, kein Modell-Download.
Vertrauliche oder DSGVO-relevante Texte: Piper — de_DE-thorsten-medium oder thorsten-high. Läuft komplett offline, der Text verlässt dein Gerät nie.
Hörbuch oder langes Kapitel produzieren: Piper — de_DE-thorsten-high. Beste freie deutsche Vorlesequalität, gleichbleibend über Stunden.
Österreichisches oder Schweizer Hochdeutsch: Edge Online — Ingrid, Jonas (AT) bzw. Leni, Jan (CH). Piper hat keine AT-/CH-Stimmen, Apple/Microsoft SAPI sind die einzigen Alternativen.
Mac oder iPhone, „soll einfach funktionieren": Browser-TTS mit Helena oder Markus. Lokale Synthese, sofort.
Hörspiel oder Charakter-Vorlesung: Piper — de_DE-thorsten_emotional-medium. Einziges freies Modell mit Emotionsmarkern.
Linux ohne neuronale System-Stimmen: Piper — de_DE-thorsten-medium als sauberer Default.

Selbst hören

Öffne Quick TTS, füge einen deutschen Absatz ein und schalte zwischen Browser-TTS, Piper und (für andere Sprachen) Kokoro um. Du kannst die Stimme auch mitten im Vorlesen wechseln — die jeweils aktive Engine merkt, wo sie war, und übergibt den Rest an die neue Stimme. Das ist die einzige seriöse Art, deutsche TTS-Stimmen zu vergleichen: gleicher Text, gleiches Gerät, gleiche Lautstärke, drei Engines hintereinander.

Mehr Hintergrund findest du im Anwendungs-Guide (neun Anwendungsfälle für TTS), in der FAQ (Antworten auf typische Fragen) und auf der Über-Seite, die erklärt, warum Quick TTS lokal arbeitet und keinen Text an Server schickt.