← Zurück zu Quick TTS

Die besten deutschen TTS-Stimmen 2026: Hedda, Thorsten & Edge Online im Vergleich

Wer 2026 nach einer wirklich gut klingenden deutschen Text-to-Speech-Stimme sucht, muss zwischen drei Welten wählen: den alten SAPI-Klassikern, die jeder Windows-Rechner hat; den neuronalen Online-Stimmen von Edge; und der wachsenden Piper-Familie um Thorsten. Eine vierte Welt — Kokoro — kann derzeit noch kein Deutsch. Dieser Artikel ordnet ein, was du wann nehmen solltest.

Was sich 2026 geändert hat

Drei Verschiebungen sind für deutschsprachige Hörer relevant. Erstens: Microsoft hat die Edge-Online-Stimmen (Azure Neural) auf inzwischen 19 deutsche Varianten ausgebaut — Deutschland, Österreich, Schweiz — und sie klingen, ehrlich gesagt, besser als die meisten kostenpflichtigen TTS-Anbieter vor zwei Jahren. Zweitens: die Piper-Community hat das Thorsten-Korpus auf low/medium/high-Qualitätsstufen ausgefahren und mit thorsten_emotional-medium sogar Emotionsmarker im Text ergänzt — ein offline lauffähiges Feature, das es sonst nirgends frei gibt. Drittens, und das ist die schlechte Nachricht: Kokoro-82M, das aktuell beste freie englische Modell, kann noch kein Deutsch. Wer Kokoro-Qualität auf Deutsch will, muss aktuell warten oder sich mit Piper Thorsten high begnügen — was näher dran ist, als die meisten denken.

Microsoft Hedda und die alte Garde

Wer ein Windows-System älter als Windows 11 22H2 nutzt oder unter Chrome arbeitet (das die Edge-Online-Stimmen nicht durchreicht), bekommt die SAPI-Klassiker zu hören:

Die SAPI-Stimmen haben einen sinnvollen Anwendungsfall: sofortige Wiedergabe ohne Modell-Download, ohne GPU, ohne Internet — also Bedienungshilfen, kurze Bestätigungen, Push-Vorlesen aus einer Webview. Für Lese-Sessions länger als zwei, drei Sätze sind die neueren Optionen schlicht überlegen.

Edge Online: Katja, Conrad, Amala und 16 weitere

Die mit Abstand größte Auswahl an freien deutschen Neural-Stimmen kommt aus Microsofts Azure-Cloud, ausgeliefert über den Edge-Browser. Insgesamt 19 Varianten, davon 15 für Deutschland, 2 für Österreich und 2 für die Schweiz:

Persönliche Top 3 für allgemeines Vorlesen: Amala Online für Erzähltexte, Conrad Online für Nachrichten und Sachtexte, Klaus Online wenn die Stimme richtig autoritär klingen soll. Die Edge-Online-Stimmen funktionieren nur in Microsoft Edge und benötigen eine Internetverbindung — der Synthese-Aufruf läuft live gegen Azure. Für Datenschutz-sensible Texte ist das ein Tradeoff: hervorragende Qualität, aber dein Text geht durch die Microsoft-Cloud. Wenn das ein Problem ist, ist Piper unten die richtige Antwort.

Apple Anna, Helena, Markus

Auf macOS und iOS bekommt man eine kuratierte, kleinere Auswahl deutscher Stimmen, die alle in der Voreinstellung „Premium" als Sprachpaket nachladbar sind:

Apple-Stimmen sind via Web Speech in jedem Browser auf dem Gerät verfügbar — Safari, Chrome, Firefox. Im Gegensatz zu Edge Online wird hier nichts an die Cloud gesendet, die Synthese läuft komplett lokal mit dem nachgeladenen Sprachpaket. Wer auf einem Mac sitzt und Datenschutz priorisiert: Helena oder Markus sind die beste Mischung aus Qualität und lokaler Verarbeitung, die du ohne weiteren Setup-Aufwand bekommst.

Piper Thorsten — die beste freie deutsche neuronale Stimme

Wer offline arbeitet, Datenschutz zur Priorität macht oder einfach die freieste, transparenteste Lösung will, kommt 2026 um Piper nicht herum. Die Piper-Modelle laufen als WebAssembly im Browser, einmal ~60 MB heruntergeladen, danach komplett offline. Bei Quick TTS werden sie über die Engine-Auswahl aktiviert.

Das Highlight des deutschen Piper-Katalogs ist die Thorsten-Familie:

Daneben lohnen sich aus dem deutschen Piper-Katalog:

Praxis-Tipp: Wenn du nicht weißt, welches du nehmen sollst, lade de_DE-thorsten-medium und bleib dabei. Wenn du ein langes Hörbuch produzierst, lade einmal de_DE-thorsten-high und nimm die längere Cold-Start-Zeit in Kauf.

Was Kokoro nicht kann

Ehrlich: Kokoro-82M, das aktuell beeindruckendste freie offene Neural-TTS-Modell, hat 2026 noch keinen deutschen Sprachsatz. Die offizielle VOICES.md listet Englisch (US/UK), Spanisch, Portugiesisch, Französisch, Italienisch, Hindi, Mandarin und Japanisch — aber kein Deutsch. Es gibt Community-Versuche, ein deutsches Voicepack zu trainieren, aber bis dato nichts produktionsreifes.

Das heißt für deutsche Hörer: aktuell ist Piper Thorsten high das Maximum an freier neuronaler Qualität, das du für Deutsch im Browser bekommst. Wenn Kokoro deutsche Stimmen bekommt, wird sich diese Empfehlung verschieben. Bis dahin: Edge Online für maximale Qualität mit Cloud-Tradeoff, Piper Thorsten für maximale Qualität offline.

Welche solltest du wählen?

Eine kurze Entscheidungsmatrix, gegliedert nach Anwendungsfall:

Selbst hören

Öffne Quick TTS, füge einen deutschen Absatz ein und schalte zwischen Browser-TTS, Piper und (für andere Sprachen) Kokoro um. Du kannst die Stimme auch mitten im Vorlesen wechseln — die jeweils aktive Engine merkt, wo sie war, und übergibt den Rest an die neue Stimme. Das ist die einzige seriöse Art, deutsche TTS-Stimmen zu vergleichen: gleicher Text, gleiches Gerät, gleiche Lautstärke, drei Engines hintereinander.

Mehr Hintergrund findest du im Anwendungs-Guide (neun Anwendungsfälle für TTS), in der FAQ (Antworten auf typische Fragen) und auf der Über-Seite, die erklärt, warum Quick TTS lokal arbeitet und keinen Text an Server schickt.