← Retour à Quick TTS

Les meilleures voix TTS françaises 2026 : Hortense, Thomas et Edge Online comparées

Choisir une voix de synthèse vocale française en 2026 n'est plus le compromis qu'on a connu pendant quinze ans. Entre les voix neuronales d'Edge Online, le corpus Thomas/Aurélie d'Apple, la famille Piper et Kokoro qui vient d'arriver, l'écosystème français est devenu honnêtement compétitif. Cet article fait le tri par cas d'usage, sans gonfler le palmarès et sans cacher les manques.

L'écosystème TTS français en 2026

Trois constats orientent les choix actuels. Premièrement, les voix SAPI classiques (Hortense, Julie, Paul) restent partout sur Windows mais n'ont pas vraiment évolué depuis Windows 7 — elles servent surtout pour des messages courts et l'accessibilité hors ligne. Deuxièmement, Edge Online a élargi son catalogue à 11 voix françaises neuronales (4 France, 3 Québec, 2 Belgique, 2 Suisse), qui rivalisent avec les meilleures voix payantes d'il y a deux ans. Troisièmement, Piper offre désormais sept voix françaises hors ligne, dont fr_FR-tom-medium et fr_FR-siwis-medium tiennent largement la route pour de la lecture longue. Kokoro, pour sa part, ne propose qu'une seule voix française (ff_siwis) — c'est la lacune la plus claire à ce jour.

Microsoft Hortense, Julie, Paul : les voix classiques de Windows

Sur tout Windows 10/11, indépendamment du navigateur, trois voix SAPI françaises sont toujours disponibles :

Le bon usage de ces voix en 2026 : alertes courtes, accessibilité de base, environnements sans Internet. Elles s'allument instantanément, ne demandent aucun téléchargement de modèle, ne sollicitent ni GPU ni cloud. Pour tout ce qui dépasse trois phrases, les options ci-dessous sont meilleures.

Edge Online : Denise, Henri, Vivienne et 8 autres voix neurales

Le catalogue Azure Neural exposé via le navigateur Edge propose actuellement 11 voix françaises, réparties entre quatre variantes nationales :

France métropolitaine (4 voix) :

Canada (Québec, 3 voix) :

Belgique (2 voix) :

Suisse (2 voix) :

Top 3 personnel pour le français de France : Denise Online en défaut, Henri Online pour la voix masculine, Vivienne Online comme alternative quand Denise commence à se reconnaître. Limitation à connaître : ces voix fonctionnent uniquement dans Microsoft Edge et exigent une connexion Internet — la synthèse passe par Azure. Pour des textes confidentiels (RGPD, données médicales), Piper hors ligne est plus adapté.

Apple Thomas, Aurélie, Daniel : les voix Siri

Sur macOS et iOS, le catalogue français est plus restreint mais la qualité locale est élevée :

Apple est aussi le seul fournisseur OS à proposer un français canadien intégré : Amélie (féminine, par défaut au Québec) et Chantal (alternative féminine québécoise). Sur un Mac configuré en français canadien, ces voix s'exposent automatiquement via Web Speech dans tous les navigateurs.

Compromis Apple favorable : qualité quasi-Edge Online, mais sans envoi de texte vers le cloud. Pour des utilisateurs iPhone/Mac soucieux de confidentialité, Thomas Premium ou Aurélie sont le bon point d'équilibre.

Français canadien : Gabriel, Sylvie, Antoine, Jean Online

Le français du Québec est le parent pauvre de la plupart des catalogues, mais Quick TTS rassemble en pratique tout ce qui existe d'utilisable :

Limitation importante : ni Piper ni Kokoro ne proposent de voix française canadienne. Pour du fr-CA hors ligne, l'option la plus propre reste Apple Amélie sur macOS/iOS. Sur Windows hors ligne, c'est Caroline SAPI ou rien.

Piper en français : tom, siwis, upmc, gilles, mls

Pour de la synthèse française neuronale hors ligne, Piper est le bon choix. Les modèles tournent en WebAssembly dans le navigateur, ~60 Mo téléchargés une seule fois, puis fonctionnement totalement hors ligne :

Recommandation pratique : fr_FR-tom-medium en voix masculine par défaut, fr_FR-siwis-medium en voix féminine par défaut. Les deux suffisent pour 90 % des cas. Lacune réelle de Piper : pas de voix française canadienne.

Kokoro français : ff_siwis

Le modèle Kokoro-82M propose une seule voix française, ff_siwis, dérivée du même corpus SIWIS que la voix Piper du même nom. La qualité est légèrement supérieure à la version Piper grâce à l'architecture StyleTTS2, et l'exécution se fait via WebGPU sur la carte graphique (Chrome ou Edge desktop avec GPU récent), totalement en local.

Honnêteté oblige : pour le français, Kokoro n'apporte pas un avantage écrasant sur Piper. Une seule voix, féminine, issue du même corpus. Si vous voulez la pile WebGPU la plus moderne et n'avez pas besoin d'une voix masculine ou québécoise, Kokoro ff_siwis vaut l'essai. Sinon, Piper offre plus de variété pour le français en 2026.

Quelle voix choisir ?

Décision rapide selon le cas d'usage :

À écouter

Ouvrez Quick TTS, collez un paragraphe en français et basculez entre le moteur du navigateur (Edge Online ou Apple), Piper et Kokoro sur le même texte. Vous pouvez même changer de voix au milieu de la lecture — Quick TTS reprend là où la voix précédente s'est arrêtée. C'est la seule manière sérieuse de comparer les voix françaises : votre oreille tranchera mieux qu'un classement écrit, parce qu'un texte journalistique favorise Henri Online, un récit favorise Denise ou tom-medium, un dialogue québécois favorise Sylvie.

Pour aller plus loin, le guide d'utilisation détaille neuf cas pratiques de la synthèse vocale, la FAQ répond aux questions courantes, et la page À propos explique pourquoi Quick TTS exécute toute la synthèse localement (point clé pour la conformité RGPD).