← Torna a Quick TTS

Chi siamo

Quick TTS esiste perché ogni altro strumento gratuito di sintesi vocale o ti blocca a 1.000 parole, o ti costringe a registrarti, o cerca di spingerti verso un abbonamento. Questo no.

Cos'è

Quick TTS è una web app a pagina singola che prende il testo che incolli e lo legge a voce alta dentro al tuo browser. Niente account. Niente limite di caratteri. Niente filigrana. Niente "passa alla versione superiore per continuare". Solo una casella di testo, un pulsante play e una voce.

Sotto il cofano convivono due motori vocali:

La voce integrata del tuo browser (l'API Web Speech), che funziona ovunque: desktop, mobile e perfino, nei casi disperati, su sistemi più vecchi.
AI Voice, un modello TTS neurale opzionale chiamato Kokoro che gira sulla tua GPU tramite WebGPU per una lettura nettamente più naturale. Per ora solo su Chrome ed Edge desktop.

Perché è gratis

Mantenere il sito costa più o meno quanto un caffè al mese (hosting statico su Firebase, registrazione del dominio e poco altro). Le inserzioni di Google AdSense coprono quel costo e — se la cosa decolla — col tempo anche una parte del tempo speso a costruirlo e mantenerlo.

Non è previsto alcun piano a pagamento. Non c'è nessuna "voce premium" chiusa dietro un paywall. AI Voice è gratuito per la stessa ragione per cui lo è la versione predefinita: gira sulla tua macchina, non sulla nostra, quindi offrirla non ci costa nulla.

Principi di progettazione

Qualche regola che cerchiamo di rispettare:

Il tuo testo resta sul tuo dispositivo. Tutta la sintesi avviene lato client. Non riceviamo mai il tuo testo e non lo riceveremo mai.
Niente registrazione. Nel momento in cui uno strumento ti chiede un account per un'interazione di 30 secondi, ha già fallito.
Niente dark pattern. Le inserzioni sono banner in posizioni fisse. Niente pop-under, niente interstitial, niente "aspetta 15 secondi prima che parta l'audio", niente finti pulsanti di download.
Trasparenza sui limiti. L'unica cosa che non si può sintetizzare è un testo troppo lungo perché il tuo browser lo tenga in memoria. Se qualcosa non funziona, il motivo è nelle FAQ.

Costruito su tecnologia aperta

Quick TTS non esisterebbe senza alcuni pezzi brillanti del mondo open source:

Kokoro-82M — il modello TTS neurale che alimenta l'opzione Kokoro HQ (Apache 2.0).
Piper di rhasspy — il motore TTS neurale universale che alimenta l'opzione Piper (MIT). Voci da rhasspy/piper-voices: distribuiamo un set selezionato sotto CC-BY 4.0 (LibriTTS-R, VCTK) e CC0 / pubblico dominio (Joe). I dettagli di licenza sono nel MODEL_CARD di ogni voce sul repository piper-voices.
Transformers.js — la libreria che permette di eseguire modelli ML nel browser.
vits-web — i binding WASM per i modelli della famiglia VITS che fanno girare Piper nei browser.
L'API Web Speech — integrata silenziosamente nei browser da oltre un decennio, ancora il cavallo da tiro di cui nessuno parla.

Chi c'è dietro

Quick TTS è stato costruito da un piccolo team di Next Now Agency come progetto gemello di WSBSynth, un lettore in tempo reale dei commenti di r/wallstreetbets. Buona parte dell'architettura TTS è condivisa tra i due: WSBSynth è stato il banco di prova, Quick TTS è la versione rivolta al pubblico generale.

Contatti

Bug, feedback, richieste di funzionalità, stampa: hello@quick-tts.com. Oppure dai un'occhiata alla pagina contatti per altri dettagli.