← Quay lại Quick TTS

Giới thiệu

Quick TTS tồn tại vì hầu hết các công cụ chuyển văn bản thành giọng nói miễn phí khác hoặc giới hạn bạn ở 1.000 từ, hoặc bắt đăng ký, hoặc tìm cách dụ bạn mua gói trả phí. Ở đây thì không.

Đây là gì

Quick TTS là một ứng dụng web một trang, đọc to bất kỳ văn bản nào bạn dán vào, ngay trên trình duyệt. Không tài khoản. Không giới hạn ký tự. Không đóng dấu. Không "nâng cấp để tiếp tục". Chỉ có một ô văn bản, một nút phát và một giọng đọc.

Bên dưới có hai bộ máy giọng đọc:

Giọng tích hợp sẵn của trình duyệt (Web Speech API), hoạt động ở mọi nơi — máy tính, điện thoại, kể cả các hệ thống cũ.
AI Voice, một mô hình TTS thần kinh tên Kokoro, chạy trên GPU của bạn qua WebGPU để cho ra giọng đọc tự nhiên hơn rất nhiều. Hiện chỉ hỗ trợ Chrome / Edge trên máy tính.

Vì sao miễn phí

Vận hành site tốn khoảng giá một ly cà phê mỗi tháng (host tĩnh trên Firebase, đăng ký tên miền, không có gì thêm). Quảng cáo hiển thị từ Google AdSense bù được phần đó — và nếu lượng người dùng tăng, sẽ bù thêm một ít cho thời gian xây dựng và bảo trì.

Không có kế hoạch ra gói trả phí. Không có "giọng cao cấp" giấu sau tường phí. Tính năng AI Voice miễn phí cùng lý do với phần mặc định: nó chạy trên máy bạn, không phải máy của chúng tôi, nên không tốn thêm chi phí cho bên cung cấp.

Nguyên tắc thiết kế

Một vài nguyên tắc chúng tôi cố giữ:

Văn bản của bạn nằm yên trên thiết bị. Mọi tổng hợp đều xảy ra phía trình duyệt. Chúng tôi không nhận được văn bản của bạn và sẽ không bao giờ nhận.
Không đăng ký. Một công cụ đòi tài khoản chỉ để tương tác 30 giây — coi như đã thất bại.
Không cài cắm chiêu trò. Quảng cáo là dạng hiển thị ở các vị trí cố định. Không pop-under, không chèn ngang trang, không "đợi 15 giây mới phát được", không nút tải xuống giả.
Minh bạch về giới hạn. Thứ duy nhất không tổng hợp được là văn bản dài tới mức trình duyệt không đủ bộ nhớ giữ. Nếu có gì không chạy, lý do nằm ở FAQ.

Dựng trên công nghệ mở

Quick TTS sẽ không tồn tại nếu thiếu vài dự án mã nguồn mở xuất sắc:

Kokoro-82M — mô hình TTS thần kinh đứng sau lựa chọn Kokoro HQ (Apache 2.0).
Piper của rhasspy — TTS thần kinh đa năng đứng sau lựa chọn Piper (MIT). Mô hình giọng từ rhasspy/piper-voices: chúng tôi đóng gói một bộ giọng được tuyển theo CC-BY 4.0 (LibriTTS-R, VCTK) và CC0 / phạm vi công cộng (Joe). Chi tiết giấy phép xem MODEL_CARD của từng giọng trên repo piper-voices.
Transformers.js — thư viện cho phép mô hình ML chạy ngay trong trình duyệt.
vits-web — bản binding WASM cho dòng mô hình VITS, giúp Piper chạy được trong trình duyệt.
Web Speech API — đã âm thầm có mặt trong các trình duyệt hơn một thập kỷ, vẫn là chú ngựa thồ ít được nhắc tên.

Ai làm

Quick TTS được làm bởi một nhóm nhỏ tại Next Now Agency, như dự án em của WSBSynth, một công cụ đọc bình luận r/wallstreetbets theo thời gian thực. Phần lớn kiến trúc TTS được dùng chung — WSBSynth là sân thử nghiệm, Quick TTS là phiên bản thân thiện cho người dùng phổ thông.

Liên hệ

Báo lỗi, phản hồi, đề xuất tính năng, báo chí: hello@quick-tts.com. Hoặc xem thêm tại trang liên hệ.