Chuyển văn bản thành giọng nói (TTS) đã trở thành công nghệ hỗ trợ gần như không thể thiếu, giúp vô số người dùng PC tương tác với văn bản để giải trí, học tập hay làm việc.
Không khó đoán, thị trường TTS hiện cực kỳ sôi động với hàng chục ứng dụng và tiện ích trình duyệt. Phần lớn đều hữu ích, giúp tăng hiệu suất và cải thiện trải nghiệm. Hôm nay, chúng ta sẽ tập trung vào giải pháp TTS của Microsoft — Azure.

Microsoft chuyển văn bản thành giọng nói là gì?
Vậy Azure là gì? Để trả lời, hãy tự hỏi: Bạn muốn tạo nội dung với giọng đọc tự nhiên, nghe trang web yêu thích được đọc lên, tùy chỉnh tốc độ, ngữ điệu, phát âm...? Microsoft Azure cho phép bạn làm tất cả những điều đó — và còn hơn thế.
Azure là một nền tảng đám mây đầy tiềm năng. Ngoài dịch vụ nhận diện văn bản thành giọng nói xuất sắc và chuyển giọng nói thành văn bản, bạn còn có thể tận dụng lưu trữ đám mây, phân tích dữ liệu để tăng hiệu quả mà không cần hiểu sâu về machine learning phức tạp.
Tương thích với nhiều giải pháp mã nguồn mở, Azure khá linh hoạt. Thêm giọng đọc vào ứng dụng riêng và mang lợi ích AI đến cho người dùng chưa bao giờ dễ như vậy, nhất là khi Azure hỗ trợ hơn 100 ngôn ngữ cùng biến thể.
Cách dùng ứng dụng chuyển văn bản thành giọng nói của Microsoft trên iPhone hoặc máy tính
Cài đặt Microsoft Azure rất đơn giản, chỉ vài cú nhấp để đăng ký tại trang Azure chính thức. Nhưng nếu bạn chỉ dùng Outlook, Word, PowerPoint, Docs và OneNote, không cần tải gì thêm vì đã có chức năng Speak tích hợp sẵn.
Dù Speak không phải dịch vụ giọng nói chất lượng cao, nhưng lại rất tiện lúc cần gấp và cực dễ thiết lập:
- Nhấp vào Tuỳ chỉnh Thanh công cụ rồi chọn
- Chọn Thêm lệnh
- Nhấp vào Tất cả lệnh
- Tìm Speak, nhấp vào rồi chọn Thêm
Các lựa chọn thay thế ứng dụng chuyển văn bản thành giọng nói của Microsoft
Như đã nói, có vô số phần mềm đọc văn bản: từ ứng dụng chuyên nghiệp với giá
Speechify
Dẫn đầu là Speechify, công cụ TTS hàng đầu chuyển mọi định dạng thành file âm thanh: trang web, Google Docs, bài nghiên cứu, thậm chí ghi chú viết tay hay ảnh nhờ OCR. Có phiên bản cho iOS, Android, Web, Mac, Windows, Tiện ích Chrome và API chuyển văn bản thành giọng nói.
Speechify còn cung cấp hơn 1.000 giọng AI tự nhiên và cảm xúc AI voices với hơn 60 ngôn ngữ, kể cả giọng người nổi tiếng. Kết hợp API chất lượng, bạn sẽ có giải pháp đa năng phù hợp hầu hết nhu cầu.
Amazon Polly
Thứ hai là Amazon Polly, nổi tiếng với giọng đọc tự nhiên, đa phong cách. Hỗ trợ nhiều ngôn ngữ, công nghệ neural TTS cho phép bạn tùy chỉnh linh hoạt để tạo trải nghiệm sống động.
Google Cloud Text to Speech
Đứng thứ 3 là Google Cloud Text to Speech. Google luôn tiên phong công nghệ và TTS cũng không ngoại lệ. Công cụ của Google dùng SSML, tính phí theo ký tự nên phù hợp cho các dự án dùng một lần, tiết kiệm chi phí.
IBM Watson Text to Speech
Vị trí #4 thuộc về IBM Watson. Điểm nổi bật của Watson là sự linh hoạt trong môi trường doanh nghiệp: có thể dùng làm trợ lý ảo, công cụ hỗ trợ khách hàng hoặc chuyển văn bản thành giọng nói. Ngoài ra, giá rất hợp lý, thích hợp nếu bạn ưu tiên tính linh hoạt.
Readspeaker
#5 là Readspeaker, một
NaturalReader
Vị trí #6 thuộc về NaturalReader, nổi bật với khả năng chuyển văn bản thành giọng nói theo thời gian thực, tương thích với hầu hết ứng dụng trên PC. Điểm đáng chú ý là chế độ reader giúp loại bỏ quảng cáo và các chi tiết thừa khỏi văn bản.
VoiceDream Reader
#7 là VoiceDream Reader, giải pháp thay thế cuối cùng cho Microsoft Azure chuyển văn bản thành giọng nói hôm nay. Tuy ổn với các tác vụ đơn giản, nhiều người dùng phàn nàn về khả năng truy cập kém và đồng bộ hạn chế. Nhưng nếu chỉ cần giải pháp gọn nhẹ, không quá coi trọng công nghệ neural TTS tiên tiến, VoiceDream vẫn đáp ứng tốt.
Câu hỏi thường gặp
TTS trên Windows 10 có miễn phí không?
Có nhiều lựa chọn TTS cho Windows 10, một số miễn phí, số khác thì không. Tùy chọn Speak tích hợp với Outlook và Word là miễn phí, nhưng các giải pháp nâng cao cùng giọng neural tùy chỉnh, ví dụ Microsoft Azure, cần đăng ký trả phí.
Đâu là giọng TTS thật nhất?
Các giọng AI TTS realistic thường có ở những công cụ TTS cao cấp như Amazon Polly, Google Text to Speech API và Speechify. Độ chân thực phụ thuộc ngôn ngữ, mô hình giọng nói và các thông số bạn chọn.
Khác biệt giữa chuyển văn bản thành giọng nói và nhận diện giọng nói?
Nhiều phần mềm TTS vừa chuyển văn bản thành giọng nói vừa nhận diện giọng nói, nhưng hai thứ này không giống nhau. TTS là đọc văn bản thành âm thanh, giúp bạn có thể nghe khi làm việc khác. Nhận diện giọng nói là phân tích lời nói con người để phiên dịch hoặc xác định danh tính.

