Các giải pháp chuyển văn bản thành giọng nói (TTS) đã trở thành một phần không thể thiếu của công nghệ hỗ trợ, giúp vô số người dùng máy tính dễ dàng tương tác với văn bản, dù là để giải trí, học tập hay làm việc.
Như bạn có thể tưởng tượng, thị trường TTS đã khá bão hòa, với hàng chục ứng dụng và tiện ích mở rộng trình duyệt để bạn lựa chọn. Phần lớn đều rất hữu ích, giúp tăng năng suất và mang lại trải nghiệm thân thiện hơn cho người dùng. Hôm nay, chúng ta sẽ tập trung vào giải pháp TTS của Microsoft — Azure.
Chuyển văn bản thành giọng nói của Microsoft là gì?
Vậy Azure là gì? Để trả lời câu hỏi đó, hãy đặt thêm một câu khác: Bạn có muốn tạo nội dung với giọng đọc tự nhiên hoặc nghe trang web yêu thích được thuyết minh, với đủ loại tùy chọn chỉnh tốc độ, ngữ điệu, phát âm và nhiều thứ khác không? Microsoft Azure cho phép bạn làm tất cả những điều đó — và còn hơn thế nữa.
Azure là một nền tảng đám mây đầy tiềm năng. Ngoài các dịch vụ nhận thức của Azure cung cấp giải pháp chuyển văn bản thành giọng nói và chuyển giọng nói thành văn bản rất mạnh, bạn còn có thể tận dụng lưu trữ đám mây và các công cụ phân tích của Azure để tăng năng suất mà không cần phải rành rẽ những mô hình học máy phức tạp.
Tương thích với nhiều giải pháp mã nguồn mở, Azure cũng cực kỳ linh hoạt. Việc tích hợp giọng nói vào các ứng dụng tùy chỉnh và giúp đối tượng mục tiêu của bạn tận hưởng lợi ích của học máy sâu chưa bao giờ dễ dàng hơn, nhất là khi Azure hỗ trợ hơn một trăm ngôn ngữ và biến thể ngôn ngữ để bạn sử dụng.
Cách sử dụng ứng dụng chuyển văn bản thành giọng nói của Microsoft trên iPhone hoặc máy tính
Thiết lập Microsoft Azure trên thiết bị của bạn khá đơn giản, chỉ cần vài cú nhấp chuột để đăng ký tại trang web Azure chính thức. Tuy nhiên, nếu bạn chỉ dùng các chương trình như Outlook, Word, PowerPoint, Docs và OneNote thì không cần cài đặt gì thêm vì chúng đã tích hợp sẵn tính năng tổng hợp giọng nói tên là Speak.
Dù không phải dịch vụ chuyển giọng nói chất lượng cao, Speak vẫn rất hữu ích trong những lúc cần gấp, và cách thiết lập cũng vô cùng đơn giản:
- Nhấp vào Tùy chỉnh thanh công cụ (Customize Toolbar), sau đó nhấp
- Chọn tùy chọn Lệnh khác (More Commands)
- Nhấp vào Tất cả lệnh (All Commands)
- Tìm kiếm Speak, nhấp vào đó, rồi nhấp Thêm (Add)
Các lựa chọn thay thế cho ứng dụng chuyển văn bản thành giọng nói của Microsoft
Như đã đề cập ở phần đầu, có rất nhiều phần mềm đọc văn bản, từ các ứng dụng chuyên nghiệp với mức giá “chát” đến những bộ SDK nhận diện giọng nói còn dang dở trên GitHub. Nếu trợ lý chuyển văn bản thành giọng nói của Microsoft không hợp gu bạn, hoặc bạn muốn thử thêm vài lựa chọn khác, chúng tôi có một số giải pháp thay thế chắc chắn sẽ khiến bạn hài lòng.
Speechify
Giữ vị trí số 1 là Speechify, công cụ TTS được đánh giá cao nhất, có thể biến gần như mọi thứ thành tệp âm thanh. Nó hoạt động trơn tru với toàn bộ bộ ứng dụng của Microsoft và mô hình giọng nói của Speechify sẽ khiến bạn phải trầm trồ. Kết hợp với khả năng API mạnh mẽ, bạn sẽ có một giải pháp đa năng đáp ứng hầu hết mọi nhu cầu và kịch bản sử dụng.
Amazon Polly
Ở vị trí số 2 là Amazon Polly, một giải pháp ấn tượng, nổi tiếng với giọng đọc tự nhiên và nhiều phong cách thể hiện khác nhau. Công cụ này hỗ trợ đa ngôn ngữ, công nghệ chuyển văn bản thành giọng nói thần kinh (neural TTS) cho phép bạn tùy chỉnh linh hoạt khi muốn tinh chỉnh cách phát âm vốn đã tự nhiên lại càng độc đáo hơn.
Google Cloud Text to Speech
Ở vị trí số 3 là Google Cloud Text to Speech. Dĩ nhiên, ở đâu công nghệ phát triển thì Google cũng có mặt, và mảng TTS cũng không ngoại lệ. Giải pháp của Google tập trung vào ngôn ngữ đánh dấu tổng hợp giọng nói (SSML) và tính phí theo số ký tự, nên vừa hữu ích vừa hợp túi tiền nếu bạn chỉ cần cho một dự án ngắn hạn.
IBM Watson Text to Speech
IBM Watson giữ vị trí số 4. Điều khiến Watson nổi bật so với đối thủ là độ linh hoạt trong môi trường doanh nghiệp. Bạn có thể dùng nó như một trợ lý ảo, công cụ hỗ trợ khách hàng và giải pháp chuyển văn bản thành giọng nói. Hơn nữa, mức giá rất phải chăng, khó tìm được lựa chọn nào linh hoạt với chi phí tốt hơn nếu bạn cần một giải pháp “tất cả trong một”.
Readspeaker
Ở vị trí số 5, chúng ta có Readspeaker - một trong những “cây đa, cây đề” của ngành. Với gần 25 năm kinh nghiệm, Readspeaker đã đưa TTS lên tầm nghệ thuật. Hỗ trợ hơn 100 ngôn ngữ, công cụ này rất phù hợp cho phòng thu và học trực tuyến vì có thể hoạt động cả online lẫn offline.
NaturalReader
Vị trí số 6 thuộc về NaturalReader. Ứng dụng này xử lý việc chuyển văn bản thành giọng nói theo thời gian thực rất tốt, hoạt động với hầu hết các ứng dụng phổ biến trên PC. Tuy nhiên, điểm giúp NaturalReader góp mặt trong danh sách là chế độ đọc (reader mode) cho phép loại bỏ các chi tiết thừa như quảng cáo khỏi văn bản.
VoiceDream Reader
Ở vị trí số 7 là VoiceDream Reader, giải pháp thay thế cho Microsoft Azure cuối cùng trong danh sách hôm nay. Đáng tiếc là dù VoiceDream Reader xử lý ổn một số tác vụ đơn giản, nhiều người dùng vẫn phàn nàn về khả năng truy cập kém và đồng bộ hóa chưa tốt. Dù vậy, nếu bạn chỉ cần một giải pháp nhanh gọn và không quá quan tâm đến những tính năng thần kinh tiên tiến nhất, VoiceDream vẫn đủ đáp ứng các nhu cầu cơ bản.
Câu hỏi thường gặp
Chuyển văn bản thành giọng nói trên Windows 10 có miễn phí không?
Có rất nhiều giải pháp TTS cho Windows 10. Một số miễn phí, số khác thì không. Tính năng Speak tích hợp sẵn trên Windows 10 và dùng được trong các ứng dụng như Outlook và Word là miễn phí, nhưng những giải pháp cao cấp hơn với giọng thần kinh tùy chỉnh và nhiều tính năng nâng cao khác như Microsoft Azure thì cần đăng ký trả phí.
Đâu là giọng TTS thực tế nhất?
Những giọng chuyển văn bản thành giọng nói chân thực nhất thường xuất hiện ở các công cụ TTS tiên tiến như Amazon Polly và Speechify. Mức độ tự nhiên sẽ phụ thuộc vào ngôn ngữ, mô hình giọng nói và các thông số mà bạn lựa chọn.
Sự khác biệt giữa chuyển văn bản thành giọng nói và nhận diện giọng nói là gì?
Dù nhiều chương trình TTS cung cấp cả hai lựa chọn chuyển văn bản thành giọng nói và nhận diện giọng nói, nhưng cần phân biệt rõ hai khái niệm này. Chuyển văn bản thành giọng nói sẽ biến văn bản thành âm thanh, giúp bạn vừa nghe vừa làm việc khác. Còn nhận diện giọng nói là phân tích giọng nói con người với mục đích nhận biết hoặc xác định người nói.

