Tổng hợp giọng nói, hay tổng hợp văn bản sang giọng nói (TTS), là công nghệ chuyển đổi văn bản thành lời nói. Công nghệ này được ứng dụng rộng rãi trong nhiều lĩnh vực như hỗ trợ người khuyết tật, học ngoại ngữ, định vị GPS và nhiều tình huống khác. Cùng với sự phát triển của mã nguồn mở, ngày càng có nhiều công cụ chuyển đổi văn bản sang giọng nói đa dạng ra đời. Bài viết này sẽ dẫn bạn khám phá sâu hơn thế giới bộ tổng hợp giọng nói mã nguồn mở.
Trước hết, cần lưu ý rằng không phải tất cả các công cụ tổng hợp giọng nói đều là mã nguồn mở. Chẳng hạn, Google Text-to-Speech (TTS) cung cấp API mạnh mẽ cho nhà phát triển, nhưng lại không phải là phần mềm mã nguồn mở. Tương tự, Amazon Polly – nổi tiếng với các giọng đọc tự nhiên – cũng không phải mã nguồn mở.
Ngược lại, Coqui AI là một bộ công cụ TTS chất lượng cao và là dự án mã nguồn mở được phát triển trên GitHub. Nó được phát triển từ dự án TTS của Mozilla và cung cấp giao diện dòng lệnh mạnh mẽ để tổng hợp giọng nói. Coqui AI thực sự có "chất giọng" riêng – sử dụng Tacotron2 để tạo giọng nói, tập trung vào việc xây dựng các giọng đọc mới nhờ phương pháp học sâu.
Nền tảng Giọng nói của Microsoft, bao gồm cả khả năng tổng hợp văn bản sang lời nói, cũng không phải là mã nguồn mở. Tuy nhiên, API Giọng nói (SAPI5) vẫn được cung cấp cho các nhà phát triển trên hệ điều hành Windows.
Ở một khía cạnh khác, thế giới mã nguồn mở không hề thiếu các công cụ nhận dạng giọng nói. Một ví dụ tiêu biểu là CMU Sphinx – bộ các hệ thống nhận diện giọng nói được phát triển tại Đại học Carnegie Mellon.
Khi nói đến các công cụ mã nguồn mở chất lượng cao cho tổng hợp giọng nói, có thể kể đến:
- eSpeak: Phần mềm tổng hợp giọng nói mã nguồn mở nhỏ gọn cho tiếng Anh và nhiều ngôn ngữ khác. Chạy được trên Windows, Linux và phù hợp cho các ứng dụng robot dung lượng thấp.
- Mycroft: Trợ lý giọng nói mã nguồn mở ứng dụng máy học để chuyển văn bản thành giọng nói và nhận diện giọng nói.
- MaryTTS: Nền tảng tổng hợp văn bản sang giọng nói mã nguồn mở đa ngôn ngữ, linh hoạt, được phát triển bằng Java.
- Mozilla TTS: Động cơ tổng hợp văn bản sang giọng nói dựa trên học sâu, là một phần của dự án Common Voice, nhằm xây dựng bộ dữ liệu huấn luyện cho các ứng dụng nhận diện giọng nói.
- Hệ thống Tổng hợp Giọng nói Festival: Được phát triển bởi Trung tâm Nghiên cứu Công nghệ Giọng nói ở Vương quốc Anh, cung cấp một khung tổng quát để xây dựng các hệ thống tổng hợp giọng nói với nhiều lựa chọn giọng đọc khác nhau.
- Flite (Festival-lite): Động cơ tổng hợp giọng nói gọn nhẹ dựa trên Festival, phù hợp cho các hệ thống nhúng và máy chủ giọng nói khối lượng lớn.
- HTS: Hệ thống tổng hợp giọng nói dựa trên HMM (HTS) dùng để huấn luyện và tạo ra giọng nói từ văn bản, nổi tiếng với khả năng tổng hợp chất lượng cao.
- Docker: Mặc dù Docker không phải là công cụ tổng hợp văn bản sang giọng nói, nhưng đáng chú ý là nhiều công cụ TTS như Coqui có thể chạy trong Docker, giúp việc triển khai đa nền tảng trở nên dễ dàng hơn.
Mỗi công cụ đều có thế mạnh và hạn chế riêng. Bộ tổng hợp giọng nói mã nguồn mở mang lại nền tảng miễn phí, dễ tùy biến và được cộng đồng hỗ trợ cho cả nhà phát triển lẫn người dùng cuối. Chúng thường tích hợp sẵn các mô hình được huấn luyện trước, cho phép tận dụng các kỹ thuật máy học và học sâu. Tuy vậy, việc thiết lập và sử dụng có thể đòi hỏi một số kiến thức kỹ thuật. Ngoài ra, một số phần mềm có thể chưa đạt đến mức chất lượng, độ ổn định hoặc hỗ trợ ngôn ngữ tốt như các giải pháp thương mại.
Khi trào lưu mã nguồn mở ngày càng phát triển mạnh mẽ, các bộ tổng hợp giọng nói và hệ thống TTS cũng không ngừng tiến hóa. Chúng mở ra tiềm năng lớn cho các ứng dụng thời gian thực và cho tương lai của máy học, học sâu và AI trong lĩnh vực nhận diện cũng như tổng hợp giọng nói.

