Sintesis pertuturan, turut dikenali sebagai teks-ke-pertuturan (TTS), ialah teknologi yang menukar teks bertulis kepada suara. Teknologi ini digunakan untuk membantu OKU, pembelajaran bahasa, navigasi GPS, dan pelbagai aplikasi lain. Dengan perkembangan projek sumber terbuka, banyak alat TTS kini tersedia. Artikel ini meneroka dunia penjana suara sumber terbuka.
Pertama sekali, tidak semua alat sintesis pertuturan adalah sumber terbuka. Contohnya, Google Text-to-Speech (TTS) menawarkan API hebat untuk pembangun, tetapi ia bukan sumber terbuka. Amazon Polly juga popular dengan suara yang realistik, namun masih bukan sumber terbuka.
Sebaliknya, Coqui AI, toolkit TTS berkualiti tinggi, ialah projek sumber terbuka di GitHub. Ia bermula daripada projek TTS Mozilla dan menyediakan antaramuka baris perintah yang kukuh untuk sintesis suara. Coqui AI menggunakan Tacotron2 untuk penjanaan suara dengan penekanan pada penciptaan suara baharu melalui pembelajaran mendalam.
Microsoft Speech Platform, termasuk fungsi teks-ke-pertuturan, juga bukan sumber terbuka. Namun, API Percakapan (SAPI5) disediakan untuk pembangun di Windows.
Di sisi positif, dunia sumber terbuka tidak kekurangan alat pengecaman pertuturan. Antara contoh terbaik ialah CMU Sphinx, iaitu rangkaian sistem pengecaman suara yang dibangunkan di Universiti Carnegie Mellon.
Untuk alat sumber terbuka berkualiti tinggi bagi penjanaan suara, beberapa perisian berikut menonjol:
- eSpeak: Perisian kecil penjana suara sumber terbuka untuk bahasa Inggeris dan lain-lain. Sesuai untuk Windows, Linux dan aplikasi robotik kecil.
- Mycroft: Pembantu suara sumber terbuka yang menggunakan pembelajaran mesin untuk TTS dan pengecaman suara.
- MaryTTS: Platform TTS sumber terbuka yang fleksibel dan menyokong pelbagai bahasa, ditulis dalam Java.
- Mozilla TTS: Enjin TTS berasaskan pembelajaran mendalam, sebahagian daripada projek Common Voice, yang bertujuan membina set data untuk aplikasi suara.
- Festival Speech Synthesis System: Dibangunkan oleh Centre for Speech Technology Research, UK, ia menyediakan rangka kerja umum untuk penjanaan suara dan pelbagai pilihan suara.
- Flite (Festival-lite): Enjin suara ringan berasaskan Festival, sesuai untuk sistem terbenam dan pelayan suara berintensif tinggi.
- HTS: Sistem HTS (HMM-Based Speech Synthesis System) digunakan untuk latihan dan penjanaan suara daripada teks dengan kualiti tinggi.
- Docker: Walaupun Docker bukan alat TTS, kebanyakan TTS seperti Coqui boleh dijalankan dalam Docker bagi memudahkan penggunaan merentasi platform.
Setiap alat ada kelebihan dan kekurangannya. Penjana suara sumber terbuka menawarkan platform percuma yang boleh diubah suai dan disokong komuniti untuk pembangun serta pengguna. Kebiasaannya, ia didatangkan dengan model pra-latih bagi memanfaatkan teknik pembelajaran mesin dan pembelajaran mendalam. Namun, ia mungkin memerlukan pengetahuan teknikal untuk digunakan, dan ada yang kurang dari segi kualiti, konsistensi, atau sokongan bahasa berbanding alat komersial.
Sumber terbuka terus membentuk semula dunia teknologi, dan penjana suara serta sistem TTS akan terus berkembang. Ia menawarkan potensi besar untuk aplikasi masa nyata dan pembangunan teknologi pembelajaran mesin, pembelajaran mendalam serta AI dalam sistem pengecaman suara dan sintesis pertuturan.

