Ramai orang menggunakan perkhidmatan tukar teks ke suara setiap hari, termasuk pembantu maya. Tapi ramai tak sedar kedua-duanya berkongsi banyak ciri dari segi cara ia berfungsi. Bila teknologi makin maju, kualiti aplikasi harian kita pun ikut meningkat.
Begitu jugalah dengan aplikasi TTS dan pembantu maya. Beberapa syarikat berjaya capai keputusan luar biasa dalam bidang ini, antaranya Google dengan teknologi WaveNet.
Apa itu Google WaveNet?
WaveNet ialah rangkaian neural buatan untuk hasilkan audio mentah. Pasukan di sebaliknya ialah DeepMind, firma berpusat di London yang fokus pada kecerdasan buatan. Pengenalan teknologi ini membawa perubahan besar kepada platform Google Cloud, mengangkat semuanya ke tahap baru.
Antara kelebihan utama yang diperkenalkan DeepMind berbanding sistem teks ke suara sebelum ini ialah bunyinya jauh lebih semula jadi. Sewaktu diperkenal pada 2016, TTS belum mampu mewujudkan suara yang benar-benar semula jadi.
Teks ke suara WaveNet mengatasi pencapaian sistem lama dalam semua hal. Ideanya mudah. Perisian boleh gunakan fail audio mentah seperti WAV dan mendapat manfaat daripada sambungan Google API dan kunci API.
Kini, ada pelbagai cara untuk menggunakan teknologi ini hasil algoritma kompleks yang dimanfaatkan. Banyak syarikat di seluruh dunia bersaing menawarkan produk terbaik. Ini bagus untuk pengguna kerana lebih banyak pilihan untuk cari program yang menepati keperluan masing-masing.
Bagaimana WaveNet berfungsi
WaveNet ialah versi FNN atau rangkaian neural suapan hadapan yang juga dikenali sebagai rangkaian neural terkonvolusi mendalam. CNN mengambil isyarat mentah daripada input lalu hasilkan output satu sampel demi satu.
Asas utamanya ialah pembelajaran mesin, pemprosesan bahasa semula jadi, pembelajaran mendalam dan kecerdasan mesin. Dalam versi TTS terdahulu, tujuannya ialah bina pangkalan data fonem, dan aplikasi akan pilih yang paling sesuai atau paling hampir dengan bunyi yang diperlukan.
Membina 'puzzle' seperti ini bukan kerja mudah. Perisian perlu faham bagaimana bahasa berfungsi, termasuk rentak dan dinamiknya, kalau tidak hasil suara akan kedengaran janggal dan tidak asli.
Seperti kebanyakan program TTS lain, WaveNet juga gunakan gelombang audio sebenar – contohnya parametrik atau konkatenatif. Ini membolehkan perisian menganalisis peraturan bunyi sesuatu bahasa dan bagaimana ia berubah seiring masa.
Ini membolehkan program membentuk pola yang kedengaran seperti pertuturan manusia. Menariknya, output dijana terus daripada maklumat yang dimasukkan ke dalam perisian.
Apabila digunakan dalam dunia sebenar: Contohnya anda berbahasa Itali, program boleh hasilkan suara dalam bahasa Itali. Ini satu lonjakan besar pada waktu itu dan membuka jalan untuk API TTS lain.
Contoh penggunaan WaveNet
Ketika Google mula perkenalkan perisian ini, ia perlukan kuasa pemprosesan yang sangat tinggi. Namun semua itu berubah dengan masa. API ini mula digunakan untuk suara Google Assistant di beberapa platform.
WaveNet juga sangat sesuai untuk perisian TTS. Suaranya lebih realistik, menjadikan pengalaman mendengar lebih selesa. Anda boleh guna untuk dengar berita, transkrip podcast atau apa sahaja yang anda mahu.
Itu baru permulaan. Proses ini juga boleh bantu individu yang ada masalah pertuturan mendapatkan semula suara mereka. Sintesis suara ialah istilah untuk tiruan suara, dan potensinya memang menakjubkan. Misalnya, individu bermasalah pertuturan boleh guna sampel suara sendiri dan gabungkannya dengan alat TTS. Ini boleh membantu mereka "dapat kembali" suara sendiri.
Kita belum tahu sepenuhnya bagaimana rupa masa depan program TTS, tapi yang pasti ia sangat menjanjikan. Satu lagi sisi positif inovasi ini ialah banyak syarikat berlumba-lumba bangunkan produk TTS.
Bila semua bergerak ke arah matlamat sama, hasil menakjubkan lebih mudah dicapai.
Speechify - Sintesis suara
Antara aplikasi yang patut anda cuba ialah Speechify. Ia app tukar teks ke suara untuk hampir semua peranti. Tersedia untuk iOS, Android, Mac malah sebagai sambungan Google Chrome.
Speechify boleh baca hampir apa sahaja kandungan. Ia boleh membacakan PDF, dokumen, emel atau fail lain dalam peranti anda. Kelebihan utama app ini ialah serba guna dan sangat fleksibel.
Anda boleh ubah kelajuan bacaan, pilih pelbagai jenis suara, ubah nada dan banyak lagi. Selain itu, Speechify ada fungsi OCR – anda boleh ambil gambar buku, dan app akan bacakan untuk anda.
Aplikasi ini memang sesuai untuk mereka yang ada disleksia, ADD, pelajar bahasa baru, atau sesiapa yang nak lebih produktif ketika membaca. Ia aplikasi semua dalam satu yang boleh ubah cara anda membaca.
Speechify senang digunakan, tak perlukan tutorial panjang untuk difahami.
Soalan Lazim
Untuk apa WaveNet digunakan?
Ia rangkaian neural mendalam yang boleh cipta audio mentah. Ia sintesis teks ke suara yang menawarkan suara WaveNet realistik, boleh dilatih guna rakaman sebenar. Hasilnya, ia jauh lebih baik berbanding Google Cloud TTS.
Kini, perisian ini digunakan untuk suara Google Assistant.
Apa itu model WaveNet?
Model ini dibina berasaskan seni bina PixelCNN. Untuk jenis output jarak jauh, arkitekturnya guna konvolusi kausal berlapis.
Penambahan CNN berlapis menjadikan latihan lebih mudah dan pantas, mampu jejak ribuan lapisan ke belakang. Ia juga boleh berfungsi 20 kali lebih laju daripada masa nyata.
Apa beza WaveNet & Rangkaian Neural Konvolusi?
Perisian ini berasaskan rangkaian neural terkonvolusi mendalam, atau CNN. Maknanya, WaveNet ialah salah satu aplikasi CNN. Teknologi serupa digunakan syarikat lain seperti Microsoft, Amazon (dengan SSML), dan turut menawarkan hasil berkualiti.
Kalau anda mahukan aplikasi TTS terbaik, cuba Speechify. Walaupun platform lain ada kelebihan masing-masing, Speechify sangat mudah digunakan, tiada halangan dan cukup intuitif untuk sesiapa yang mahu tukar teks ke suara.

