Teknologi teks ke ucapan berkembang pesat, khususnya dalam beberapa tahun kebelakangan ini. Didorong oleh kemajuan kecerdasan buatan, TTS hari ini boleh menghasilkan bacaan berkualiti tinggi yang hampir menyamai pertuturan manusia.
VALL-E oleh Microsoft ialah solusi teknologi termaju yang mungkin membuat TTS kedengaran agak menyeramkan. Ia ialah model bahasa neural codec berasaskan pembelajaran mesin zero-shot.
Jika ayat terakhir kedengaran seperti jargon sains fiksyen, usah risau. Kami akan kupas konsep kompleks di sebalik VALL-E dalam artikel ini.
Penerangan tentang Microsoft VALL-E
Model AI berkembang dengan pantas. Kini, hampir semua orang tahu tentang ChatGPT dari OpenAI, yang mungkin paling hampir menjadikan AI kelihatan seperti manusia sebenar. Anda juga mungkin pernah nampak seni berasaskan AI daripada enjin DALL-E.
Selain syarikat permulaan seperti OpenAI, gergasi global seperti Microsoft juga pemain utama dalam bidang AI.
Penyelidik Microsoft kini giat memajukan teknologi sintesis teks ke ucapan. VALL-E adalah salah satu hasil usaha tersebut.
AI baharu ini berpotensi merevolusikan dunia TTS kerana ia boleh menghasilkan suara mirip manusia dengan hanya sampel audio yang sangat pendek. Tiga saat audio sudah cukup untuk VALL-E menangkap corak pertuturan penutur tertentu.
Selepas menerima audio penutur, AI boleh meniru suara manusia serta emosi mereka. Lebih mengagumkan, VALL-E turut mengekalkan suasana akustik penutur asal.
Ringkasnya, model VALL-E sangat mahir meniru suara penutur. Anda boleh mendengarnya di GitHub, di mana Microsoft berkongsi contoh audio dan penjelasan lanjut.
Sudah tentu, teknologi seperti ini mempunyai pelbagai potensi penggunaan, seperti mencipta podcast dan buku audio. Potensi ini jadi lebih luas jika VALL-E digabungkan dengan model generatif seperti GPT-3.
Namun, teknologi seperti VALL-E juga boleh disalah guna untuk tujuan tidak bertanggungjawab.
Memandangkan VALL-E mampu meniru suara manusia dengan sangat realistik, penjenayah siber boleh menggunakannya untuk penipuan deepfake yang berbahaya. Potensi ini mendorong Microsoft mengeluarkan kenyataan etika.
Dalam kenyataan itu, syarikat mencadangkan model penyuntingan ucapan khas yang memastikan kebenaran daripada penutur asal.
Namun, perdebatan tentang cara terbaik menggunakan VALL-E ialah isu masa depan. Buat masa ini, ada satu soalan yang lebih menarik:
Bagaimana AI boleh meniru corak suara kompleks dengan hanya tiga saat audio sebagai sampel asas?
Seperti dijangka, jawapannya agak rumit.
VALL-E dilatih secara meluas dengan ribuan jam rakaman suara bahasa Inggeris. Ini menjadikan AI sangat mahir mensimulasikan pertuturan dalam bahasa Inggeris. Namun, VALL-E bukan TTS biasa – ia menggunakan teknologi pembelajaran mesin terkini.
Kami sudah sebut nama teknologi ini: model bahasa neural codec zero-shot. Jom lihat maksud istilah-istilah ini dalam praktik.
Fahami model bahasa neural codec zero-shot
Bermula dengan istilah yang lebih mudah, "zero-shot" merujuk kepada teknologi TTS yang membolehkan AI menghasilkan pertuturan daripada data yang tidak pernah diketahui. Maknanya, AI boleh membaca teks yang belum pernah "dilihat".
Lebih mengagumkan lagi, teknologi zero-shot membolehkan mesin menjana suara tanpa latihan tambahan. Ia hampir sama seperti cara manusia membaca teks baharu dalam bahasa yang sudah mereka kuasai.
Seterusnya, istilah lebih rumit – “model bahasa neural codec” – perlukan penerangan lanjut.
Enjin TTS menggunakan codec audio untuk mencipta gelombang bunyi daripada teks bertulis. Codec membantu AI menterjemah huruf, perkataan dan ayat ke dalam bentuk bunyi. Neural codec melakukan tugas yang sama, tetapi dibina atas rangkaian neural yang lebih canggih.
Sudah tentu, timbul persoalan tambahan: Apakah rangkaian neural?
Kami akan jelaskan secara ringkas. Rangkaian neural cuba meniru cara otak manusia berfungsi. Ia terdiri daripada neuron tiruan dipanggil nod, saling berhubung dan disusun dalam lapisan.
Struktur kompleks ini membolehkan pembelajaran mendalam, menjadikan mesin lebih cekap mempelajari dan menyesuaikan diri dengan corak baharu.
Neural codec menyokong model bahasa, bahagian lain daripada persamaan teks ke ucapan ini.
Model bahasa menggunakan set data untuk memahami mana-mana input teks dalam konteks sebenar. Inilah cara mesin "memahami" teks.
Dalam kes VALL-E, LibriLight, perpustakaan audio oleh Meta Facebook, menjadi asas model bahasanya.
Dengarkan teknologi TTS terkini beraksi bersama Speechify
Walaupun VALL-E belum tersedia, anda boleh dengar enjin teks ke ucapan termaju melalui Speechify. Speechify ialah servis TTS yang boleh membaca teks daripada hampir apa sahaja sumber.
Serahkan teks, kandungan web atau imbasan, dan Speechify akan membacanya serta-merta. Lebih hebat lagi, suara narator yang digunakan kedengaran sangat semula jadi. Tidak seperti TTS tipikal, Speechify kedengaran seperti manusia, bukannya robotik.
Selain itu, anda boleh ubah suai cara Speechify membaca. Pilih bahasa, narator dan kelajuan bacaan mengikut citarasa anda.
Jika semua ini menarik minat anda, anda boleh cuba Speechify secara percuma hari ini.
Soalan Lazim
Bolehkah orang ramai guna Vall-E?
Ramai bimbang tentang potensi penyalahgunaan VALL-E. Risiko kecurian identiti memang membimbangkan. Disebabkan itu, Microsoft memilih untuk tidak menawarkan VALL-E secara umum.
Apakah itu AI Microsoft?
Microsoft AI bukan satu produk tertentu. Ia ialah rangka kerja pembangunan AI milik syarikat tersebut. Microsoft AI merangkumi solusi sains data, AI perbualan, robotik, pembelajaran mesin dan pelbagai lagi inovasi industri.
Apakah itu antara muka berasaskan suara?
Antara muka berasaskan suara ialah UI yang dikawal menggunakan arahan suara. Teknologi ini kini biasa dalam peranti pintar – contohnya Alexa Amazon, Siri Apple, Cortana Microsoft dan Assistant Google.
Apakah itu robot?
Istilah “robot” merujuk kepada mana-mana mesin yang beroperasi secara automatik. Mesin sebegini direka untuk menggantikan kerja manusia. Walaupun dalam media popular robot biasanya digambarkan menyerupai manusia, kebanyakan robot sebenarnya tidak kelihatan seperti manusia – malah ada yang langsung tiada bentuk fizikal. Contohnya, pembantu maya popular hari ini juga dikira robot.

