Text to speech (TTS) dan mesin sintesis suara menggunakan beragam model pembelajaran AI untuk menghasilkan suara yang mirip manusia. Salah satu model tersebut adalah model suara autoregresif, yaitu model generatif yang digunakan dalam pembuatan suara. Artikel ini membahas cara kerja model autoregresif dan penggunaannya pada sintesis suara.
Penjelasan model autoregresif
Model autoregresif adalah model statistik yang sering digunakan dalam pemrosesan sinyal, pengenalan suara, dan sintesis suara. Ini merupakan komponen penting dalam teknologi suara modern, terutama pada sistem text to speech (TTS). Untuk memudahkan Anda memahami cara kerjanya, bayangkan ada mesin peramal cuaca. Setiap hari, mesin ini memperhitungkan cuaca kemarin (bagian "autoregresif"). Ia melihat suhu, kelembapan, dan kecepatan angin, lalu memakai faktor tersebut untuk memprediksi cuaca besok. Mesin juga mempertimbangkan faktor lain yang bisa memengaruhi cuaca, seperti waktu dalam setahun, lokasi, dan pola cuaca sekitar (bagian "model"). Berdasarkan semua ini, mesin memprediksi cuaca hari berikutnya. Tentu saja, prediksi tidak selalu 100% akurat – cuaca memang sulit ditebak. Tapi makin banyak data, makin baik pula prediksi mesin. Itulah contoh model autoregresif. Konsep dasarnya sederhana: ia memprediksi nilai berikutnya dalam deret waktu berdasarkan nilai-nilai sebelumnya. Jadi, model ini menggunakan kombinasi linear dari data sebelumnya, atau koefisien, untuk menebak nilai selanjutnya. Kemampuan prediktif ini membuat model autoregresif ideal untuk teknologi suara, di mana suara alami butuh prediksi sampel audio berikutnya berdasarkan sampel sebelumnya. Model autoregresif punya dua komponen utama: encoder dan decoder. Encoder menerima sinyal masukan, seperti spektrogram atau urutan fonem, lalu mengubahnya menjadi representasi laten. Decoder mengambil representasi ini dan menghasilkan sinyal keluaran, misalnya gelombang suara atau spektrogram. Salah satu jenis model autoregresif yang populer adalah WaveNet, yang memakai dilated causal convolution untuk memodelkan proses autoregresif. Ini adalah model Gaussian yang dapat menghasilkan audio berkualitas tinggi yang nyaris tidak bisa dibedakan dari suara manusia. Fitur penting lainnya adalah kemampuannya mengondisikan proses generasi pada berbagai input. Misalnya, kita bisa melatih sistem TTS dengan data dari banyak pembicara agar dapat menghasilkan suara dari penutur yang berbeda. Ini dilakukan dengan mengondisikan decoder pada identitas speaker selama pelatihan. Model ini bisa dilatih dengan berbagai algoritma optimasi, termasuk variational autoencoder dan recurrent neural network (RNN). Data pelatihan harus berkualitas tinggi agar suara yang dihasilkan terdengar alami dan akurat.
Penerapan model autoregresif pada sintesis suara
Sintesis suara adalah proses menghasilkan suara mirip manusia melalui mesin. Salah satu metode populer memanfaatkan model autoregresif. Pada pendekatan ini, mesin menganalisis dan memprediksi fitur akustik ucapan seperti nada, durasi, dan volume dengan encoder dan decoder. Encoder memproses data suara mentah, seperti gelombang suara atau spektrogram, menjadi fitur tingkat tinggi. Fitur ini lalu dimasukkan ke decoder yang menyusun urutan elemen akustik yang mewakili suara yang diinginkan. Sifat autoregresif dari model membuat decoder bisa memprediksi tiap fitur berikutnya berdasarkan keluaran sebelumnya, sehingga menghasilkan suara yang terdengar alami. Salah satu model autoregresif paling ternama untuk sintesis suara adalah WaveNet. WaveNet menggunakan convolutional neural network (CNN) untuk memproduksi fitur akustik yang kemudian diubah menjadi suara oleh vocoder. Model ini dilatih dengan dataset suara berkualitas untuk mengenali pola dan hubungan antarf fitur akustik. Model pra-latih, biasanya berbasis long-short-term memory (LSTM), dapat mempercepat pelatihan model suara autoregresif dan meningkatkan performanya. Untuk meningkatkan kualitas dan realisme suara sintetis, peneliti mengembangkan berbagai modifikasi model WaveNet. Contohnya, FastSpeech adalah model pengenalan suara otomatis end-to-end yang mempercepat proses sintesis suara dengan mekanisme atensi untuk langsung memprediksi durasi dan nada tiap fonem. Riset lainnya pada sintesis suara autoregresif adalah voice conversion, yaitu mengubah suara seseorang menjadi terdengar seperti orang lain. Ini dilakukan dengan melatih model menggunakan data suara dari penutur asal dan target. Hasilnya, model bisa mengubah suara sumber menjadi suara tujuan sambil menjaga isi linguistik dan prosodi aslinya. Salah satu komponen kunci model suara autoregresif adalah neural vocoder yang bertugas menghasilkan gelombang suara berkualitas tinggi. Vocoder neural sangat krusial karena mengambil keluaran dari model dan mengubahnya menjadi gelombang suara yang bisa didengar. Tanpa itu, suara yang dihasilkan akan terdengar kaku dan tidak alami. Studi terkait model suara autoregresif telah diakui secara internasional, termasuk presentasi riset di konferensi ICASSP bergengsi dengan banyak karya yang berfokus pada penyempurnaan model akustik untuk pengenalan dan sintesis suara. Banyak juga publikasi di arxiv.org dan GitHub terkait algoritme, arsitektur, dan teknik optimasi berbeda. Model suara autoregresif dievaluasi menggunakan berbagai metrik, seperti mean opinion score (MOS), word error rate (WER), dan spectral distortion (SD).
Jadilah pengguna tingkat lanjut TTS AI dengan Speechify
Speechify adalah layanan TTS berbasis AI yang menghasilkan narasi yang natural dan berkualitas untuk semua jenis teks. Layanan ini mengubah teks menjadi suara dengan model deep learning yang dilatih pada dataset suara besar. Untuk menggunakan Speechify, cukup tempel atau unggah file Anda ke platform lalu pilih suara serta bahasa favorit. Speechify kemudian membuat file audio berkualitas yang dapat Anda unduh atau bagikan. Speechify memanfaatkan model autoregresif agar hasil ucapan mengikuti alur bicara manusia. Dengan Speechify, Anda bisa menghasilkan audio berkualitas secara real time dan menggunakannya untuk berbagai kebutuhan seperti podcast, video, dan buku audio. Tunggu apa lagi? Coba Speechify hari ini dan temukan cara baru menghasilkan audio premium untuk proyek Anda.
FAQ
Apa itu model deret waktu autoregresif?
Model deret waktu autoregresif adalah model statistik yang memprediksi nilai masa depan berdasarkan nilai di masa lalu.
Apa perbedaan antara AR dan ARMA?
ARMA adalah model yang lebih umum dengan komponen autoregresif dan moving average, sedangkan AR hanya mempertimbangkan autoregresif tanpa moving average.
Apa perbedaan antara deret waktu dan deep learning?
Analisis deret waktu adalah teknik statistik untuk data berdasarkan waktu. Deep learning adalah cabang machine learning yang menggunakan jaringan saraf buatan untuk belajar dari data.
Apa beda model autoregresif dan non-autoregresif?
Model autoregresif menghasilkan output secara berurutan dari output sebelumnya, sedangkan model non-autoregresif menghasilkan output paralel tanpa melihat hasil sebelumnya.

