Suara Deepfake dan text to speech
Berkat kemajuan kecerdasan buatan (AI) dan deep learning, kini orang dapat membuat media sintetis yang sangat realistis dan berkualitas tinggi. Teknologi ini membuka banyak peluang kreatif di berbagai industri. Salah satu teknologi tersebut adalah deepfake, yang juga dikenal sebagai suara sintetis dan voice cloning.
Apa itu suara deepfake?
Deepfake berarti media sintetis, juga dikenal sebagai voice cloning. Dengan AI, pengguna bisa membuat video deepfake yang mengganti wajah seseorang di layar atau memanipulasi perkataan orang menjadi sesuatu yang tidak pernah ia ucapkan, yang disebut juga dengan voice cloning. Bayangkan Anda bisa membuat suara Arnold Schwarzenegger mengucapkan apa pun yang Anda mau.
Proses ini memerlukan software khusus untuk menganalisis wajah, memproses suara dari skrip teks, dan memodelkan gerak mulut dalam ruang tiga dimensi.
Ada banyak penggunaan canggih untuk teknologi ini dan Voice Cloning adalah salah satunya. Hampir semua orang, bahkan yang bukan penggemar teknologi, pernah mendengar skandal deepfake. Baru-baru ini, muncul film dokumenter Tony Bourdain yang mengagetkan penonton karena seolah Bourdain sendiri masih bisa menarasikan cerita.
Startup IT membantu tim produksi merekonstruksi suara Bourdain demi menambah nuansa realistis dalam cerita. Ini pencapaian luar biasa, namun menimbulkan dilema moral. Siapa pun dapat membuat rekaman palsu atau suara menyesatkan hanya dengan komputer dan software yang tepat.
Bagaimana sebenarnya deepfake dibuat?
Pertama, kumpulkan sampel suara seseorang. Input bisa dari media sosial, rekaman telepon, televisi, dan lainnya. Lalu software dengan algoritma AI menggabungkan sampel untuk menghasilkan suara palsu.
Ini gambaran dasar proses kompleks tersebut, namun pada akhirnya, alat AI menggunakan data untuk membuat suara alami yang bisa membacakan teks digital. Karena inilah deepfake sangat erat kaitannya dengan text to speech (TTS).
Integrasi suara deepfake dalam text-to-speech
Pengguna bisa mengubah fitur seperti nada, usia, dan aksen dengan teknologi suara deepfake dalam sistem text-to-speech. Bahkan, mereka bisa membuat suara sintetis sesuai keinginan, misalnya untuk difabel vokal. Kustomisasi ini sangat membantu komunikasi dan kualitas hidup secara menyeluruh.
Dengan suara deepfake, konten audio jadi lebih menarik dan meningkatkan loyalitas pendengar untuk konten kreator. Mereka dapat memakai suara deepfake mirip narator terkenal atau selebriti guna menarik pendengar. Ini sangat berguna untuk buku audio, podcast, dan konten multimedia lain di mana suara punya pengaruh besar pada emosi dan keterlibatan audiens.
Namun, integrasi suara deepfake ke sistem TTS juga menimbulkan berbagai masalah moral. Suara deepfake bisa digunakan untuk manipulasi dan peniruan suara tanpa izin, sehingga menyesatkan orang lain. Maka, diperlukan aturan ketat agar teknologi ini digunakan secara benar dan etis.
Pada akhirnya, penggabungan suara deepfake dengan text-to-speech menawarkan peluang sintesis suara yang dipersonalisasi dan menarik. Teknologi ini bisa mengubah cara kita berinteraksi dengan suara buatan agar lebih mudah diakses dan memuaskan pengguna, dengan tetap memperhatikan aspek etika.
Kelebihan
Deepfake punya sisi positif. Video deepfake 'This Is Not Morgan Freeman' tahun 2021 menunjukkan bagaimana teknologi Augmented bisa sangat berguna.
Gambar tersebut menunjukkan bahwa dengan melatih AI menggunakan rekaman audio dan klip film, mereka bisa menirukan aktor, gerak, penampilan, dan suaranya. Walau ada masalah etika, ini sangat berarti bagi orang seperti aktor Val Kilmer.
Walaupun Kilmer terkena kanker tenggorokan sehingga kehilangan suaranya, banyak orang kira karier Hollywood-nya tamat. Di film dokumenter Amazon Prime tentang Kilmer, putranya mengisi suara Kilmer untuk peran baru.
Namun, saat Kilmer bekerja sama dengan Sonantic—startup IT yang memodelkan suara, dia berhasil mendapatkan suaranya kembali. Lewat teknologi deepfake, perusahaan itu menciptakan suara Kilmer dan penonton bisa mendengar hasilnya di film Top Gun: Maverick.
Kekurangan
Machine learning bisa meniru suara siapa pun di tempat seperti New York yang makin maju teknologinya. Hal ini memudahkan orang mengungkapkan data pribadi dan terjebak penipuan atau panggilan palsu.
Isu etika teknologi Deepfake
Ada berbagai pertanyaan etika terkait suara deepfake dan deepfake text to speech. Dengan kemajuan teknologi, muncul risiko baru. Suara deepfake Arnold Schwarzenegger AI misalnya, terdengar sangat nyata hingga orang terkecoh. Ini bisa membuat orang ragu dan saling tidak percaya.
Setiap kali masyarakat menggunakan teknologi baru, perlu berpikir dua kali terhadap risikonya. Deepfake dapat menipu dan memengaruhi orang lewat suara. Tidak heran kalau publik khawatir karena dapat mengganggu kepercayaan dan hak privasi.
Permasalahan mendesak dari deepfake adalah penyalahgunaannya. Suara sintetis yang dipakai untuk penipuan telepon dan kampanye disinformasi kini makin luas. Bayangkan Anda mendapat panggilan dengan suara mirip teman atau keluarga, namun ternyata palsu. Manipulasi ini berdampak negatif besar bagi individu, komunitas, bahkan negara.
Mengurangi dampak penyalahgunaan suara deepfake
Untuk mengurangi risiko ini, perlu adanya regulasi ketat dan edukasi pengguna. Suara deepfake harus dipakai secara bijak dan ada pedoman dari pemerintah serta perusahaan teknologi bersama. Saat ini sudah ada langkah untuk mengenali dan melawan penggunaan suara sintetis yang jahat, termasuk edukasi pengguna mengenai potensi penyalahgunaan teknologi ini.
Perlu kehati-hatian agar inovasi suara deepfake dan text-to-speech tidak kebablasan. Perkembangan teknologi ini menjanjikan, tapi harus ada transparansi dan tanggung jawab jelas dalam pemakaiannya. Penting memberi tahu pengguna jika suara yang didengar berasal dari sintesis komputer agar mereka tahu mana yang asli dan mana yang palsu.
Hukum dan privasi tentang suara deepfake
Pertimbangan hukum dan privasi juga berlaku untuk suara deepfake. Muncul pertanyaan tentang kepemilikan suara sintetis dan potensi penyalahgunaan tanpa izin. Dibutuhkan aturan yang jelas agar hak individu tetap terlindungi dan teknologi dipakai secara bertanggung jawab.
Saat kita membahas isu etika suara deepfake, diskusi terbuka dan inklusif itu penting. Ahli etika, pembuat kebijakan, teknolog, dan masyarakat umum harus bersama mengatasi masalah ini agar teknologi menguntungkan seluruh lapisan masyarakat.
Bayangkan Anda mendapat panggilan suara mirip teman atau keluarga, tapi ternyata itu suara palsu yang berupaya menipu. Ini bisa merugikan orang, komunitas, bahkan negara. Suara deepfake punya banyak kegunaan, dari iseng seperti membuat Alexa bicara dengan suara selebriti, hingga yang lebih serius dan bisa menyesatkan.
Perlunya regulasi agar penggunaan suara deepfake tetap etis
Agar masyarakat aman, perlu aturan tegas dan edukasi terkait suara palsu ini. Pemerintah dan perusahaan teknologi harus berkolaborasi membuat aturan penggunaan suara deepfake yang benar serta cara mengenali dan mencegah penggunaannya yang merugikan.
Saat menggunakan suara deepfake, penting berhati-hati dan mempertimbangkan aspek benar-salah. Walau teknologi suara ini keren, harus dipakai secara jujur. Orang harus tahu jika suara yang didengar adalah hasil komputer, agar bisa menentukan apakah bisa dipercaya.
Diskusi tentang masalah suara deepfake itu penting. Semua pihak, dari ahli hingga masyarakat awam, harus menyampaikan pendapat. Ini akan membantu penggunaan teknologi jadi lebih positif untuk semua.
Untungnya, seiring peningkatan software pembuat suara, deteksi suara palsu juga makin canggih. Perusahaan teknologi sedang membuat alat khusus mendeteksi suara deepfake. Ini membantu institusi seperti bank dan call center di New York untuk memastikan sedang berbicara dengan manusia asli, bukan suara AI yang menipu.
Software suara deepfake yang bisa dicoba
Alat machine learning dapat memberi dampak positif bagi banyak orang, dan Anda mungkin tertarik mencoba membuat audio deepfake. Walau hasil terbaik memerlukan hardware dan software canggih, ada beberapa program untuk menghasilkan suara alami. Berikut lima generator suara deepfake yang bisa dicoba:
Resemble
Resemble AI adalah text to speech dan alat pembuat deepfake yang menghasilkan suara manusia dengan data terbatas. Hanya dengan lima menit rekaman audio, pengguna bisa membuat deepfake pertamanya.
Anda dapat mencoba fitur sampel dan mengunggah klip suara sendiri, lalu dalam beberapa menit akan terdengar suara yang familiar. Pengguna menyukai antarmuka Resemble yang mudah serta bisa mengatur intonasi output audio.
Descript
Speech synthesizer ini punya kemampuan editing kuat. Program menganalisis rekaman suara, klip video, dan transkrip untuk menghasilkan suara AI. Jika kualitas input kurang, Anda bisa edit langsung dari aplikasi tanpa rekaman ulang.
Tujuan utama Descript adalah membantu pembuat konten menciptakan voice-over berkualitas untuk podcast dan video mereka. Program ini menyediakan banyak sekali stock voice untuk dieksplorasi fitur-fiturnya.
ReSpeecher
ReSpeecher merupakan solusi deepfake terpercaya yang membantu menciptakan ulang suara Luke Skywalker di The Mandalorian. Selain cocok untuk film dan TV, software ini juga sangat baik untuk membuat voiceover untuk iklan, animasi, video game, podcast, dan lainnya.
iSpeech
iSpeech tersedia sebagai program desktop maupun versi web. Selain sintesis suara, aplikasi ini punya fitur text to speech, web reader, dan pengenalan suara. Untuk belajar, coba demo suara Barrack Obama, Arnold Schwarzenegger, atau Scarlett Johansson.
Real-Time voice cloning
Proyek open-source ini bisa diunduh gratis di GitHub. Toolbox lengkap ini dapat mensintesis suara seseorang hanya dari lima detik rekaman. Namun, pengguna melaporkan software ini butuh keahlian teknis menengah hingga tingkat lanjut.
Speechify – alternatif text to speech yang mudah dibanding suara deepfake
Text to speech (TTS) seperti Speechify dan generator deepfake memakai teknologi serupa, namun tujuannya berbeda. Speechify adalah TTS atau read-aloud yang dapat membacakan hampir semua teks digital atau cetak. Setelah pengguna mengimpor dokumen Word, artikel, atau transkrip lalu memilih narator favorit, Speechify akan membacakan konten tersebut.
Program ini menawarkan banyak pilihan suara laki-laki dan suara perempuan serta mendukung lebih dari 20 bahasa, termasuk Inggris, Spanyol, Prancis, Italia, dan Portugis. Jika ingin lebih produktif dan dengar bacaan dari suara selebriti, coba suara Gwyneth Paltrow di Speechify.
Unduh program di komputer, iPhone, atau Android lalu coba Speechify gratis hari ini.
FAQ
Apakah FakeYou gratis?
FakeYou adalah aplikasi gratis dan mudah dipakai untuk membuat suara alami.
Bagaimana cara membedakan suara deepfake?
Sulit mengenali deepfake tanpa software canggih. Perusahaan keamanan siber memakai sistem biometrik suara untuk mencegah penipuan deepfake.
Apa saja bahaya suara deepfake?
Deepfake kadang disalahgunakan buat menyebar hoaks, merusak reputasi, hingga menurunkan kepercayaan pada institusi pemerintah.

