AI generatif dan Kecerdasan Buatan terus berkembang pesat. Teks ke ucapan ialah konsep yang agak lama dan sudah digunakan sejak sekian lama. Banyak perkara perlu dihuraikan dan dikategorikan di sini, dan saya akan merangkumkannya dari pelbagai sudut. Sama ada anda seorang pemula atau pakar, panduan ini diharap dapat membantu anda memahami API Google Teks ke Ucapan.
Sebelum kita menyelam lebih dalam, penting untuk kita fahami asasnya dahulu. Mari kita jelaskan beberapa istilah dan kukuhkan pemahaman asas kita.
Mari kita bezakan dahulu dua teknologi ini: teks ke ucapan dan API, serta peranan Google Cloud.
Nota editor: Sedang mencari API teks ke ucapan terbaik? Cuba API teks ke ucapan Speechify yang mudah digunakan dan didokumentasikan dengan lengkap teks ke ucapan API.
Teks ke Ucapan
Saya pernah menulis panjang lebar tentang topik ini. Anda boleh baca blog saya Apa itu teks ke ucapan dan juga panduan tentang sintesis ucapan untuk pemahaman lebih mendalam. Anda boleh abaikan dahulu dan saya akan ringkaskan dalam beberapa ayat berikut.
Teks ke ucapan bergantung pada teknologi sintesis ucapan untuk menukar perkataan kepada suara AI. Kegunaannya sangat luas — daripada membantu masalah membaca seperti disleksia, rabun, hinggalah meningkatkan kecekapan kerja.
API
API bermaksud Antaramuka Pengaturcaraan Aplikasi (Application Programming Interface). Ia ialah jambatan antara dua aplikasi. Jika anda membangunkan aplikasi yang ada kandungan audio dan perlukan fungsi teks ke ucapan, anda boleh bina sendiri atau sambungkan ke perkhidmatan teks ke ucapan sedia ada melalui API teks ke ucapan.
Fokus pada pembangunan aplikasi anda, dan serahkan fungsi teks ke ucapan kepada API pihak ketiga sebagai jambatan.
Google Cloud API
Di sinilah Google Cloud memainkan peranan. Google membangunkan API teks ke ucapan yang mantap dengan pelbagai struktur caj. Mana-mana pembangun aplikasi yang perlukan fungsi teks ke ucapan boleh menggunakan ciri TTS Google ini. Ya, TTS ialah singkatan bagi teks ke ucapan.
Mulakan dengan pantas di Google Cloud Console https://cloud.google.com/. Anda boleh dapatkan tutorial, urus akaun perkhidmatan anda, akses suara wavenet dan banyak lagi.
Google Cloud ialah platform awan daripada Google yang menawarkan pelbagai perkhidmatan modular. Anda boleh pilih satu atau banyak servis. Anda hanya perlu cipta kunci akses untuk setiap API — sebagai jambatan. Kebanyakan servis ini berbayar tetapi mungkin ada kuota percuma terhad.
Google membeli DeepMind pada 2014 kerana teknologi teks ke ucapan dan pembangunan rangkaian neural mereka. Jadi, jika anda jumpa DeepMind, kini ia dikenali sebagai Google DeepMind.
Sekarang anda sudah faham asas-asasnya, mari kita teroka dengan lebih mendalam Google Cloud Text to Speech API.
Ciri-ciri Google Text to Speech API
Google ialah peneraju teknologi global. Untuk API TTS ini, anda boleh jangkakan ciri bertaraf dunia yang sentiasa dikemas kini.
Ucapan Berkualiti Tinggi
Suara teks ke ucapan Google antara yang terbaik di pasaran. Ia kedengaran semula jadi dan intonasinya realistik. TTS masih di fasa awal; sesiapa yang mampu hasilkan suara seakan manusia akan menguasai bidang ini.
Pilihan Pelbagai Suara
Google menawarkan pilihan suara yang sangat luas, jadi projek anda tidak perlu berbunyi sama dengan aplikasi lain atau pesaing anda.
Cipta Suara Sendiri
Ini hampir sama seperti teknologi pengklonan suara. Anda boleh cipta suara tersendiri dengan rakaman suara anda sendiri atau orang lain, dengan keizinan mereka. Kemudian gunakan suara ini untuk pembacaan teks anda.
Neural Voices
Suara neural menawarkan kualiti terbaik antara semua pilihan. Anda juga boleh menjadikannya bertaraf antarabangsa untuk menjangkau audiens global.
Studio Voices
Suara studio ialah suara berkualiti profesional, seolah-olah dirakam menggunakan kaedah rakaman tradisional.
Pelarasan Suara
Pilih suara kemudian laraskan kelajuan, nada, dan sebagainya untuk sesuaikan gaya dan tona suara pilihan anda.
Berapa Kos Google Text to Speech API?
Kos bergantung pada kualiti suara dan panjang teks anda. Lagi semula jadi bunyinya, biasanya lagi tinggi kadar caj. Namun harganya masih berpatutan; malah suara premium pun tidak terlalu mahal.
| Jenis suara | Percuma setiap bulan | Selepas penggunaan percuma |
| Neural2 voices | 0 hingga 1 juta bait | $16 per sejuta bait |
| Polyglot voices | 0 hingga 1 juta bait | $16 per sejuta bait |
| Studio voices | 0 hingga 100,000 bait | $160 per sejuta bait |
| Standard voices | 0 hingga 4 juta aksara | $4 per sejuta aksara |
| Wavenet voices | 0 hingga 1 juta aksara | $16 per sejuta aksara |
Apa Beza Aksara & Bait
Seperti yang anda lihat, harga banyak berubah mengikut kualiti suara. Penukaran dan pengekodan audio juga memberi kesan. Untuk Standard Voices, caj dikira mengikut aksara kerana prosesnya lebih ringkas.
Jika projek anda ada 4 juta aksara, kosnya $16 untuk menukar semua aksara itu mengikut kadar Standard Characters.
Tetapi Studio Voices memerlukan kuasa proses yang lebih tinggi dan dikira berdasarkan bait. Sesetengah bahasa, seperti Jepun, satu aksara mungkin terdiri daripada beberapa bait.
Jadi untuk anggaran harga paling tepat, pilih bahasa anda dan fahami purata bait bagi setiap aksara untuk kiraan yang lebih tepat.
Cara Setup Projek API Google Cloud Teks ke Ucapan?
- Cipta akaun Google Cloud atau log masuk di sini
- Cipta projek baru dan namakan dengan jelas
- Tambah kaedah pembayaran. Anda hanya akan dicaj berdasarkan penggunaan.
- Pilih projek anda dan pautkan ke akaun pembayaran.
- Aktifkan Text-to-Speech API. Cari "speech" di bar carian di bahagian atas.
- Pilih Cloud Text-to-Speech API daripada hasil carian
- Sediakan pengesahan untuk persekitaran pembangunan anda. Ikuti arahan Set up authentication for Text-to-Speech.
Anda juga boleh cuba Text-to-Speech tanpa sambungan ke projek anda:
- Pilih pilihan TRY THIS API.
- Untuk aktifkan Text-to-Speech API, klik ENABLE.
Rujuk Dokumentasi Google Cloud untuk bantuan lanjut.
Cara Nyahaktif API Teks ke Ucapan
Untuk menyahaktifkan API Teks ke Ucapan, pergi ke dashboard Google Cloud Platform anda dan klik "Go to APIs overview" dalam kotak APIs. Cari Text-to-Speech API, klik padanya, kemudian pilih "DISABLE API" di bahagian atas halaman.
Mulakan dengan Google Text to Speech API
Selepas projek anda disediakan, anda boleh gunakan command line untuk bermula.
gcloud initCipta pengesahan setempat
gcloud auth application-default loginSekarang anda boleh pasang perpustakaan klien. Contoh ini menggunakan Node.js
npm install --save @google-cloud/text-to-speechAPI Google Cloud Text to Speech Menyokong Bahasa Berikut:
- Go
- Java
- Node.js
- C++
- C#
- PHP
- Python
- Ruby
- TypeScript
- Terraform
- YAML
Bagaimana Google Cloud API Berfungsi?
Semuanya bermula dengan satu panggilan API. Anda hantar teks dalam permintaan transkrip dan akan terima fail audio. Anda boleh pilih suara, bahasa, dan sebagainya — kemudian API teks ke ucapan akan memulangkan fail audio kepada anda.
Pelajari cara pasang dan guna pustaka klien teks ke ucapan di sini. Sampel kod kami menggunakan Node.js. Tetapi anda boleh pilih bahasa lain seperti Python atau PHP — ikut keperluan anda.
const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');
const client = new textToSpeech.TextToSpeechClient();
/**
* TODO(developer): Uncomment the following lines before running the sample.
*/
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';
const request = {
input: {text: text},
voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);Itu sahaja! Anda telah menyediakan Google Cloud Text to Speech API dan menghantar permintaan pertama anda. Fail audio boleh dimuat turun dalam beberapa format — daripada OGG hinggalah ke MP3.
Antara Cara Menggunakan Google Text to Speech API
API Google Text to Speech (TTS) menawarkan pelbagai penyelesaian merentasi industri. Antara kegunaan umum:
- Teks ke Ucapan untuk Pengguna Masalah Penglihatan: Guna TTS untuk menukar kandungan bertulis kepada suara, memudahkan akses digital kepada pengguna kurang penglihatan.
- Sistem Telefon Automatik: Guna TTS untuk prompt dan respons suara antaramuka (IVR) di pusat bantuan pelanggan atau talian maklumat.
- Voiceover untuk Media: Hasilkan voiceover semula jadi untuk video, podcast, dan multimedia bagi pengalaman pengguna yang lebih baik.
- Teks ke Ucapan untuk Kandungan Terjemahan: Tukar teks terjemahan kepada ucapan untuk bantu pembelajaran bahasa, komunikasi antarabangsa, dan kandungan pelbagai bahasa.
- Bantuan Membaca untuk Disleksia: Sediakan fungsi TTS untuk bantu individu disleksia atau masalah membaca mengakses kandungan bertulis.
- Navigasi Suara dalam Aplikasi: Guna TTS dalam aplikasi navigasi untuk arahan atau maklumat lokasi secara audio.
- Teks ke Ucapan untuk Kandungan Pendidikan: Tingkatkan e-pembelajaran dengan menukar teks ke ucapan untuk bantu pemahaman dan penglibatan.
- Sintesis Suara untuk Aplikasi Produktiviti: Guna TTS dalam alat seperti nota atau pengurusan tugas untuk maklum balas atau carian maklumat secara suara.
- Suara Semula Jadi untuk Pembantu Maya: Sokong pembantu maya dengan TTS yang natural untuk interaksi suara lebih mesra pengguna.
- Amaran dan Notifikasi Audio: Guna TTS bagi amaran, notifikasi, atau status pada peranti IoT secara suara untuk tingkatkan kesedaran pengguna.
Alternatif Terbaik ke Google Cloud TTS API
Setakat pengetahuan saya pada Januari 2022, terdapat beberapa pilihan lain selain Google Text to Speech API. Populariti dan keupayaan perkhidmatan ini mungkin telah berubah. Berikut antara alternatif terkenal:
- Speechify Text to Speech API: Speechify Text to Speech API menawarkan lebih 1,000 suara AI yang realistik dan penuh emosi AI voices dalam 60+ bahasa dan dialek. Tempah tempat anda hari ini.
- Amazon Polly: Ditawarkan oleh AWS, Polly menghasilkan ucapan realistik dalam pelbagai bahasa dan suara, serta serasi dengan servis AWS lain.
- Microsoft Azure Speech Service: Termasuk fungsi Teks ke Ucapan untuk pelbagai aplikasi, contohnya pembantu suara, navigasi, dan sebagainya.
- IBM Watson Text to Speech: IBM Watson menawarkan servis Teks ke Ucapan untuk menukar teks kepada suara realistik dengan pelbagai pilihan suara.
- Nuance Communications: Nuance menyediakan pelbagai solusi pengenalan suara termasuk teks ke ucapan khusus untuk bidang kesihatan, automotif dan khidmat pelanggan.
- CereProc: CereProc ialah syarikat teknologi teks ke ucapan yang menghasilkan suara sintetik berkualiti untuk aksesibiliti, hiburan atau komunikasi.
- iSpeech: iSpeech menyediakan perkhidmatan cloud teks ke ucapan dengan sokongan pelbagai bahasa — sesuai untuk aplikasi mudah alih dan web.
- ResponsiveVoice: ResponsiveVoice menawarkan API teks ke ucapan mesra web yang mudah digunakan dan berharga rendah.
- Neospeech: Neospeech menawarkan solusi teks ke ucapan dengan suara realistik — sesuai untuk pembelajaran, hiburan dan lain-lain.
- ReadSpeaker: ReadSpeaker menyediakan solusi teks ke ucapan dalam talian dan luar talian untuk laman web, e-pembelajaran, aksesibiliti dan banyak lagi.
- Acapelabox: Acapela Group mempunyai API teks ke ucapan berasaskan awan, Acapelabox, yang menyokong banyak bahasa dan suara untuk pelbagai industri.
Soalan Lazim (FAQ)
Google ada banyak lapisan suara dan hampir setiap lapisan ada had percuma. Contohnya, suara standard percuma sehingga sejuta bait pertama. Seterusnya $16 per juta bait. Jadi, ya, ada tawaran percuma terhad berdasarkan bait/aksara.
Cipta akaun di https://cloud.google.com/text-to-speech/ dan ikut langkah di sana. Proses lengkap ada dalam blog ini di atas.
Anda boleh dapatkan kunci API dengan log masuk ke akaun Google Cloud dan mencipta projek baharu. Selepas projek dibuat, anda boleh jana kunci API.
URL untuk Google Text to Speech API ialah https://cloud.google.com/text-to-speech/
Secara teknikal tiada tempoh percubaan percuma untuk Google Cloud. Setiap perkhidmatan ada terma dan tawaran percuma tersendiri.
Tidak. Google Cloud Text to Speech API memerlukan sambungan internet.
Pengesahan ke perkhidmatan Google Cloud, termasuk Text to Speech API, boleh menggunakan kunci API, OAuth 2.0 atau akaun servis. Jenis pengesahan bergantung pada kes penggunaan dan aplikasi.
Saya akan beri 5 bintang. Mudah digunakan, fungsi carian terbaik dan harga pun berpatutan. Produk ini memang memuaskan.
API Google Text to Speech menyediakan pustaka klien untuk pelbagai bahasa pengaturcaraan (termasuk Python). Ia juga menyokong RESTful API, jadi boleh digunakan bersama mana-mana bahasa yang boleh membuat permintaan HTTP.
Integrasi API Google Text to Speech ke Android melibatkan penggunaan kelas TextToSpeech dan membuat permintaan API. Arahan terperinci boleh didapati dalam dokumentasi rasmi Android.
Untuk guna Google Text to Speech API dalam aplikasi JavaScript, buat permintaan HTTP ke endpoint API. Prosesnya melibatkan pembinaan permintaan API yang betul dan mengurus balasan dalam kod anda. Rujuk dokumentasi rasmi untuk maklumat lanjut.

