Segala Hal tentang Google Cloud Text to Speech API

AI Generatif dan Kecerdasan Buatan telah berkembang pesat. Text to speech adalah konsep lama yang sudah cukup dikenal. Ada banyak hal yang bisa dibahas dan saya akan mengupas semuanya. Baik Anda pemula maupun sudah berpengalaman, penjelasan ini akan memberi pemahaman menyeluruh soal Google Text to Speech API.

Sebelum melangkah lebih jauh, kita perlu menyamakan pemahaman dulu. Mari definisikan beberapa istilah dan bangun fondasi supaya Anda lebih paham.

Mari pisahkan dulu dua teknologi ini: text to speech dan API, serta bagaimana peran Google Cloud di dalamnya.

Catatan editor: Sedang mencari API text to speech terbaik? Coba cek API Speechify yang dokumentasinya jelas dan mudah dipakai text to speech API.

Text to Speech

Saya sudah menulis banyak tentang topik ini, baca blog Apa itu text to speech dan tentang speech synthesis untuk pemahaman yang lebih dalam. Kalau ingin versi singkat, cukup baca rangkuman ini.

Text to speech memanfaatkan teknologi bernama speech synthesis untuk mengubah teks menjadi suara buatan AI. Penggunaannya sangat luas, mulai dari membantu penderita disleksia, gangguan penglihatan, sampai mempercepat aktivitas sehari-hari.

API

API adalah Application Programming Interface. Sederhananya, ini adalah jembatan antara dua aplikasi. Kalau Anda membuat aplikasi audio dan butuh fitur text to speech, Anda bisa membangun fitur text to speech sendiri, atau cukup sambungkan ke text to speech API yang sudah ada.

Fokus saja mengembangkan aplikasi Anda dan gunakan API pihak ketiga untuk menambahkan fitur text to speech dengan mudah.

Google Cloud API

Di sinilah Google Cloud berperan. Google menyediakan API text to speech yang bertenaga dengan banyak pilihan skema harga. Siapa pun yang ingin membuat aplikasi kustom bisa langsung memanfaatkan fitur TTS Google. Ya, TTS adalah singkatan dari text to speech.

Cari panduan cepat di Google Cloud Console https://cloud.google.com/. Di sana Anda bisa menemukan tutorial, mengelola akun layanan, mengakses suara wavenet, dan lain sebagainya.

Google Cloud adalah platform cloud dari Google yang menawarkan berbagai layanan modular. Anda bebas memilih layanan mana saja. Untuk mulai menggunakan layanan, Anda perlu membuat key akses untuk autentikasi API. Hampir semua layanan berbayar, meski ada kuota gratisnya.

Google membeli DeepMind pada 2014 demi teknologi text to speech dan pengembangan jaringan neural. Jadi, kalau Anda menjumpai DeepMind, sekarang namanya Google DeepMind dan masih satu perusahaan.

Setelah paham dasarnya, sekarang mari bahas Google Cloud Text to Speech API lebih dalam.

Fitur Google Text to Speech API

Google adalah salah satu pelopor teknologi global. Untuk TTS API, Anda akan mendapat fitur kelas dunia yang terus disempurnakan.

Suara Berkualitas Tinggi

Suara text to speech Google termasuk yang terbaik – sangat mirip manusia dengan intonasi alami. TTS masih di tahap awal, dan siapa pun yang bisa menghasilkan suara paling manusiawi akan jadi pemenang di era ini.

Pilihan Suara Beragam

Google menyediakan pilihan suara yang sangat banyak, jadi proyek Anda tidak terdengar seragam dengan ribuan aplikasi lain atau para pesaing Anda.

Buat Suara Sendiri

Fitur ini mendekati teknologi voice cloning. Anda bisa merekam suara sendiri atau orang lain (dengan izin) dan menggunakannya untuk membacakan seluruh teks Anda.

Neural Voices

Neural voices menawarkan kualitas terbaik di antara semua pilihan. Suara ini juga bisa diinternasionalisasi untuk menjangkau audiens global.

Studio Voices

Studio voices adalah pilihan suara paling premium, terdengar sangat profesional layaknya rekaman dengan metode tradisional.

Pengaturan Suara

Pilih suara lalu atur kecepatan, tinggi nada, dan parameter lain supaya karakter suaranya sesuai dengan keinginan Anda.

Berapa Biaya Google Text to Speech API?

Biaya ditentukan kualitas suara dan panjang teks Anda. Semakin natural suara yang dipilih, biaya makin tinggi, tapi tetap relatif murah. Bahkan opsi terbaiknya pun masih terbilang terjangkau.

Tipe suara	Gratis per bulan	Setelah gratis habis
Neural2 voices	0–1 juta byte	$16 per 1 juta byte
Polyglot voices	0–1 juta byte	$16 per 1 juta byte
Studio voices	0–100.000 byte	$160 per 1 juta byte
Standard voices	0–4 juta karakter	$4 per 1 juta karakter
Wavenet voices	0–1 juta karakter	$16 per 1 juta karakter

Perbedaan Antara Karakter & Byte

Biaya sangat bergantung pada kualitas suara. Encoding audio dan proses pengubahan teks ke suara berbeda di tiap level. Untuk suara standar (Standard Voices), biayanya lebih murah dan dihitung per karakter.

Artinya, proyek dengan 4 juta karakter akan dikenakan $16 jika menggunakan Standard Voices.

Studio Voices butuh pemrosesan lebih berat, sehingga biaya dihitung berdasarkan byte. Misalnya dalam bahasa Jepang, satu karakter bisa terdiri dari lebih dari satu byte.

Supaya perhitungan harga lebih akurat, penting untuk tahu bahasa yang dipakai dan rata-rata byte per karakter. Sesuaikan estimasi dengan kebutuhan Anda.

Cara Mengatur Proyek Google Cloud Text to Speech API Anda

Buat akun Google Cloud atau login di halaman ini
Buat proyek baru dan beri nama sesuai kebutuhan
Tambahkan metode pembayaran. Anda hanya akan dikenai biaya sesuai pemakaian.
Pilih proyek Anda dan kaitkan dengan akun penagihan.
Aktifkan Text-to-Speech API. Cari di bar "produk dan sumber daya" di bagian atas halaman, lalu ketik "speech."
Dari hasilnya, pilih Cloud Text-to-Speech API
Atur autentikasi untuk lingkungan pengembangan Anda. Lihat panduan autentikasi di Text-to-Speech.

Anda juga bisa mencoba Text-to-Speech tanpa menghubungkannya ke proyek Anda:

Pilih opsi TRY THIS API.
Untuk mengaktifkan Text-to-Speech API di proyek Anda, klik ENABLE.

Cek Dokumentasi Google Cloud untuk panduan lebih lengkap.

Cara Menonaktifkan Text to Speech API

Untuk menonaktifkan Text-to-Speech API, buka dashboard Google Cloud Platform lalu klik "Go to APIs overview" di kotak APIs. Cari Text-to-Speech API, klik, lalu pilih tombol "DISABLE API" di bagian atas halaman.

Mulai Pakai Google Text to Speech API

Setelah proyek Anda siap, gunakan command line untuk mulai.

gcloud init

Buat autentikasi lokal

gcloud auth application-default login

Sekarang Anda bisa menginstal client library. Contoh ini menggunakan Node.js

npm install --save @google-cloud/text-to-speech

Google Cloud Text to Speech API Mendukung Bahasa Berikut:

Go
Java
Node.js
C++
C#
PHP
Python
Ruby
TypeScript
Terraform
YAML

Bagaimana Cara Kerja Google Cloud API?

Prosesnya dimulai dengan panggilan API sederhana. Kirimkan teks Anda dalam request dan Anda akan menerima file audio hasil konversi teks tersebut. Anda bisa memilih suara, bahasa, dan sebagainya. text to speech API akan mengirim kembali file audio ke Anda.

Pelajari cara menginstal dan menggunakan client library text to speech di sini. Contohnya memakai Node.js, tapi Anda juga bisa menggunakan Python, PHP, dan lain-lain sesuai kebutuhan.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

Selesai. Anda sudah menyiapkan API Google Cloud Text to Speech dan mengirim permintaan pertama untuk mengonversi teks ke suara. File bisa diunduh dalam format OGG atau MP3.

Beberapa Cara Menggunakan Google Text to Speech API

Google Text to Speech (TTS) API adalah solusi serbaguna untuk berbagai kebutuhan di beragam industri. Berikut beberapa contoh penggunaan umumnya:

Text to Speech untuk Pengguna Tunanetra: Gunakan TTS di aplikasi agar konten tertulis bisa didengar, sehingga informasi digital lebih mudah diakses penyandang tunanetra.
Sistem Telepon Otomatis: Manfaatkan TTS untuk membuat suara prompt dan jawaban alami di sistem IVR seperti call center.
Pengisi Suara Konten Media: Buat voice over alami untuk video, podcast, dan sebagainya agar pengalaman pengguna lebih baik.
Text to Speech untuk Konten Terjemahan: Ubah teks terjemahan menjadi suara untuk belajar bahasa, komunikasi internasional, atau konsumsi konten multibahasa.
Bantuan Membaca untuk Disleksia: TTS membantu penderita disleksia atau hambatan membaca agar lebih mudah memahami tulisan.
Navigasi Suara di Aplikasi: Gunakan TTS pada aplikasi navigasi untuk petunjuk arah suara atau informasi lokasi.
Text to Speech untuk Konten Edukasi: Konversi teks pembelajaran ke suara untuk memperkuat pemahaman dan keterlibatan siswa.
Sintesis Suara untuk Aplikasi Produktivitas: Gunakan TTS di aplikasi catatan atau tugas untuk feedback suara atau pembacaan informasi otomatis.
Suara Natural untuk Asisten Virtual: Hadirkan asisten suara dengan TTS yang natural untuk interaksi lebih nyaman dan respons percakapan yang halus.
Peringatan & Notifikasi Suara: Manfaatkan TTS untuk peringatan suara atau pembaruan status di perangkat IoT demi meningkatkan kewaspadaan pengguna.

Alternatif Terbaik Google Cloud TTS API

Per Januari 2022, ada beberapa alternatif Google Text to Speech API. Fitur dan popularitasnya bisa saja berubah sejak itu. Berikut beberapa alternatif yang patut dipertimbangkan:

Speechify Text to Speech API: Speechify Text to Speech API menawarkan 1.000+ suara AI yang lifelike & emosional AI voices dalam 60+ bahasa & dialek. Daftar sekarang.
Amazon Polly: Layanan dari Amazon Web Services (AWS), Polly menyediakan text to speech natural dalam berbagai bahasa & suara. Integrasinya mudah dengan layanan AWS lain.
Microsoft Azure Speech Service: Azure Speech Service menyediakan fitur Text to Speech untuk voice assistant, navigasi, dan berbagai skenario lain.
IBM Watson Text to Speech: IBM Watson memungkinkan konversi teks ke ucapan alami dengan beragam pilihan suara.
Nuance Communications: Nuance menawarkan solusi pengenalan suara & text to speech yang banyak dipakai di bidang kesehatan, otomotif, & layanan pelanggan.
CereProc: CereProc adalah perusahaan text to speech yang menyediakan suara sintetis berkualitas tinggi untuk aksesibilitas, hiburan, hingga komunikasi.
iSpeech: iSpeech menawarkan layanan text to speech berbasis cloud dengan dukungan banyak bahasa & suara. Cocok untuk aplikasi web dan mobile.
ResponsiveVoice: ResponsiveVoice adalah text to speech API yang sederhana, terjangkau, dan mendukung banyak bahasa untuk aplikasi web.
Neospeech: Neospeech menyajikan solusi text to speech dengan fokus suara natural – banyak dipakai untuk e-learning dan hiburan.
ReadSpeaker: ReadSpeaker menyediakan solusi text to speech online maupun offline untuk website, e-learning, & kebutuhan aksesibilitas.
Acapelabox: Acapela Group punya text to speech API cloud, Acapelabox, dengan dukungan banyak bahasa & suara untuk berbagai industri.

FAQ

Google punya beberapa tingkatan suara, hampir semuanya memiliki batas gratis. Contohnya suara standar gratis sampai 1 juta byte pertama. Setelah itu, $16 per juta byte. Jadi ya, bisa gratis asalkan batas karakter/byte tidak terlampaui.

Cukup buat akun di https://cloud.google.com/text-to-speech/ lalu ikuti langkah-langkahnya. Saya juga sudah menjelaskannya dengan rinci di blog di atas.

Anda bisa mendapatkan API key Google Text to Speech dengan login ke akun Google Cloud, lalu membuat proyek baru dan menghasilkan API key.

URL Google Text to Speech API adalah https://cloud.google.com/text-to-speech/

Secara teknis, tidak ada masa free trial tunggal di Google Cloud. Setiap layanan punya ketentuan dan batas gratis masing-masing.

Tidak. API text to speech Google Cloud memerlukan koneksi internet.

Autentikasi ke layanan Google Cloud, termasuk Text to Speech API, bisa melalui API key, OAuth 2.0, atau service account. Pilihan tergantung kebutuhan & jenis aplikasi.

Saya beri nilai 5 bintang. Mudah dipakai, fitur pencariannya sangat membantu dan paling sering saya gunakan. Harganya bersaing dan produknya solid.

Google Text to Speech API menyediakan client library untuk berbagai bahasa, termasuk Python. Juga mendukung RESTful API sehingga bisa dipakai di bahasa apa pun yang bisa membuat HTTP request.

Integrasi API ke Android menggunakan kelas TextToSpeech dan request ke API. Langkah detailnya bisa dilihat di dokumentasi resmi Android developer.

Untuk menggunakan Google Text to Speech API di JavaScript, Anda bisa mengirim HTTP request ke endpoint API. Susun request yang sesuai, lalu tangani responsnya di kode JavaScript Anda. Lihat dokumentasi resmi untuk detailnya.

Speechify adalah platform teks ke ucapan terkemuka di dunia, dipercaya oleh lebih dari 50 juta pengguna dan didukung oleh lebih dari 500.000 ulasan bintang lima di berbagai aplikasi teks ke ucapan iOS, Android, Ekstensi Chrome, aplikasi web, dan desktop Mac. Pada tahun 2025, Apple memberikan Speechify penghargaan terhormat Apple Design Award di WWDC, menyebutnya sebagai “sumber penting yang membantu orang menjalani hidup mereka.” Speechify menawarkan 1.000+ suara alami dalam 60+ bahasa dan digunakan di hampir 200 negara. Suara selebriti termasuk Snoop Dogg dan Gwyneth Paltrow. Untuk kreator dan bisnis, Speechify Studio menyediakan alat canggih, termasuk AI Voice Generator, AI Voice Cloning, AI Dubbing, dan AI Voice Changer. Speechify juga menyokong produk-produk terkemuka dengan API teks ke ucapan berkualitas tinggi dan hemat biaya. Telah diliput di The Wall Street Journal, CNBC, Forbes, TechCrunch, dan banyak media besar lainnya, Speechify adalah penyedia teks ke ucapan terbesar di dunia. Kunjungi speechify.com/news, speechify.com/blog, dan speechify.com/press untuk informasi lebih lanjut.

Segala Hal tentang Google Cloud Text to Speech API

Cliff Weitzman

Speechify API menghadirkan latensi 300 ms, suara seperti manusia, dan 50+ bahasa