Google Cloud Text to Speech API Hakkında Bilmeniz Gereken Her Şey

Generatif Yapay Zeka ve genel olarak yapay zeka çok yol kat etti. Metinden sese teknolojisi görece eski bir kavram ve bir süredir hayatımızda. Ele alınacak epey konu var; bunları kategorize edip her açıdan inceleyeceğim. İster yeni başlayan ister profesyonel olun, bu yazı size Google Text to Speech API hakkında genel bir netlik sağlamalı.

Tamam, herhangi bir konuya dalmadan önce bazı temel kuralları netleştirmemiz gerekiyor. Önce birkaç terimi tanımlayıp sağlam bir temel oluşturalım ki üzerine rahatça inşa edebilelim.

Burada iki teknolojiyi ayıralım; metinden sese ve API’ler. Ayrıca Google Cloud’ın bu tabloya nasıl oturduğuna bakalım.

Editörün notu: Sektörün önde gelen metinden sese API’sını mı arıyorsunuz? Speechify’ın iyi dokümante edilmiş ve kullanımı kolay metinden sese API’sine göz atın.

Metinden Sese

Bu konuda kapsamlı yazılar yazdım; Metinden sese nedir başlıklı blog yazımı okuyabilir, ayrıca konuşma sentezi hakkında da bilgi edinebilirsiniz. Bunlar daha ayrıntılı içerikler, şu an okumanız şart değil. Size birkaç cümleyle özet geçeceğim.

Metinden sese, kelimeleri yapay zeka tarafından üretilen konuşmaya dönüştüren, konuşma sentezi adı verilen bir teknolojiye dayanır. Kullanım alanları oldukça geniştir. Disleksi veya görme engeli olan bireylerden, yalnızca verimliliğini artırmak isteyenlere kadar pek çok kişiye fayda sağlar.

API

API, Uygulama Programlama Arayüzü (Application Programming Interface) anlamına gelir. Basitçe söylemek gerekirse, iki uygulama arasında köprü görevi görür. Eğer sesli içeriği olan ve metinden sese işlevine ihtiyaç duyan bir uygulama geliştiriyorsanız, bu fonksiyonu sıfırdan kendiniz yazabilir ya da mevcut bir metinden sese API’sine bağlanabilirsiniz.

Uygulamanızı geliştirirken, metinden sese işlevini harici bir API üzerinden köprü gibi kullanarak metninizi sese dönüştürebilirsiniz.

Google Cloud API

İşte tam burada Google Cloud devreye giriyor. Google, gelişmiş bir metinden sese API’si geliştirdi ve bunu farklı ücretlendirme yapılarıyla geliştiricilere sunuyor. Kendi uygulamasında veya web uygulamasında metinden sese özelliğine ihtiyaç duyan herhangi bir geliştirici, Google’ın TTS özelliklerinden kolayca yararlanabilir. Evet, TTS “text to speech”in (metinden sese) kısaltmasıdır.

Google Cloud Console’da hızlı başlatmaya https://cloud.google.com/ adresinden ulaşabilirsiniz. Eğitim materyallerine göz atabilir, hizmet hesabınızı yönetebilir, wavenet sesleri kullanabilir ve daha fazlasını yapabilirsiniz.

Google Cloud’un kendisi, Google tarafından sunulan bulut tabanlı bir platformdur ve modüler pek çok hizmet sağlar. İsterseniz birini, birkaçını veya hepsini kullanabilirsiniz. Yapmanız gereken, kullanacağınız her API için kimlik doğrulama anahtarı oluşturmak, yani köprüyü kurmaktır. Çoğu hizmet ücretli olsa da genellikle belirli bir ücretsiz kullanım limiti bulunur.

Google, 2014 yılında metinden sese teknolojisi ve sinir ağı geliştirme çalışmaları nedeniyle DeepMind’ı satın aldı. Yani bir yerde DeepMind görürseniz artık Google DeepMind olduğunu ve tüm bunların aynı ekosistemin parçası olduğunu unutmayın.

Artık sağlam bir temelimiz olduğuna göre, Google Cloud Text to Speech API’ye biraz daha derinlemesine dalalım.

Google Text to Speech API Özellikleri

Google, dünya çapında bir teknoloji öncüsü ve lideridir, bunda şüphe yok. TTS API’si tarafında da sürekli gelişen, dünya standartlarında özellikler sunuyor.

Yüksek Kaliteli Konuşma

Google’ın metinden sese sesleri, sektördeki en iyi örnekler arasında sayılır. İnsan sesine oldukça yakın, doğal bir ezgi ve akışa sahiptirler. TTS hâlâ görece erken bir aşamada ve insan gibi ses üretebilen teknolojiler bu yarışta fark yaratıyor.

Ses Seçenekleri

Google, en geniş ses seçeneklerinden birine sahip olduğunu iddia ediyor; yani projenizin sesi piyasadaki diğer binlerce projeyle ya da doğrudan rakiplerinizin uygulamasıyla aynı olmak zorunda değil.

Kendi Sesinizi Oluşturun

Bu, ses klonlama teknolojisine oldukça yaklaşıyor. Kendi sesinizi oluşturmak için kendinizi ya da bir başkasını (onun izniyle) kaydedebilirsiniz. Bu kaydı, yazılarınızı sizin yerinize yüksek sesle okuyan ses olarak kullanabilirsiniz.

Sinirsel Sesler

Sinirsel sesler, tüm ses yelpazesi içinde en iyi kaliteyi sunan seçeneklerdir. Ayrıca bu sesleri farklı dillere uyarlayarak küresel kitlenizi büyütebilirsiniz.

Stüdyo Sesleri

Stüdyo sesler, en üst düzey profesyonel seslerdir ve klasik stüdyo ortamında kaydedilmiş gibi son derece profesyonel duyulur.

Ses Ayarı

Bir ses seçin ve ardından hız, perde ve diğer ayarları değiştirerek sesi ya da tonlamayı dilediğiniz gibi özelleştirin.

Google Text to Speech API Ne Kadar?

Her şey ses kalitesine ve metninizin uzunluğuna bağlı. Sesi ne kadar doğal isterseniz fiyat da o kadar artıyor. Tabii burada "pahalı" göreceli bir kavram; yüksek kaliteli sesler bile aslında oldukça makul fiyatlı.

Ses tipi	Ayda ücretsiz	Ücretsiz kullanım sonrasında
Neural2 sesler	0 - 1 milyon bayt	Milyon bayt başına 16$
Polyglot sesler	0 - 1 milyon bayt	Milyon bayt başına 16$
Stüdyo sesler	0 - 100.000 bayt	Milyon bayt başına 160$
Standart sesler	0 - 4 milyon karakter	Milyon karakter başına 4$
Wavenet sesler	0 - 1 milyon karakter	Milyon karakter başına 16$

Karakter ve Bayt Arasındaki Fark Nedir?

Gördüğünüz gibi fiyatlandırma, sesin kalitesine göre ciddi biçimde değişiyor. Metni sese çevirmek için gereken ses kodlaması ve işleme süreci, seviyeden seviyeye farklılık gösteriyor. Daha düşük seviyede, örneğin Standart Seslerde, ücretlendirme daha düşük ve karakter üzerinden hesaplanıyor.

Bu şu anlama geliyor: Projenizde 4 milyon karakter varsa, bunları Standart Seslerle sese dönüştürmek 16$’a mal olur.

Diğer yandan Stüdyo Sesler daha fazla işlem gücü gerektirir ve bayt üzerinden ücretlendirilir. Örneğin Japonca gibi bazı dillerde tek bir karakter birden fazla bayttan oluşabilir.

En doğru fiyatlandırmayı görmek için hangi dili kullandığınızı ve o dilde bir karakter başına ortalama kaç bayt gerektiğini yaklaşık olarak bilmek önemlidir.

Google Cloud Platform Text to Speech API Projenizi Nasıl Kurarsınız?

Bir Google Cloud hesabı oluşturun veya bu sayfadan giriş yapın
Yeni bir proje oluşturun ve uygun şekilde adlandırın
Bir ödeme yöntemi ekleyin. Sadece kullandığınız kadar ücret ödersiniz.
Ardından projenizi seçin ve bir fatura hesabı ile ilişkilendirin.
Text-to-Speech API'yı etkinleştirin. Sayfanın üst kısmındaki ürün ve kaynak arama çubuğuna "speech" yazın.
Görüntülenen sonuçlardan Cloud Text-to-Speech API’yı seçin.
Geliştirme ortamınız için kimlik doğrulamayı ayarlayın. Talimatlar için Text-to-Speech için kimlik doğrulamayı ayarlama bölümüne bakın.

Text-to-Speech’i projenize bağlamadan da deneyebilirsiniz:

"TRY THIS API" seçeneğini seçin.
Projenizle kullanmak için Text-to-Speech API'yı etkinleştirmek üzere ENABLE’a tıklayın.

Daha fazla bilgi için Google Cloud Dokümantasyonu'na göz atın.

Text to Speech API Nasıl Devre Dışı Bırakılır?

Text-to-Speech API’yı devre dışı bırakmak için Google Cloud Platform kontrol panelinize gidin ve API’lar kutusundaki "API'lar genel bakışa git" bağlantısına tıklayın. Text-to-Speech API'yı bulun, ardından üst kısımdaki "API’yı DEVRE DIŞI BIRAK" düğmesine tıklayın.

Google Text to Speech API ile Başlayın

Artık projenizi kurduğunuza göre, komut satırıyla işe koyulabilirsiniz.

gcloud init

Yerel kimlik doğrulamanızı oluşturun

gcloud auth application-default login

Artık bir istemci kitaplığı yükleyebilirsiniz. Bu örnekte Node.js üzerinden gideceğiz.

npm install --save @google-cloud/text-to-speech

Google Cloud Text to Speech API'nin Desteklediği Programlama Dilleri:

Go
Java
Node.js
C++
C#
PHP
Python
Ruby
TypeScript
Terraform
YAML

Google Cloud API Nasıl Çalışır?

Her şey basit bir API çağrısıyla başlar. Metninizi bir istekle gönderirsiniz ve karşılığında konuşma çıktısı içeren bir ses dosyası alırsınız. Talebinizle birlikte özel tercihler de iletebilirsiniz. Bir ses, bir dil seçer ve API size buna uygun ses dosyasını geri gönderir.

Metinden sese istemci kitaplıklarını nasıl kurup kullanacağınızı buradan öğrenebilirsiniz. Kod örneklerimiz Node.js içindir ancak isterseniz Python’dan PHP’ye kadar size en rahat gelen başka bir dili de seçebilirsiniz.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

Hepsi bu kadar. Google Cloud Text to Speech API’yı kurdunuz ve ilk metinden sese çevirinizi gönderdiniz. Dosyayı OGG’den MP3’e kadar farklı formatlarda alabilirsiniz.

Google Text to Speech API Kullanım Alanları

Google Text-to-Speech (TTS) API, birçok sektör ve farklı uygulama için esnek bir çözüm sunar. Yaygın kullanım alanlarından bazıları şunlardır:

Görme Engelliler için Metinden Sese: Uygulamalarda yazılı içeriği sese dönüştürerek dijital bilgileri görme engelli kişiler için erişilebilir kılmak.
Otomatik Telefon Sistemleri: Müşteri hizmetleri ya da bilgi hatlarında interaktif sesli yanıt sistemleri için doğal sesli yanıtlara hayat vermek.
Medya İçeriği için Seslendirmenler: Videolar, podcast’ler veya diğer multimedya içerikleri için doğal sesli dublajlar üretip kullanıcı deneyimini iyileştirmek.
Çevrilmiş İçerik için Metinden Sese: Çevrilen metni konuşmaya dönüştürerek dil öğrenimi, uluslararası iletişim veya içerik tüketimini kolaylaştırmak.
Disleksi Olanlar için Okuma Desteği: Disleksi veya okuma güçlüğü yaşayanlara metinden sese fonksiyonu sunarak yazılı içeriği daha erişilebilir hâle getirmek.
Uygulamalarda Sesli Navigasyon: Navigasyon uygulamalarına yönlendirme takibini ya da konuma dayalı bilgileri sesli olarak entegre etmek.
Eğitim İçerikleri için Metinden Sese: E-öğrenme deneyimini, metin içeriklerini sese çevirerek anlama ve etkileşimi artırmak.
Verimlilik Uygulamaları için Konuşma Sentezi: Not alma veya görev yönetimi gibi üretkenlik uygulamalarında sesli geri bildirim ya da bilgi almak için TTS entegre etmek.
Sanal Asistanlar için Doğal Ses: Sesli asistanlarda doğal sesli TTS kullanarak kullanıcı deneyimini iyileştirmek ve bilgiyi konuşma yoluyla sunmak.
Sesli Uyarı ve Bildirimler: Nesnelerin İnterneti (IoT) cihazlarında sesli uyarı, bildirim veya durum güncellemeleri sağlayarak kullanıcı farkındalığını artırmak.

Google Cloud TTS API için En İyi Alternatifler

Ocak 2022’deki son bilgi güncellememe göre, Google Text-to-Speech API’ye birden fazla alternatif mevcut. Bu hizmetlerin popülerliği ve yetenekleri zaman içinde değişmiş olabilir. İşte öne çıkan bazı alternatifler:

Speechify Text to Speech API: Dünyanın dört bir yanındaki geliştiricilere en doğal ve en beğenilen yapay zeka seslerimizi doğrudan sunan bir metinden sese API geliştirdiğimizi duyurmaktan mutluluk duyuyoruz. Şimdi kaydolun.
Amazon Polly: Amazon Web Services (AWS) tarafından sunulan Polly, çeşitli dil ve seslerde doğal konuşmaya yakın ses sentezi sağlar. Diğer AWS hizmetleriyle iyi entegre olur.
Microsoft Azure Speech Service: Azure Speech Service, Metinden Sese özellikleri içerir ve sesli asistan, navigasyon sistemleri gibi çok çeşitli uygulamaları destekler.
IBM Watson Text to Speech: IBM Watson, geliştiricilerin yazılı metni doğal konuşma sesiyle sunmasına olanak tanıyan bir Metinden Sese hizmeti sunar.
Nuance Communications: Nuance, sağlık, otomotiv ve müşteri hizmetleri gibi alanlara yönelik metinden sese dâhil birçok ses ve ses tanıma çözümü sunar.
CereProc: CereProc, yüksek kaliteli sentetik sesler sunan bir metinden sese teknoloji şirketidir ve erişilebilirlik, eğlence, iletişim gibi alanlarda çözümler sağlar.
iSpeech: iSpeech, çok dilli ve çok sesli bulut tabanlı metinden sese hizmetleri sunar. Mobil uygulamalar ve web siteleri gibi çeşitli kullanım senaryolarına uygundur.
ResponsiveVoice: ResponsiveVoice, çeşitli web tabanlı uygulamalarda kullanılabilen, çok dilli, uygun fiyatlı ve kullanımı kolay bir metinden sese API sunar.
Neospeech: Neospeech, doğal sese yakın metinden sese çözümleri ile e-öğrenme ve eğlence gibi alanlarda kullanılmak üzere teknolojiler sunar.
ReadSpeaker: ReadSpeaker, web siteleri, e-öğrenme ve erişilebilirlik hizmetleri için çevrimiçi ve çevrimdışı metinden sese çözümleri sağlar.
Acapelabox: Acapela Group, çeşitli sektörlere yönelik çok dilli ve çok sesli bulut tabanlı metinden sese API’si olan Acapelabox’ı sunar.

Google Text to Speech API SSS

Google’ın birden fazla ses katmanı var ve neredeyse her katman için ücretsiz bir sınır sunuluyor. Örneğin, standart sesler ilk milyon bayta kadar ücretsizdir. Sonrasında milyon bayt başına 16$ alınır. Yani karakter veya bayt sınırını aşmazsanız, evet ücretsiz kullanabilirsiniz.

Sadece https://cloud.google.com/text-to-speech/ adresinden bir hesap oluşturun ve oradaki adımları izleyin. Ayrıntılı süreci bu blogda da yukarıda anlattım.

Google Cloud hesabınıza giriş yaptıktan sonra bir proje oluşturup, o proje için bir API anahtarı üretebilirsiniz.

Google Text-to-Speech API adresi https://cloud.google.com/text-to-speech/

Teknik olarak Google Cloud'un belirli bir ücretsiz deneme süresi yoktur. Google Cloud içinde birden fazla hizmet bulunur ve her birinin kendi koşulları ile ücretsiz katmanları vardır.

Hayır. Google Cloud metinden sese API’sı internet bağlantısı gerektirir.

Google Cloud hizmetlerine (Text-to-Speech API dâhil) kimlik doğrulama; API anahtarları, OAuth 2.0 veya servis hesapları ile yapılabilir. Uygun kimlik doğrulama yöntemi, kullanım senaryonuza ve uygulama tipinize göre değişir.

5 yıldız verirdim. Kullanımı kolay, arama fonksiyonu harika ve en çok tercih edilen platformlardan biri. Fiyatlandırması makul ve genel olarak çok iyi bir ürün.

Google Text-to-Speech API, Python da dâhil olmak üzere çeşitli programlama dilleri için istemci kitaplıkları sağlar. Ayrıca RESTful API isteklerini destekler; bu sayede HTTP isteği gönderebilen tüm dillerle çalışabilir.

Google Text-to-Speech API'yi bir Android uygulamasına entegre etmek için TextToSpeech sınıfını kullanabilir ve API istekleri yapabilirsiniz. Detaylı talimatlar Android geliştirici resmi dokümantasyonunda yer alır.

Google Text-to-Speech API’yi bir JavaScript uygulamasında kullanmak için API uç noktasına HTTP isteği gönderebilirsiniz. Bu işlem, uygun bir API isteği oluşturmayı ve yanıtı JavaScript kodunuzda işlemeyi içerir. Ayrıntılar için resmi dokümantasyona başvurun.

Speechify dünyanın önde gelen metinden sese platformudur. 50 milyondan fazla kişi tarafından kullanılır ve 500.000'den fazla beş yıldızlı yorumla desteklenir; metinden sese iOS, Android, Chrome Eklentisi, web uygulaması ve Mac masaüstü uygulamalarında sunulur. 2025 yılında Apple, Speechify'a prestijli Apple Tasarım Ödülünü WWDC'de vermiş ve onu “insanların hayatlarını yaşamalarına yardımcı olan kritik bir kaynak” olarak nitelendirmiştir. Speechify, 60+ dilde 1.000+ doğal ses seçeneğiyle neredeyse 200 ülkede kullanılmaktadır. Ünlü seslerden bazıları Snoop Dogg ve Gwyneth Paltrow'a aittir. Yaratıcılar ve işletmeler için Speechify Studio gelişmiş araçlar sunar; bunlar arasında Yapay Zeka Ses Üreticisi, Yapay Zeka Ses Klonlama, Yapay Zeka Dublaj ve Yapay Zeka Ses Değiştirici bulunmaktadır. Speechify ayrıca üstün kalitede ve uygun maliyetli metinden sese APIsiyle önde gelen ürünlere güç verir. The Wall Street Journal, CNBC, Forbes, TechCrunch ve diğer önde gelen medya kuruluşlarında yer alan Speechify, dünyanın en büyük metinden sese sağlayıcısıdır. Daha fazla bilgi için speechify.com/news, speechify.com/blog ve speechify.com/press adreslerini ziyaret edin.