1. Acasă
  2. API
  3. Totul despre Google Cloud Text to Speech API
Updated on API

Totul despre Google Cloud Text to Speech API

Cliff Weitzman

Cliff Weitzman

CEO și fondator Speechify

API-ul Speechify oferă latență de 300 ms, voci cu sunet uman
și peste 50 de limbi

apple logoPremiul Apple Design 2025
Peste 50M de utilizatori

Inteligența Artificială generativă a evoluat mult. Text to speech este un concept relativ vechi, folosit de ani buni. Sunt multe de explicat și de împărțit pe categorii, iar în acest articol acopăr toate aspectele. Indiferent dacă ești începător sau deja expert, acest ghid îți clarifică tot ce ține de Google Text to Speech API.

Înainte să intrăm în subiect, e important să stabilim câteva reguli de bază. Hai să definim câțiva termeni ca să construim o fundație solidă.

Hai să separăm tehnologiile: text to speech și API-urile și să vedem ce rol joacă Google Cloud.

Notă editor: Cauți cel mai bun API pentru text to speech? Încearcă API-ul Speechify, bine documentat și ușor de folosit.

Text to Speech

Am scris pe larg despre acest subiect – vezi articolul meu Ce este text to speech și citește și despre sinteza vocală pentru a înțelege subiectul în profunzime. Acestea intră mai în detaliu, dar poți să sari peste ele acum. Rezum principalele idei mai jos.

Text to speech folosește sinteza vocală pentru a converti cuvintele în vorbire generată de AI. Există multe aplicații: de la ajutor pentru dislexie sau probleme de vedere la creșterea productivității pentru oricine.

API

API vine de la Application Programming Interface. Practic, este o punte între două aplicații. Dacă dezvolți o aplicație cu conținut audio care are nevoie de funcționalitate de text to speech, poți construi singur această funcție sau te conectezi la un text to speech API deja existent, precum Speechify.

Te concentrezi pe dezvoltarea aplicației tale și lași funcția text to speech în grija unui API extern, care face legătura dintre ele.

Google Cloud API

Aici intră în scenă Google Cloud. Google a dezvoltat un API puternic pentru text to speech, disponibil dezvoltatorilor la diverse costuri. Oricine vrea să creeze aplicații ce au nevoie de funcționalitate text to speech poate folosi Google TTS. Da, TTS = text to speech.

Găsești instrucțiuni rapide în Google Cloud Console la https://cloud.google.com/. Ai la dispoziție tutoriale, administrare, voci wavenet și altele.

Google Cloud este o platformă cloud care oferă multe servicii modulare. Poți folosi unul sau mai multe servicii, după nevoie. Ai nevoie doar de chei de acces pentru fiecare API. Majoritatea serviciilor sunt contra cost, dar există și un nivel gratuit limitat.

Google a cumpărat DeepMind în 2014 pentru tehnologia text to speech și cercetare neurală. DeepMind e acum Google DeepMind, divizia lor de AI.

Acum că avem o bază clară, putem intra în detalii despre Google Cloud Text to Speech API.

Funcții Google Text to Speech API

Google este un lider global în tech – fără îndoială. În API-ul TTS găsești facilități de top, care evoluează constant.

Voci de Înaltă Fidelitate

Vocile text to speech Google sunt printre cele mai bune din industrie. Sună natural, cu intonație autentică. TTS e încă în plină dezvoltare, iar cine poate sintetiza cel mai natural vocea umană va câștiga această cursă.

Selecție mare de Voci

Google promite una dintre cele mai largi varietăți de voci – proiectul tău nu trebuie să semene cu altele și nici cu aplicația concurenței.

Creează-ți propria voce

Aici intră în joc tehnologia de voice cloning. Îți poți crea propria voce prin înregistrare, cu permisiune. Aceasta va citi orice text.

Voci neurale

Vocile neurale au cea mai înaltă calitate din selecție. Le poți internaționaliza pentru un public global.

Voci Studio

Vocile Studio sunt cele mai profesionale, cu sunet comparabil cu o înregistrare tradițională.

Ajustare voce

Alegi vocea, apoi ajustezi viteza, tonalitatea și alte detalii, ca să personalizezi sunetul.

Cât costă Google Text to Speech API?

Costul depinde de calitatea vocii și lungimea textului. Cu cât vrei voce mai naturală, cu atât prețul e mai mare – dar chiar și cele premium sunt, în general, accesibile.

Tip voceGratuit/lunăDupă depășirea gratuitului
Voci Neural20 – 1 milion bytes$16 per milion de bytes
Voci Polyglot0 – 1 milion bytes$16 per milion de bytes
Voci Studio0 – 100.000 bytes$160 per milion de bytes
Voci Standard0 – 4 milioane caractere$4 per milion de caractere
Voci Wavenet0 – 1 milion caractere$16 per milion de caractere

Diferența dintre caractere și bytes

Tarifele diferă mult în funcție de calitatea vocii. Codarea audio și procesarea pentru transformarea textului în voce variază pe niveluri. La nivel standard, costul e mai mic și se măsoară la caractere.

Deci, dacă ai 4 milioane de caractere, costul pentru conversie cu Voci Standard este de $16.

Vocile Studio au nevoie de procesare mai mare și tarifarea se face pe bytes. La unele limbi, ca japoneza, un caracter poate fi format din mai mulți bytes.

Pentru calcule corecte de cost, e important să știi în ce limbă lucrezi și media de bytes/caracter, ca să estimezi corespunzător.

Cum configurezi Google Cloud Text to Speech API?

  1. Creează un cont Google Cloud sau autentifică-te aici
  2. Creează un nou proiect și dă-i un nume
  3. Adaugă un mod de plată. Plătești doar ce folosești.
  4. Alege proiectul și leagă-l de un cont de plată.
  5. Activează Text-to-Speech API. În bara de căutare de sus, scrie "speech".
  6. Alege Cloud Text-to-Speech API din rezultate.
  7. Configurează autentificarea mediului tău de dezvoltare. Vezi instrucțiunile pentru configurarea autentificării TTS.

Poți testa Text-to-Speech și fără să-l legi la un proiect:

  1. Alege opțiunea TRY THIS API.
  2. Pentru a activa API-ul în proiectul tău, apasă ENABLE.

Vezi documentația Google Cloud pentru ajutor suplimentar.

Cum dezactivezi Text to Speech API

Pentru a dezactiva Text-to-Speech API, accesează dashboardul platformei Google Cloud și dă click pe „Go to APIs overview” în cutia APIs. Găsește Text-to-Speech API, apasă pe el și apoi selectează „DISABLE API” sus pe pagină.

Începe cu Google Text to Speech API

După ce ai setat proiectul, poți folosi linia de comandă pentru a porni la drum.

gcloud init

Creează autentificare locală

gcloud auth application-default login

Acum poți instala o librărie client, de exemplu pentru Node.js

npm install --save @google-cloud/text-to-speech

Google Cloud Text to Speech API suportă aceste limbaje:

  1. Go
  2. Java
  3. Node.js
  4. C++
  5. C#
  6. PHP
  7. Python
  8. Ruby
  9. TypeScript
  10. Terraform
  11. YAML

Cum funcționează Google Cloud API?

Totul pornește de la un simplu apel API. Trimiți textul tău, iar API-ul returnează un fișier audio cu textul transpus în vorbire. La cerere, poți alege voce, limbă și alte opțiuni, apoi text to speech API îți trimite fișierul audio.

Poți afla cum să instalezi și să folosești librăriile client TTS aici. Exemplele sunt pentru Node.js, dar poți lucra și cu Python sau PHP. Cum preferi.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

Asta e tot. Ai configurat Google Cloud Text to Speech API și ai trimis prima cerere de conversie text-to-speech. Poți primi fișierul în diverse formate: de la OGG la MP3.

Câteva utilizări ale Google Text to Speech API

Google Text to Speech (TTS) API este suficient de flexibil pentru multe industrii. Câteva exemple de utilizări:

  1. Text to Speech pentru persoane cu deficiențe de vedere: Transformă conținutul scris în vorbire pentru utilizatori cu deficiențe de vedere.
  2. Sisteme telefonice automate: Folosește TTS pentru mesaje și răspunsuri naturale în servicii clienți sau call center.
  3. Voice-over pentru media: Creează voci naturale pentru video, podcast sau multimedia, îmbunătățind experiența utilizatorului.
  4. Text to Speech pentru conținut tradus: Convertirea textului tradus în vorbire ajută la învățarea limbilor și la comunicare internațională.
  5. Asistență la citire pentru dislexici: Funcționalitate TTS pentru cei cu dislexie sau dificultăți de lectură.
  6. Navigație vocală în aplicații: Integrează TTS în aplicații de navigare pentru ghidare și informații audio.
  7. Text to Speech pentru educație: Îmbunătățește e-learningul transformând textul educațional în vorbire.
  8. Sinteză vocală în aplicații de productivitate: TTS pentru aplicații de notițe sau sarcini cu feedback audio.
  9. Voce naturală pentru asistenți virtuali: TTS natural pentru asistenți vocali, pentru dialog mai fluent.
  10. Alerte și notificări audio: TTS pentru alerte și notificări IoT, pentru informare rapidă.

Cele mai bune alternative la Google Cloud TTS API

La ultima mea documentare, în ianuarie 2022, existau mai multe alternative la Google Text to Speech API. Popularitatea și calitățile lor se pot fi schimbat de atunci. Iată câteva exemple:

  1. Speechify Text to Speech API: API-ul Speechify oferă peste 1.000 de voci realiste și cu emoție AI voices în 60+ limbi și regiuni. Rezervă locul azi.
  2. Amazon Polly: Oferit de AWS, Polly are voci naturale în multe limbi. Se integrează ușor cu restul serviciilor AWS.
  3. Microsoft Azure Speech Service: Azure Speech Service are funcții Text to Speech utile pentru asistenți vocali, navigație etc.
  4. IBM Watson Text to Speech: IBM Watson convertește textul scris în voce naturală folosind diverse voci.
  5. Nuance Communications: Nuance oferă soluții de recunoaștere vocală și text to speech, în special pentru sănătate, auto și servicii clienți.
  6. CereProc: CereProc e o companie de text to speech cu voci sintetice de calitate pentru accesibilitate, entertainment și comunicare.
  7. iSpeech: iSpeech oferă servicii TTS cloud în mai multe limbi și voci. Perfect pentru aplicații mobile și web.
  8. ResponsiveVoice: ResponsiveVoice e un API text to speech accesibil, care suportă multe limbi și se integrează ușor în aplicații web.
  9. Neospeech: Neospeech furnizează text to speech axat pe voci naturale – folosit la e-learning și entertainment.
  10. ReadSpeaker: ReadSpeaker oferă soluții text to speech online și offline pentru website-uri, e-learning, accesibilitate.
  11. Acapelabox: Acapela Group are un API text to speech în cloud, Acapelabox, cu suport pentru mai multe limbi și voci – pentru aplicații variate.

FAQ

Google are mai multe tipuri de voci, fiecare cu un anumit prag gratuit. De exemplu, vocile Standard sunt gratuite până la un milion de bytes. După această limită, costul este de $16/milion de bytes. Deci poate fi gratuit cât timp rămâi sub limita de caractere sau bytes.

Creează cont la https://cloud.google.com/text-to-speech/ și urmează pașii de acolo. Am explicat procesul mai sus în articol.

Obții cheia API logându-te în Google Cloud, creezi un proiect nou, iar apoi poți genera o cheie API.

URL-ul pentru Google text to speech API este https://cloud.google.com/text-to-speech/

Practic nu există o perioadă de trial fixă pentru Google Cloud. Fiecare serviciu Google Cloud are propria limită și propriile reguli pentru gratuitate.

Nu. Pentru a folosi API-ul Google Cloud text to speech ai nevoie de conexiune la internet.

Autentificarea la serviciile Google Cloud, inclusiv Text to Speech API, se poate face cu API key, OAuth 2.0 sau conturi de serviciu. Metoda depinde de scop și de aplicație.

Le-aș da 5 stele. E ușor de folosit, funcția de căutare este excelentă, iar prețurile sunt bune. Per total, un produs foarte reușit.

Google Text to Speech API oferă librării client pentru diverse limbaje, inclusiv Python. Suportă și cereri REST API, deci orice limbaj care poate face request HTTP.

Integrarea API-ului în Android se face folosind clasa TextToSpeech și apeluri API. Instrucțiunile detaliate se găsesc în documentația oficială pentru Android.

Pentru integrarea API-ului în JavaScript, faci request HTTP către endpointul API și procesezi răspunsul în cod. Detalii găsești în documentația oficială.

Accesează vocile îndrăgite Speechify prin API – rapid, scalabil și prietenos cu dezvoltatorii

Obține acces API
api access banner

Distribuie acest articol

Cliff Weitzman

Cliff Weitzman

CEO și fondator Speechify

Cliff Weitzman este un susținător al persoanelor cu dislexie și CEO și fondator al Speechify, cea mai populară aplicație de conversie text-în-vorbire din lume, cu peste 100.000 de recenzii de 5 stele și aflată constant pe primul loc în App Store la categoria Știri & Reviste. În 2017, Weitzman a fost inclus în lista Forbes 30 sub 30 pentru contribuția sa la creșterea accesibilității internetului pentru persoanele cu tulburări de învățare. Cliff Weitzman a apărut în publicații precum EdSurge, Inc., PC Mag, Entrepreneur, Mashable și alte publicații de prestigiu.

speechify logo

Despre Speechify

Cititorul Text-to-Speech #1

Speechify este cea mai importantă platformă de text to speech din lume, folosită de peste 50 de milioane de utilizatori și susținută de peste 500.000 de recenzii de 5 stele pentru aplicațiile sale iOS, Android, Extensie Chrome, aplicație web și desktop Mac. În 2025, Apple a acordat Speechify prestigiosul Apple Design Award la WWDC, numindu-l „o resursă esențială care îi ajută pe oameni să își trăiască viața.” Speechify oferă peste 1.000 de voci naturale în peste 60 de limbi și este utilizat în aproape 200 de țări. Printre vocile de celebrități se numără Snoop Dogg și Gwyneth Paltrow. Pentru creatori și afaceri, Speechify Studio oferă instrumente avansate, inclusiv Generator de voce AI, Clonare vocală AI, Dublaj AI și Schimbător de voce AI. Speechify alimentează, de asemenea, produse de top cu API-ul său text to speech de înaltă calitate și rentabil. Menționat în The Wall Street Journal, CNBC, Forbes, TechCrunch și alte publicații importante, Speechify este cel mai mare furnizor de text-to-speech din lume. Vizitează speechify.com/news, speechify.com/blog și speechify.com/press pentru a afla mai multe.