Inteligența Artificială generativă a evoluat mult. Text to speech este un concept relativ vechi, folosit de ani buni. Sunt multe de explicat și de împărțit pe categorii, iar în acest articol acopăr toate aspectele. Indiferent dacă ești începător sau deja expert, acest ghid îți clarifică tot ce ține de Google Text to Speech API.
Înainte să intrăm în subiect, e important să stabilim câteva reguli de bază. Hai să definim câțiva termeni ca să construim o fundație solidă.
Hai să separăm tehnologiile: text to speech și API-urile și să vedem ce rol joacă Google Cloud.
Notă editor: Cauți cel mai bun API pentru text to speech? Încearcă API-ul Speechify, bine documentat și ușor de folosit.
Text to Speech
Am scris pe larg despre acest subiect – vezi articolul meu Ce este text to speech și citește și despre sinteza vocală pentru a înțelege subiectul în profunzime. Acestea intră mai în detaliu, dar poți să sari peste ele acum. Rezum principalele idei mai jos.
Text to speech folosește sinteza vocală pentru a converti cuvintele în vorbire generată de AI. Există multe aplicații: de la ajutor pentru dislexie sau probleme de vedere la creșterea productivității pentru oricine.
API
API vine de la Application Programming Interface. Practic, este o punte între două aplicații. Dacă dezvolți o aplicație cu conținut audio care are nevoie de funcționalitate de text to speech, poți construi singur această funcție sau te conectezi la un text to speech API deja existent, precum Speechify.
Te concentrezi pe dezvoltarea aplicației tale și lași funcția text to speech în grija unui API extern, care face legătura dintre ele.
Google Cloud API
Aici intră în scenă Google Cloud. Google a dezvoltat un API puternic pentru text to speech, disponibil dezvoltatorilor la diverse costuri. Oricine vrea să creeze aplicații ce au nevoie de funcționalitate text to speech poate folosi Google TTS. Da, TTS = text to speech.
Găsești instrucțiuni rapide în Google Cloud Console la https://cloud.google.com/. Ai la dispoziție tutoriale, administrare, voci wavenet și altele.
Google Cloud este o platformă cloud care oferă multe servicii modulare. Poți folosi unul sau mai multe servicii, după nevoie. Ai nevoie doar de chei de acces pentru fiecare API. Majoritatea serviciilor sunt contra cost, dar există și un nivel gratuit limitat.
Google a cumpărat DeepMind în 2014 pentru tehnologia text to speech și cercetare neurală. DeepMind e acum Google DeepMind, divizia lor de AI.
Acum că avem o bază clară, putem intra în detalii despre Google Cloud Text to Speech API.
Funcții Google Text to Speech API
Google este un lider global în tech – fără îndoială. În API-ul TTS găsești facilități de top, care evoluează constant.
Voci de Înaltă Fidelitate
Vocile text to speech Google sunt printre cele mai bune din industrie. Sună natural, cu intonație autentică. TTS e încă în plină dezvoltare, iar cine poate sintetiza cel mai natural vocea umană va câștiga această cursă.
Selecție mare de Voci
Google promite una dintre cele mai largi varietăți de voci – proiectul tău nu trebuie să semene cu altele și nici cu aplicația concurenței.
Creează-ți propria voce
Aici intră în joc tehnologia de voice cloning. Îți poți crea propria voce prin înregistrare, cu permisiune. Aceasta va citi orice text.
Voci neurale
Vocile neurale au cea mai înaltă calitate din selecție. Le poți internaționaliza pentru un public global.
Voci Studio
Vocile Studio sunt cele mai profesionale, cu sunet comparabil cu o înregistrare tradițională.
Ajustare voce
Alegi vocea, apoi ajustezi viteza, tonalitatea și alte detalii, ca să personalizezi sunetul.
Cât costă Google Text to Speech API?
Costul depinde de calitatea vocii și lungimea textului. Cu cât vrei voce mai naturală, cu atât prețul e mai mare – dar chiar și cele premium sunt, în general, accesibile.
| Tip voce | Gratuit/lună | După depășirea gratuitului |
| Voci Neural2 | 0 – 1 milion bytes | $16 per milion de bytes |
| Voci Polyglot | 0 – 1 milion bytes | $16 per milion de bytes |
| Voci Studio | 0 – 100.000 bytes | $160 per milion de bytes |
| Voci Standard | 0 – 4 milioane caractere | $4 per milion de caractere |
| Voci Wavenet | 0 – 1 milion caractere | $16 per milion de caractere |
Diferența dintre caractere și bytes
Tarifele diferă mult în funcție de calitatea vocii. Codarea audio și procesarea pentru transformarea textului în voce variază pe niveluri. La nivel standard, costul e mai mic și se măsoară la caractere.
Deci, dacă ai 4 milioane de caractere, costul pentru conversie cu Voci Standard este de $16.
Vocile Studio au nevoie de procesare mai mare și tarifarea se face pe bytes. La unele limbi, ca japoneza, un caracter poate fi format din mai mulți bytes.
Pentru calcule corecte de cost, e important să știi în ce limbă lucrezi și media de bytes/caracter, ca să estimezi corespunzător.
Cum configurezi Google Cloud Text to Speech API?
- Creează un cont Google Cloud sau autentifică-te aici
- Creează un nou proiect și dă-i un nume
- Adaugă un mod de plată. Plătești doar ce folosești.
- Alege proiectul și leagă-l de un cont de plată.
- Activează Text-to-Speech API. În bara de căutare de sus, scrie "speech".
- Alege Cloud Text-to-Speech API din rezultate.
- Configurează autentificarea mediului tău de dezvoltare. Vezi instrucțiunile pentru configurarea autentificării TTS.
Poți testa Text-to-Speech și fără să-l legi la un proiect:
- Alege opțiunea TRY THIS API.
- Pentru a activa API-ul în proiectul tău, apasă ENABLE.
Vezi documentația Google Cloud pentru ajutor suplimentar.
Cum dezactivezi Text to Speech API
Pentru a dezactiva Text-to-Speech API, accesează dashboardul platformei Google Cloud și dă click pe „Go to APIs overview” în cutia APIs. Găsește Text-to-Speech API, apasă pe el și apoi selectează „DISABLE API” sus pe pagină.
Începe cu Google Text to Speech API
După ce ai setat proiectul, poți folosi linia de comandă pentru a porni la drum.
gcloud initCreează autentificare locală
gcloud auth application-default loginAcum poți instala o librărie client, de exemplu pentru Node.js
npm install --save @google-cloud/text-to-speechGoogle Cloud Text to Speech API suportă aceste limbaje:
- Go
- Java
- Node.js
- C++
- C#
- PHP
- Python
- Ruby
- TypeScript
- Terraform
- YAML
Cum funcționează Google Cloud API?
Totul pornește de la un simplu apel API. Trimiți textul tău, iar API-ul returnează un fișier audio cu textul transpus în vorbire. La cerere, poți alege voce, limbă și alte opțiuni, apoi text to speech API îți trimite fișierul audio.
Poți afla cum să instalezi și să folosești librăriile client TTS aici. Exemplele sunt pentru Node.js, dar poți lucra și cu Python sau PHP. Cum preferi.
const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');
const client = new textToSpeech.TextToSpeechClient();
/**
* TODO(developer): Uncomment the following lines before running the sample.
*/
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';
const request = {
input: {text: text},
voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);Asta e tot. Ai configurat Google Cloud Text to Speech API și ai trimis prima cerere de conversie text-to-speech. Poți primi fișierul în diverse formate: de la OGG la MP3.
Câteva utilizări ale Google Text to Speech API
Google Text to Speech (TTS) API este suficient de flexibil pentru multe industrii. Câteva exemple de utilizări:
- Text to Speech pentru persoane cu deficiențe de vedere: Transformă conținutul scris în vorbire pentru utilizatori cu deficiențe de vedere.
- Sisteme telefonice automate: Folosește TTS pentru mesaje și răspunsuri naturale în servicii clienți sau call center.
- Voice-over pentru media: Creează voci naturale pentru video, podcast sau multimedia, îmbunătățind experiența utilizatorului.
- Text to Speech pentru conținut tradus: Convertirea textului tradus în vorbire ajută la învățarea limbilor și la comunicare internațională.
- Asistență la citire pentru dislexici: Funcționalitate TTS pentru cei cu dislexie sau dificultăți de lectură.
- Navigație vocală în aplicații: Integrează TTS în aplicații de navigare pentru ghidare și informații audio.
- Text to Speech pentru educație: Îmbunătățește e-learningul transformând textul educațional în vorbire.
- Sinteză vocală în aplicații de productivitate: TTS pentru aplicații de notițe sau sarcini cu feedback audio.
- Voce naturală pentru asistenți virtuali: TTS natural pentru asistenți vocali, pentru dialog mai fluent.
- Alerte și notificări audio: TTS pentru alerte și notificări IoT, pentru informare rapidă.
Cele mai bune alternative la Google Cloud TTS API
La ultima mea documentare, în ianuarie 2022, existau mai multe alternative la Google Text to Speech API. Popularitatea și calitățile lor se pot fi schimbat de atunci. Iată câteva exemple:
- Speechify Text to Speech API: API-ul Speechify oferă peste 1.000 de voci realiste și cu emoție AI voices în 60+ limbi și regiuni. Rezervă locul azi.
- Amazon Polly: Oferit de AWS, Polly are voci naturale în multe limbi. Se integrează ușor cu restul serviciilor AWS.
- Microsoft Azure Speech Service: Azure Speech Service are funcții Text to Speech utile pentru asistenți vocali, navigație etc.
- IBM Watson Text to Speech: IBM Watson convertește textul scris în voce naturală folosind diverse voci.
- Nuance Communications: Nuance oferă soluții de recunoaștere vocală și text to speech, în special pentru sănătate, auto și servicii clienți.
- CereProc: CereProc e o companie de text to speech cu voci sintetice de calitate pentru accesibilitate, entertainment și comunicare.
- iSpeech: iSpeech oferă servicii TTS cloud în mai multe limbi și voci. Perfect pentru aplicații mobile și web.
- ResponsiveVoice: ResponsiveVoice e un API text to speech accesibil, care suportă multe limbi și se integrează ușor în aplicații web.
- Neospeech: Neospeech furnizează text to speech axat pe voci naturale – folosit la e-learning și entertainment.
- ReadSpeaker: ReadSpeaker oferă soluții text to speech online și offline pentru website-uri, e-learning, accesibilitate.
- Acapelabox: Acapela Group are un API text to speech în cloud, Acapelabox, cu suport pentru mai multe limbi și voci – pentru aplicații variate.
FAQ
Google are mai multe tipuri de voci, fiecare cu un anumit prag gratuit. De exemplu, vocile Standard sunt gratuite până la un milion de bytes. După această limită, costul este de $16/milion de bytes. Deci poate fi gratuit cât timp rămâi sub limita de caractere sau bytes.
Creează cont la https://cloud.google.com/text-to-speech/ și urmează pașii de acolo. Am explicat procesul mai sus în articol.
Obții cheia API logându-te în Google Cloud, creezi un proiect nou, iar apoi poți genera o cheie API.
URL-ul pentru Google text to speech API este https://cloud.google.com/text-to-speech/
Practic nu există o perioadă de trial fixă pentru Google Cloud. Fiecare serviciu Google Cloud are propria limită și propriile reguli pentru gratuitate.
Nu. Pentru a folosi API-ul Google Cloud text to speech ai nevoie de conexiune la internet.
Autentificarea la serviciile Google Cloud, inclusiv Text to Speech API, se poate face cu API key, OAuth 2.0 sau conturi de serviciu. Metoda depinde de scop și de aplicație.
Le-aș da 5 stele. E ușor de folosit, funcția de căutare este excelentă, iar prețurile sunt bune. Per total, un produs foarte reușit.
Google Text to Speech API oferă librării client pentru diverse limbaje, inclusiv Python. Suportă și cereri REST API, deci orice limbaj care poate face request HTTP.
Integrarea API-ului în Android se face folosind clasa TextToSpeech și apeluri API. Instrucțiunile detaliate se găsesc în documentația oficială pentru Android.
Pentru integrarea API-ului în JavaScript, faci request HTTP către endpointul API și procesezi răspunsul în cod. Detalii găsești în documentația oficială.

