Inteligența artificială generativă și inteligența artificială au evoluat mult în ultimii ani. Tehnologia text-to-speech este un concept relativ vechi și există de ceva vreme. Sunt multe aspecte de analizat și de pus în ordine aici, iar eu le voi explica pe rând și voi aborda subiectul din toate perspectivele. Indiferent dacă ești începător sau avansat, acest material ar trebui să-ți ofere o imagine clară de ansamblu despre API-ul Google Text to Speech.
Bine, înainte să intrăm în detalii, trebuie să stabilim câteva reguli de bază. Hai să definim câțiva termeni și să ne construim o fundație solidă pe care să putem continua.
Să separăm aici cele două concepte: text-to-speech și API-urile, și să vedem ce rol joacă Google Cloud.
Notă editor: Cauți cel mai bun API text-to-speech? Intră pe Speechify și descoperă un API bine documentat și ușor de folosit pentru text to speech.
Text to Speech
Am scris pe larg pe acest subiect și poți citi blogul meu Ce este text to speech și poți afla mai multe despre sinteza vocală pentru a înțelege mai bine acest domeniu. Aceste articole intră mai în detaliu, așa că le poți lăsa pe mai târziu. Le voi rezuma în câteva propoziții.
Text-to-speech se bazează pe o tehnologie numită sinteză vocală pentru a transforma cuvintele în vorbire generată de AI. Utilizările practice ale acestei tehnologii sunt nenumărate: de la ajutor pentru persoane cu dificultăți de citire, precum dislexie sau probleme de vedere, până la cei care își doresc pur și simplu eficiență maximă.
API
API înseamnă Application Programming Interface (Interfață de Programare a Aplicațiilor). Practic, funcționează ca o punte între două aplicații. Dacă dezvolți o aplicație care conține conținut audio și ai nevoie de funcționalitate text-to-speech, fie creezi această funcționalitate de la zero, fie o poți integra direct printr-un API de text-to-speech.
Tu te concentrezi pe dezvoltarea aplicației tale și te bazezi pe un API extern ca punte pentru a prelua funcția text-to-speech care să îți sintetizeze textul.
Google Cloud API
Aici intervine Google Cloud. Google a dezvoltat un API text-to-speech robust, pe care îl pune la dispoziția dezvoltatorilor prin diverse scheme de plată. Orice dezvoltator care vrea să creeze aplicații personalizate sau aplicații web cu funcționalitate text-to-speech poate folosi direct facilitățile TTS de la Google. Da, TTS vine de la text-to-speech.
Găsești ghidul rapid în Google Cloud Console la https://cloud.google.com/. Poți accesa tutoriale, administra contul de serviciu, folosi voci wavenet și multe altele.
Google Cloud este o platformă cloud oferită de Google și include o gamă largă de servicii modulare. Poți alege să folosești unul, mai multe sau toate serviciile sale. Tot ce trebuie să faci este să creezi chei de acces pentru autentificarea fiecărui API - puntea. Majoritatea serviciilor, dacă nu chiar toate, presupun un cost, deși există și o limită gratuită.
Google a achiziționat DeepMind în 2014 pentru tehnologia sa text-to-speech și pentru cercetarea în zona rețelelor neuronale. Așadar, dacă întâlnești numele DeepMind, de acum este Google DeepMind – sunt una și aceeași companie.
Acum că avem o înțelegere de bază solidă, haideți să intrăm în detaliu despre Google Cloud Text to Speech API.
Funcționalități Google Text to Speech API
Google este un pionier tehnologic global și lider în domeniu, fără îndoială. Când vine vorba de API-ul TTS, te poți baza pe funcții de clasă mondială, care evoluează constant.
Vorbire de înaltă fidelitate
Vocile text-to-speech oferite de Google sunt printre cele mai bune din industrie. Sună foarte uman, cu o intonație naturală. TTS este încă la început, iar cei care pot sintetiza cel mai bine un audio cât mai apropiat de vocea umană vor câștiga această cursă.
Selecție largă de voci
Google revendică cea mai largă selecție de voci, astfel încât proiectul tău nu trebuie să sune la fel ca alte 1000 de aplicații sau, și mai rău, ca aplicația competitorilor tăi.
Creează-ți propria voce
Aceasta ține de tehnologia de clonare vocală. Poți să creezi o voce personalizată înregistrându-te pe tine sau pe altcineva (cu permisiunea lor). Apoi, poți folosi acest eșantion ca voce pentru toate textele citite cu voce tare în aplicația ta.
Voci neurale
Vocile neurale oferă cea mai bună calitate dintre toate vocile disponibile. Poți, de asemenea, să „globalizezi” aceste voci, astfel încât să îți mărești audiența la nivel internațional.
Voci de studio
Vocile de studio sunt voci de top, sună extrem de profesionist, ca și cum ar fi fost înregistrate în mod tradițional.
Ajustarea vocii
Alege o voce și apoi ajustează viteza, tonul și multe altele, ca să-ți personalizezi vocea sau modul de redare.
Cât costă Google Text to Speech API?
Totul depinde de calitatea vocii și de lungimea textului. Cu cât îți dorești o voce mai naturală, cu atât va fi mai scump. Totuși, „scump” este relativ în acest context. Chiar și vocile de calitate înaltă sunt, în general, accesibile ca preț.
| Tip voce | Gratuit pe lună | După depășirea limitei gratuite |
| Voci Neural2 | 0 - 1 milion bytes | 16 USD per un milion bytes |
| Voci Poliglot | 0 - 1 milion bytes | 16 USD per un milion bytes |
| Voci Studio | 0 - 100.000 bytes | 160 USD per un milion bytes |
| Voci Standard | 0 - 4 milioane caractere | 4 USD per un milion caractere |
| Voci Wavenet | 0 - 1 milion caractere | 16 USD per un milion caractere |
Care este diferența dintre caractere și bytes
După cum poți vedea, prețurile variază semnificativ în funcție de calitatea vocii. Codarea audio și procesarea necesară pentru a transforma textul în voce diferă de la un nivel la altul. De exemplu, la nivelul inferior, Voci Standard, prețurile sunt mai mici și se calculează pe bază de caractere.
Asta înseamnă că, dacă proiectul tău are 4 milioane de caractere, te-ar costa 16 USD pentru a le transforma în voce folosind caractere standard.
Pe de altă parte, vocile de studio necesită mai multă procesare și sunt taxate în funcție de bytes. În unele limbi, precum japoneza, un caracter poate fi compus din mai mulți bytes.
Așadar, pentru o estimare corectă a costurilor, este important să știi limba folosită și să ai o înțelegere de bază a numărului mediu de bytes pentru fiecare caracter, ca să poți aproxima mai precis.
Cum configurezi proiectul Google Cloud Platform Text to Speech API?
- Creează-ți cont Google Cloud sau autentifică-te aici
- Creează un proiect nou și dă-i un nume potrivit
- Adaugă o metodă de plată. Vei fi taxat doar pentru ce folosești.
- Apoi alege proiectul și asociază-l cu un cont de facturare.
- Activează Text-to-Speech API. Mergi în bara de căutare „products and resources” din partea de sus și scrie „speech”.
- Din rezultatele afișate, selectează Cloud Text-to-Speech API
- Configurează autentificarea pentru mediul tău de dezvoltare. Pentru instrucțiuni, vezi secțiunea Set up authentication for Text-to-Speech.
Poți încerca Text-to-Speech și fără să-l legi de proiectul tău:
- Alege opțiunea ÎNCERCĂ ACEST API.
- Pentru a activa Text-to-Speech API pentru proiectul tău, apasă ENABLE.
Consultă Documentația Google Cloud pentru ajutor suplimentar.
Cum dezactivezi Text to Speech API
Pentru a dezactiva Text-to-Speech API, mergi în dashboardul Google Cloud Platform și apasă pe „Go to APIs overview” în cadrul căsuței APIs. Caută Text-to-Speech API și dă click pe el, apoi apasă butonul „DISABLE API” din partea de sus a paginii.
Începe cu Google Text to Speech API
Acum că ai configurat proiectul, poți folosi linia de comandă pentru a începe.
gcloud initCreează autentificare locală
gcloud auth application-default loginAcum poți instala o bibliotecă client. În acest exemplu, vom folosi Node.js
npm install --save @google-cloud/text-to-speechGoogle Cloud Text to Speech API suportă următoarele limbaje:
- Go
- Java
- Node.js
- C++
- C#
- PHP
- Python
- Ruby
- TypeScript
- Terraform
- YAML
Cum funcționează Google Cloud API?
Totul începe cu un apel simplu către API. Trimiți textul într-un apel de tip transcript și apoi primești un fișier audio cu textul rostit. Poți specifica diverse cerințe în solicitare: alegi vocea, limba și altele, iar API-ul text to speech îți va trimite fișierul audio.
Poți învăța cum să instalezi și să folosești bibliotecile client pentru text to speech aici. Exemplele noastre de cod sunt pentru Node.js, dar poți folosi orice altceva, de la Python la PHP. Ce îți este mai la îndemână.
const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');
const client = new textToSpeech.TextToSpeechClient();
/**
* TODO(developer): Uncomment the following lines before running the sample.
*/
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';
const request = {
input: {text: text},
voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);Și asta este tot. Ai configurat Google Cloud Text to Speech API și ai trimis prima ta solicitare de conversie a textului în voce. Poți primi fișierul în mai multe formate: de la OGG la MP3.
Câteva moduri de utilizare a Google Text to Speech API
API-ul Google Text-to-Speech (TTS) oferă o soluție versatilă pentru diverse cazuri de utilizare, din mai multe industrii. Iată câteva exemple uzuale:
- Text-to-Speech pentru utilizatori cu deficiențe de vedere: Implementarea funcționalității TTS în aplicații pentru a converti conținutul scris în cuvinte rostite, facilitând accesul la informațiile digitale pentru persoanele cu deficiențe de vedere.
- Sisteme telefonice automate: Utilizarea TTS pentru a crea prompturi și răspunsuri naturale pentru sistemele interactive de răspuns vocal, în servicii pentru clienți sau linii de informare.
- Voice-over pentru conținut media: Generarea de voice-over-uri naturale pentru videoclipuri, podcasturi sau alte materiale multimedia, pentru a îmbunătăți experiența utilizatorului.
- Text-to-Speech pentru conținut tradus: Conversia textului tradus în cuvinte rostite, pentru a facilita învățarea limbilor, comunicarea internațională sau consumul de conținut în diferite limbi.
- Asistență la citire pentru utilizatori dislexici: Furnizarea funcției TTS pentru a sprijini persoanele cu dislexie sau dificultăți de citire în accesarea conținutului scris.
- Navigație vocală în aplicații: Integrarea TTS în aplicații de navigație pentru a oferi indicații sau informații bazate pe locație, în format audio.
- Text-to-Speech pentru conținut educațional: Îmbunătățirea experiențelor de e-learning prin conversia textelor educaționale în vorbire, ajutând la înțelegere și implicare.
- Sinteză vocală pentru aplicații de productivitate: Integrarea TTS în instrumente de productivitate, precum aplicații pentru notițe sau managementul sarcinilor, pentru feedback vocal sau regăsirea rapidă a informațiilor.
- Voce naturală pentru asistenți virtuali: Alimentarea asistenților vocali cu TTS cu sunet natural pentru interacțiuni îmbunătățite și furnizarea informațiilor într-o manieră conversațională.
- Alerte și notificări auditive: Utilizarea TTS pentru a furniza alerte, notificări sau actualizări de stare sonore pe dispozitive Internet of Things (IoT), pentru o conștientizare sporită a utilizatorului.
Cele mai bune alternative la Google Cloud TTS API
Conform ultimei mele actualizări de cunoștințe, din ianuarie 2022, există câteva alternative la Google Text-to-Speech API. Ține cont că popularitatea și capabilitățile acestor servicii se pot fi schimbat între timp. Iată câteva alternative notabile:
- Speechify Text to Speech API: Suntem încântați să dezvăluim dezvoltarea unui API text-to-speech care oferă cele mai naturale și îndrăgite voci AI Speechify direct dezvoltatorilor din întreaga lume. Rezervă-ți locul astăzi.
- Amazon Polly: Oferit de Amazon Web Services (AWS), Polly furnizează sinteză vocală cu sunet natural în mai multe limbi și voci. Se integrează foarte bine cu alte servicii AWS.
- Microsoft Azure Speech Service: Azure Speech Service include funcționalități Text-to-Speech și suportă diverse aplicații, de la asistenți vocali la sisteme de navigație și multe altele.
- IBM Watson Text to Speech: IBM Watson oferă un serviciu Text to Speech care le permite dezvoltatorilor să convertească textul scris într-o vorbire naturală, cu diverse voci.
- Nuance Communications: Nuance furnizează o gamă largă de soluții pentru recunoaștere vocală și sinteză vocală, inclusiv text-to-speech, pentru aplicații din domeniile medical, auto și servicii pentru clienți.
- CereProc: CereProc este o companie de tehnologie text-to-speech care oferă voci sintetice de calitate pentru aplicații precum accesibilitate, entertainment și comunicare.
- iSpeech: iSpeech oferă servicii text-to-speech în cloud, cu suport pentru mai multe limbi și voci. Este potrivit pentru diverse aplicații, inclusiv aplicații mobile și website-uri.
- ResponsiveVoice: ResponsiveVoice este un API text-to-speech simplu și accesibil, care suportă mai multe limbi și poate fi integrat în diverse aplicații web.
- Neospeech: Neospeech oferă soluții text-to-speech cu accent pe voci naturale. Tehnologia lor este folosită în aplicații precum e-learning și entertainment.
- ReadSpeaker: ReadSpeaker furnizează soluții text-to-speech online și offline pentru diverse aplicații, inclusiv website-uri, e-learning și servicii de accesibilitate.
- Acapelabox: Acapela Group oferă un API text-to-speech în cloud, Acapelabox, cu suport pentru mai multe limbi și voci, pentru aplicații din diverse industrii.
Întrebări frecvente Google Text to Speech API
Google are mai multe niveluri de voci și aproape fiecare nivel are o limită gratuită. De exemplu, vocile standard sunt gratuite până la primul milion de bytes. După aceea, costă 16 USD pe milion de bytes. Deci, da, poți utiliza gratuit până la un anumit număr de caractere sau bytes.
Trebuie doar să creezi un cont la https://cloud.google.com/text-to-speech/ și să urmezi pașii de acolo. De asemenea, am descris procesul detaliat și în acest material, mai sus.
Poți obține o cheie API Google Text to Speech conectându-te în contul Google Cloud și creând un proiect. Odată ce proiectul este creat, poți genera o cheie API.
URL-ul pentru Google Text to Speech API este https://cloud.google.com/text-to-speech/
Tehnic, nu există o perioadă de testare gratuită pentru Google Cloud. Sunt mai multe servicii în cadrul Google Cloud, iar fiecare are termenii și limitele sale gratuite distincte.
Nu. Google Cloud Text to Speech API necesită conexiune la internet.
Autentificarea la serviciile Google Cloud, inclusiv Text-to-Speech API, se poate face folosind chei API, OAuth 2.0 sau conturi de serviciu. Metoda de autentificare potrivită depinde de tipul aplicației și de scenariul de utilizare.
I-aș da 5 stele. Este ușor de folosit, funcția de căutare este excelentă și este cea mai folosită. Prețurile sunt decente și, per total, este un produs foarte bun.
Google Text-to-Speech API oferă biblioteci client pentru diverse limbaje de programare, inclusiv Python. De asemenea, suportă cereri către API de tip REST, ceea ce îl face compatibil cu orice limbaj care poate face cereri HTTP.
Integrarea Google Text-to-Speech API într-o aplicație Android presupune folosirea clasei TextToSpeech și trimiterea de cereri API. Găsești detalii complete în documentația oficială pentru dezvoltatorii Android.
Pentru a implementa Google Text-to-Speech API într-o aplicație JavaScript, poți transmite cereri HTTP către endpoint-ul API. Procesul presupune construirea cererii adecvate de API și gestionarea răspunsului în codul JavaScript. Consultă documentația oficială pentru detalii.

