Deși conceptul de text to speech – adică software-uri care pot citi cu voce tare utilizatorului textul afișat pe ecran – nu este ceva nou, în ultimii ani trece printr-o adevărată revoluție.
Conform unui studiu recent, piața text to speech era evaluată la impresionanta sumă de 2 miliarde de dolari în 2020 – parțial datorită impactului pandemiei de COVID-19, care încă se resimte. În plus, se estimează că această piață va ajunge la 5 miliarde de dolari până în 2026 – având o rată anuală de creștere compusă de 14,6%, deloc de neglijat.
O mare parte din această creștere se datorează modului în care soluțiile text to speech ajută persoanele cu diferite deficiențe de vedere. Conform Centers for Disease Control and Prevention, aproximativ 12 milioane de persoane peste 40 de ani din Statele Unite au unele probleme de procesare a informațiilor vizuale. Dintre aceștia, un milion sunt complet orbi, iar opt milioane au probleme de vedere din cauza unor erori de refracție necorectate. Această cifră a crescut de la 4,2 milioane în 2012.
Toate acestea demonstrează că tehnologia text to speech și-a dovedit valoarea de-a lungul anilor. Multe soluții, precum Speechify, oferă chiar și mai multe voci de înaltă calitate între care utilizatorul poate alege, în funcție de nevoi. Dar cum funcționează aceste soluții și cum de există atât de multe opțiuni de voce? Răspunsurile la aceste întrebări cer să ții minte câteva aspecte importante.
Cum funcționează „interiorul” text to speech
Înainte de a ajunge la vocile din spatele text to speech, e important să înțelegi cum funcționează, de fapt, aceste soluții.
Text to speech folosește inteligență artificială, machine learning și alte tehnologii similare pentru a prelua cuvintele scrise de pe o pagină sau ecran și a le converti în conținut audio ce poate fi redat cu voce tare. Asta include nu doar conținutul de pe website-uri sau articole, ci și textul din aplicații precum Microsoft Word și altele.
Conținutul audio este generat complet de dispozitivul folosit. Pe lângă faptul că este disponibil pe calculatoare desktop și laptop, text to speech funcționează și pe aproape orice smartphone, tabletă sau alt dispozitiv mobil existent pe piață astăzi.
În majoritatea soluțiilor, procesarea text to speech are loc local, pe dispozitiv. Acest lucru face ca tehnologia să fie utilă chiar și în lipsa unei conexiuni la Internet.
Pe lângă faptul că permite persoanelor cu probleme de vedere să acceseze și să parcurgă conținutul scris, text to speech este util și fiindcă poți controla atât tonalitatea, cât și viteza vocii. Dacă vrei să încetinești pentru a înțelege mai bine, poți face asta. Sau poți crește viteza pentru a parcurge mai rapid conținutul.
Voci text to speech: detalierea procesului
Când vine vorba de vocea efectiv folosită de aceste soluții text to speech, totul ține de un concept numit sintetizator vocal.
Ce este un sintetizator vocal?
Sintetizarea vocii este un tip de output în care calculatorul (sau alt dispozitiv) citește cu voce tare cuvintele, folosind o voce aleasă anterior. La nivel de concept, nu este foarte diferit de a citi singur cuvintele de pe pagină sau de a le imprima – tot despre modul în care computerul prezintă informația solicitată este vorba. Doar că, de data asta, în loc să o facă exclusiv în format text, o face folosind o voce pe care o poți auzi în difuzoare sau căști.
În general, sintetizarea vocii funcționează prin parcurgerea unor pași de bază, dar extrem de importanți, de către soluția utilizată. Primul dintre aceștia implică transformarea textului de pe pagină în cuvinte.
Pasul 1: Pre-procesarea
În această etapă a procesului, soluțiile text to speech analizează cuvintele pe care vrei să le citești și preiau literele – care sunt practic niște simboluri – și le convertesc în cuvinte. Această etapă este importantă, deoarece cuvântul scris poate fi uneori mai ambiguu decât își dau seama mulți. Anumite cuvinte sau expresii pot avea mai multe sensuri. De asemenea, calculatorul trebuie să „înțeleagă” diferența dintre cuvinte ca „teai”, „te-ai” sau „te-ai” (exemplu englezesc: „their”, „there”, „they're”) – trei cuvinte care se pronunță la fel, dar pot schimba radical sensul unei propoziții.
Aici intervin inteligența artificială și machine learning. Cu ajutorul AI, soluțiile text to speech pot fi „antrenate” să elimine, pe cât posibil, această ambiguitate. Această etapă se numește „pre-procesare”, deoarece are loc „în culise”, înainte ca aplicația să citească efectiv cu voce tare orice text.
Tot în această fază, soluția text to speech diferențiază între cuvinte care pot fi scrise la fel, dar se pronunță diferit, în funcție de context. „Read” este un exemplu perfect: poți dori să citești o carte diseară, deși ai mai citit-o de nenumărate ori înainte. Oamenii fac ușor diferența, pe baza contextului – pentru ca AI-ul să poată obține același rezultat, este nevoie de procesare suplimentară.
La fel de dificil de gestionat în această perioadă sunt și elemente precum numerele, abrevierile, acronimele și altele. Caracterele speciale, cum ar fi semnul dolarului, sunt, de asemenea, mai greu de „tradus” decât cuvântul scris. De aceea, faza de pre-procesare este atât de importantă – ajută la asigurarea faptului că tot ce urmează să fie citit cu voce tare are sens în contextul dorit.
Pasul 2: Înțelegerea pronunției
După ce textul a fost analizat și soluția text to speech „înțelege” ce cuvinte trebuie rostite, urmează pasul următor. Atunci cuvintele sunt convertite în foneme – practic, sistemul „învață” cum să pronunțe corect cuvintele din text.
Această parte a procesului a evoluat enorm în ultimii ani. Dacă ai avut ocazia să folosești o soluție text to speech din anii ’90 (sau ai urmărit filme vechi din anii ’70-’80 cu astfel de scene), probabil îți amintești voci de computer care nu sunau natural. Era clar că vocea era generată de un computer și, deși puteai înțelege mesajul, multe cuvinte nu erau pronunțate corect.
Pasul 3: Începe conversia în voce
După identificarea fonemelor, soluția text to speech trece la ultima parte a procesului: transformarea acestor informații în sunet ce poate fi redat prin difuzoarele sau căștile dispozitivului.
Acest lucru se poate întâmpla în diferite moduri, în funcție de soluția folosită. Una dintre metode presupune ca un actor sau o actriță să citească cu voce tare o listă de foneme, iar acele informații sunt apoi introduse în calculator și în soluția software. Apoi, de fiecare dată când aplicația citește o bucată de text, poate potrivi fonemele găsite cu cele deja înregistrate, redând astfel audio-ul textului într-un mod mult mai natural.
Unele soluții permit încă generarea vocii exclusiv de către calculator. În esență funcționează la fel, însă „vocea” nu se bazează pe înregistrări audio anterioare, ci e creată prin generarea unor frecvențe sonore specifice în ordinea corectă.
Astfel, nu este foarte diferit de modul în care un sintetizator muzical permite unui muzician să imite sunetul instrumentelor cu o clapă conectată la calculator. Poate cânta la clape ca la pian, însă fiecare clapă poate imita o coardă de chitară sau un sunet de tobă. Calculatorul „înțelege” intenția fiecărei atingeri și o asociază cu sunetul corect, deși în alt context.
Opțiuni de voce și mai departe de atât
Un motiv pentru care există atât de multe opțiuni de voce în aceste generator de voce text to speech este faptul că nu sunt chiar atât de greu de creat pe cât cred majoritatea oamenilor. Tipurile de foneme necesare pentru ca un generator AI de voce să funcționeze sunt destul de comune în limbajul uman. Astfel, este suficient ca un actor să citească într-un microfon un scurt text cu toate fonemele necesare, apoi această informație este integrată în soluție.
Tehnologia AI pentru voce recunoaște fiecare fonem în parte, practic „dezmembrează” înregistrarea în părțile componente și folosește ceea ce este necesar pentru a genera cât mai fidel vocile text to speech cerute de utilizator pentru citirea unui website sau a oricărui alt tip de conținut.
Desigur, există și multe alte utilizări posibile pentru acest tip de generator de voce naturală, dincolo de ajutorul acordat persoanelor cu probleme de vedere. În ultimii ani, publicul a devenit foarte interesat de vorbirea și generarea vocii cu AI datorită rețelelor sociale precum TikTok.
TikTok este de fapt una dintre cele mai mari platforme care a adoptat generarea de voce AI, permițând utilizatorilor să înregistreze videoclipuri, să adauge text peste ele și apoi să folosească sintetizarea vocii pentru a citi acel conținut cu voce tare. E o modalitate distractivă de a adăuga o notă mai captivantă conținutului postat pe TikTok, iar popularitatea acesteia va crește în timp.
Viitorul text to speech a sosit
La final, text to speech cu voce este o unealtă de neprețuit prin ceea ce ne permite să facem. Persoanele cu probleme de vedere se pot bucura și pot înțelege același conținut ca toți ceilalți, în propriul lor ritm. Poate transforma orice postare de blog, articol, document, white paper sau alt conținut scris într-o experiență audio ușor de parcurs, astfel încât să te poți bucura de ea acasă, pe drum, la sală, etc.
Nu doar că ne face viața mai productivă, ci ajută și la rezolvarea unor probleme majore, precum cele menționate mai sus. Din toate aceste motive, e ușor de înțeles de ce sintetizarea vocii și AI-ul pentru voce au devenit atât de populare în ultimii ani.
Dacă vrei să afli mai multe despre vocile text to speech sau dacă vrei să vezi cum îți poate fi utilă această tehnologie în viață, nu mai sta pe gânduri – încearcă Speechify gratuit chiar azi.
Speechify este aplicația #1 în App Store cu cele mai naturale voci și o experiență de utilizare excelentă, având numeroase voci personalizate.
Speechify este disponibil în mai multe variante: pentru utilizatori individuali, grupuri sau API pentru companii de orice dimensiune.

