Sinteza vocală, sau producția artificială a vocii umane, a parcurs un drum lung în ultimii 70 de ani. Indiferent dacă folosești în prezent servicii text-to-speech pentru a asculta cărți, a studia sau a-ți corecta propriile scrieri, nu există nicio îndoială că serviciile text-to-speech au făcut viața mai ușoară pentru oameni dintr-o varietate de profesii.
Aici vom analiza cum funcționează procesarea text-to-speech și cum această tehnologie asistivă s-a schimbat în timp.
Introducere
În anii 1700, profesorul rus Christian Kratzenstein a creat rezonatoare acustice care imitau sunetul vocii umane. Două decenii mai târziu, VODER (Voice Operating Demonstrator) a făcut senzație la Târgul Mondial de la New York, când creatorul Homer Dudley a arătat mulțimilor cum vorbirea umană poate fi realizată prin mijloace artificiale. Dispozitivul era dificil de folosit – Dudley trebuia să controleze frecvența fundamentală folosind pedale de picior.
La începutul anilor 1800, Charles Wheatstone a dezvoltat primul sintetizator mecanic de vorbire. Acest lucru a declanșat o evoluție rapidă a instrumentelor și tehnologiilor de sinteză articulatorie.
Poate fi dificil să identifici exact ce face ca un program text-to-speech să fie reușit, dar, precum multe lucruri în viață, îți dai seama când îl auzi. Un program text-to-speech de calitate oferă voci naturale, cu inflexiuni și tonuri realiste.
Tehnologia text-to-speech poate ajuta persoanele cu deficiențe de vedere sau alte dizabilități să obțină informațiile necesare pentru a avea succes la locul de muncă și pentru a comunica cu ceilalți. De asemenea, software-ul le permite elevilor și tuturor celor cu sarcini mari de citit să asculte informațiile de care au nevoie în timp ce sunt pe drum. Vorbirea sintetică îi ajută pe oameni să realizeze mai multe într-un timp mai scurt și poate fi utilă în diverse contexte, de la crearea jocurilor video până la sprijinirea persoanelor cu dificultăți de procesare a limbajului.
Anii 1950 și 60
La sfârșitul anilor 1950, au fost create primele sisteme de sinteză vocală pe bază de calculator. În 1961, fizicianul John Larry Kelly Jr. de la Bell Labs a folosit un calculator IBM pentru a sintetiza vorbirea. Vocoderul său (sintetizator de înregistrare vocală) a reprodus melodia Daisy Bell.
În perioada în care Kelly își perfecționa vocoderul, Arthur C. Clarke, autorul cărții 2001: O odisee spațială, a folosit demonstrația lui Kelly în scenariul cărții sale. În timpul unei scene, calculatorul HAL 9000 cântă melodia Daisy Bell.
În 1966, codarea liniară predictivă a apărut pe scenă. Această formă de codare a vorbirii a început dezvoltarea sub îndrumarea lui Fumitada Itakura și Shuzo Saito. Bishnu S. Atal și Manfred R. Schroeder au contribuit, de asemenea, la dezvoltarea codării liniare predictive.
Anii 1970
În 1975, metoda liniară a perechilor spectrale a fost dezvoltată de Itakura. Această metodă de compresie ridicată a vorbirii l-a ajutat pe Itakura să aprofundeze analiza și sinteza vorbirii, identificând punctele slabe și găsind soluții pentru a le îmbunătăți.
În acest an, a fost lansat și MUSA. Acest sistem de sinteză vocală autonom folosea un algoritm pentru a citi cu voce tare în italiană. O versiune lansată trei ani mai târziu era capabilă să cânte în italiană.
În anii 70, a fost dezvoltat primul sintetizator articulator, bazat pe tractul vocal uman. Primul sintetizator cunoscut a fost creat de Tom Baer, Paul Mermelstein și Philip Rubin la Haskins Laboratories. Cei trei au folosit informații din modelele tractului vocal realizate la Bell Laboratories în anii 60 și 70.
În 1976, au fost introduse Mașinile de citit Kurzweil pentru nevăzători. Deși aceste dispozitive erau prea scumpe pentru publicul larg, bibliotecile le puneau adesea la dispoziția persoanelor cu deficiențe de vedere pentru a asculta cărți.
Codarea liniară predictivă a devenit baza pentru cipurile sintetizatoarelor. Cipurile de vorbire LPC de la Texas Instruments și jucăriile Speak & Spell din anii 1970 foloseau tehnologia cipurilor sintetizatoare. Aceste jucării erau exemple de sinteză a vocii umane cu intonații realiste, diferite de vocile sintetizate robotizate, comune la acea vreme. Multe electronice portabile cu capacitatea de a sintetiza vorbirea au devenit populare în acest deceniu, inclusiv calculatorul Speech+ de la Telesensory Systems pentru nevăzători. Fidelity Voice Chess Challenger, un calculator de șah capabil să sintetizeze vorbirea, a fost lansat în 1979.
Anii 1980
În anii 1980, sinteza vocală a început să aibă un impact important în lumea jocurilor video. În 1980, Stratovox (un joc arcade de tip shooter) a fost lansat de Sun Electronics. Manbiki Shoujo (tradus în engleză ca Shoplifting Girl) a fost primul joc pentru computer personal cu capacitatea de a sintetiza vorbirea. Jocul electronic Milton a fost lansat și el în 1980 – a fost primul joc electronic al companiei Milton Bradley care putea sintetiza vocea umană.
În 1983, a fost lansat aparatul de sinteză acustică-mecanică autonom numit DECtalk. DECtalk înțelegea grafii fonetice ale cuvintelor, permițând personalizarea pronunției cuvintelor neobișnuite. Aceste grafii fonetice puteau include și un indicator de ton pe care DECtalk îl folosea la articularea sunetelor. Datorită acestui lucru, DECtalk putea să cânte.
La sfârșitul anilor '80, Steve Jobs a creat NeXT, un sistem dezvoltat de Trillium Sound Research. Chiar dacă NeXT nu a devenit foarte popular, Jobs a integrat ulterior acest program în Apple în anii '90.
Anii 1990
Versiunile mai vechi ale sistemelor text-to-speech sintetizate sunau clar robotic, dar acest lucru a început să se schimbe la sfârșitul anilor '80 și începutul anilor '90. Consoanele mai blânde făceau ca mașinile vorbitoare să piardă din asprimea electronică și să sune mai uman. În 1990, Ann Syrdal de la AT&T Bell Laboratories a dezvoltat o voce sintetizată feminină. Inginerii au continuat, de-a lungul anilor '90, să lucreze pentru a face vocile sintetizate să sune cât mai natural.
În 1999, Microsoft a lansat Narrator, o soluție pentru citirea ecranului care este inclusă acum în fiecare copie de Microsoft Windows.
Anii 2000
Sinteza vocală a întâmpinat unele dificultăți în anii 2000, deoarece dezvoltatorii s-au străduit să creeze standarde general acceptate pentru vorbirea sintetizată. Deoarece vorbirea este extrem de individualizată, este dificil pentru oamenii din întreaga lume să ajungă la un consens privind pronunția corectă a fonemelor, difonemelor, intonației, tonului, reproducerii tiparelor și inflexiunilor.
Calitatea sunetului de sinteză vocală de tip formant a devenit, de asemenea, o preocupare importantă în anii '90, deoarece inginerii și cercetătorii au observat că sistemele folosite în laboratoare pentru redarea vorbirii sintetizate erau adesea mult mai avansate decât echipamentul utilizatorului obișnuit. Când vine vorba de sinteză vocală, mulți oameni se gândesc la sintetizatorul vocal al lui Stephen Hawking, care oferea o voce robotizată, cu puțină naturalețe umană.
În 2005, cercetătorii au ajuns, în sfârșit, la un consens și au început să folosească un set comun de date pentru vorbire, permițându-le să lucreze pornind de la aceleași principii de bază atunci când creau sisteme avansate de sinteză vocală.
În 2007, a fost realizat un studiu care arăta că ascultătorii pot deduce dacă o persoană care vorbește zâmbește. Cercetătorii continuă să studieze cum poate fi folosită această informație pentru a crea software de recunoaștere și sinteză vocală care să pară cât mai natural.
Anii 2010
Astăzi, produsele de sinteză vocală care folosesc semnale vocale sunt peste tot, de la Siri la Alexa. Sintetizatoarele electronice de voce nu doar că fac viața mai ușoară, ci și mai distractivă. Fie că folosești un sistem TTS pentru a asculta romane pe drum, fie că te bazezi pe aplicații care ușurează învățarea unei limbi străine, cel mai probabil folosești tehnologia text-to-speech pentru a-ți pune rețelele neuronale la treabă în fiecare zi.
Viitorul
În anii următori, este probabil ca tehnologia de sinteză vocală să se concentreze pe crearea unui model al creierului pentru a înțelege mai bine modul în care înregistrăm datele vocale în mintea noastră. Tehnologia vocală va încerca, de asemenea, să aprofundeze rolul emoțiilor în vorbire și va folosi aceste informații pentru a crea voci AI atât de naturale, încât să fie practic indistinguibile de vocile umane reale.
Ultimele noutăți în tehnologia de sinteză vocală: Speechify
Când afli despre tranzițiile din tehnologia de sinteză vocală, este uimitor să îți imaginezi cât de mult a avansat știința. Astăzi, aplicații precum Speechify fac posibilă convertirea oricărui text în fișiere audio cu ușurință. Cu doar o simplă apăsare de buton (sau atingere în aplicație), Speechify poate transforma site-uri web, documente și imagini cu text în vorbire naturală. Biblioteca Speechify se sincronizează pe toate dispozitivele tale, astfel încât să poți învăța și lucra oriunde te-ai afla. Descoperă aplicația Speechify atât în App Store-ul Apple, cât și în Google Play Android Google Play.
Întrebări frecvente
Cine a inventat tehnologia text-to-speech?
Text-to-speech pentru limba engleză a fost inventat de Noriko Umeda. Sistemul a fost dezvoltat la Laboratorul Electrotehnic din Japonia în 1968.
Care este scopul tehnologiei text-to-speech?
Mulți oameni folosesc tehnologia text-to-speech. Pentru cei care preferă să primească informațiile în format audio, tehnologia TTS face ușor accesul la informațiile necesare pentru muncă sau studiu, fără a petrece ore întregi în fața unei cărți. Profesioniștii ocupați folosesc, de asemenea, tehnologia TTS pentru a rămâne la curent cu activitatea lor atunci când nu pot sta în fața unui ecran. Multe tipuri de tehnologie TTS au fost inițial dezvoltate pentru persoanele cu deficiențe de vedere, iar TTS este încă o modalitate extraordinară pentru cei care nu pot vedea să obțină informațiile de care au nevoie.
Cum sintetizezi o voce?
Fragmente de vorbire înregistrată sunt stocate într-o bază de date sub diverse unități. Software-ul pregătește fișiere audio prin selecție de unități. Pe baza acestora este creată o voce. De obicei, cu cât gama de ieșiri a unui program este mai mare, cu atât programului îi este mai greu să ofere utilizatorilor claritate vocală.

