1. Acasă
  2. TTS
  3. O scurtă istorie a tehnologiei text-to-speech
TTS

O scurtă istorie a tehnologiei text-to-speech

Tyler Weitzman

Tyler Weitzman

MS in Computer Science, Stanford University, Dyslexia & Accessibility Advocate, CEO/Founder of Speechify

apple logoPremiul Apple Design 2025
Peste 50M de utilizatori

Sinteza vocală, sau producția artificială a vocii umane, a parcurs un drum lung în ultimii 70 de ani. Indiferent dacă folosești în prezent servicii text-to-speech pentru a asculta cărți, a studia sau a-ți corecta propriile scrieri, nu există nicio îndoială că serviciile text-to-speech au făcut viața mai ușoară pentru oameni dintr-o varietate de profesii.

Aici vom analiza cum funcționează procesarea text-to-speech și cum această tehnologie asistivă s-a schimbat în timp.

Introducere

În anii 1700, profesorul rus Christian Kratzenstein a creat rezonatoare acustice care imitau sunetul vocii umane. Două decenii mai târziu, VODER (Voice Operating Demonstrator) a făcut senzație la Târgul Mondial de la New York, când creatorul Homer Dudley a arătat mulțimilor cum vorbirea umană poate fi realizată prin mijloace artificiale. Dispozitivul era dificil de folosit – Dudley trebuia să controleze frecvența fundamentală folosind pedale de picior.

La începutul anilor 1800, Charles Wheatstone a dezvoltat primul sintetizator mecanic de vorbire. Acest lucru a declanșat o evoluție rapidă a instrumentelor și tehnologiilor de sinteză articulatorie.

Poate fi dificil să identifici exact ce face ca un program text-to-speech să fie reușit, dar, precum multe lucruri în viață, îți dai seama când îl auzi. Un program text-to-speech de calitate oferă voci naturale, cu inflexiuni și tonuri realiste.

Tehnologia text-to-speech poate ajuta persoanele cu deficiențe de vedere sau alte dizabilități să obțină informațiile necesare pentru a avea succes la locul de muncă și pentru a comunica cu ceilalți. De asemenea, software-ul le permite elevilor și tuturor celor cu sarcini mari de citit să asculte informațiile de care au nevoie în timp ce sunt pe drum. Vorbirea sintetică îi ajută pe oameni să realizeze mai multe într-un timp mai scurt și poate fi utilă în diverse contexte, de la crearea jocurilor video până la sprijinirea persoanelor cu dificultăți de procesare a limbajului.

Anii 1950 și 60

La sfârșitul anilor 1950, au fost create primele sisteme de sinteză vocală pe bază de calculator. În 1961, fizicianul John Larry Kelly Jr. de la Bell Labs a folosit un calculator IBM pentru a sintetiza vorbirea. Vocoderul său (sintetizator de înregistrare vocală) a reprodus melodia Daisy Bell.

În perioada în care Kelly își perfecționa vocoderul, Arthur C. Clarke, autorul cărții 2001: O odisee spațială, a folosit demonstrația lui Kelly în scenariul cărții sale. În timpul unei scene, calculatorul HAL 9000 cântă melodia Daisy Bell.

În 1966, codarea liniară predictivă a apărut pe scenă. Această formă de codare a vorbirii a început dezvoltarea sub îndrumarea lui Fumitada Itakura și Shuzo Saito. Bishnu S. Atal și Manfred R. Schroeder au contribuit, de asemenea, la dezvoltarea codării liniare predictive.

Anii 1970

În 1975, metoda liniară a perechilor spectrale a fost dezvoltată de Itakura. Această metodă de compresie ridicată a vorbirii l-a ajutat pe Itakura să aprofundeze analiza și sinteza vorbirii, identificând punctele slabe și găsind soluții pentru a le îmbunătăți.

În acest an, a fost lansat și MUSA. Acest sistem de sinteză vocală autonom folosea un algoritm pentru a citi cu voce tare în italiană. O versiune lansată trei ani mai târziu era capabilă să cânte în italiană.

În anii 70, a fost dezvoltat primul sintetizator articulator, bazat pe tractul vocal uman. Primul sintetizator cunoscut a fost creat de Tom Baer, Paul Mermelstein și Philip Rubin la Haskins Laboratories. Cei trei au folosit informații din modelele tractului vocal realizate la Bell Laboratories în anii 60 și 70.

În 1976, au fost introduse Mașinile de citit Kurzweil pentru nevăzători. Deși aceste dispozitive erau prea scumpe pentru publicul larg, bibliotecile le puneau adesea la dispoziția persoanelor cu deficiențe de vedere pentru a asculta cărți.

Codarea liniară predictivă a devenit baza pentru cipurile sintetizatoarelor. Cipurile de vorbire LPC de la Texas Instruments și jucăriile Speak & Spell din anii 1970 foloseau tehnologia cipurilor sintetizatoare. Aceste jucării erau exemple de sinteză a vocii umane cu intonații realiste, diferite de vocile sintetizate robotizate, comune la acea vreme. Multe electronice portabile cu capacitatea de a sintetiza vorbirea au devenit populare în acest deceniu, inclusiv calculatorul Speech+ de la Telesensory Systems pentru nevăzători. Fidelity Voice Chess Challenger, un calculator de șah capabil să sintetizeze vorbirea, a fost lansat în 1979.

Anii 1980

În anii 1980, sinteza vocală a început să aibă un impact important în lumea jocurilor video. În 1980, Stratovox (un joc arcade de tip shooter) a fost lansat de Sun Electronics. Manbiki Shoujo (tradus în engleză ca Shoplifting Girl) a fost primul joc pentru computer personal cu capacitatea de a sintetiza vorbirea. Jocul electronic Milton a fost lansat și el în 1980 – a fost primul joc electronic al companiei Milton Bradley care putea sintetiza vocea umană.

În 1983, a fost lansat aparatul de sinteză acustică-mecanică autonom numit DECtalk. DECtalk înțelegea grafii fonetice ale cuvintelor, permițând personalizarea pronunției cuvintelor neobișnuite. Aceste grafii fonetice puteau include și un indicator de ton pe care DECtalk îl folosea la articularea sunetelor. Datorită acestui lucru, DECtalk putea să cânte.

La sfârșitul anilor '80, Steve Jobs a creat NeXT, un sistem dezvoltat de Trillium Sound Research. Chiar dacă NeXT nu a devenit foarte popular, Jobs a integrat ulterior acest program în Apple în anii '90.

Anii 1990

Versiunile mai vechi ale sistemelor text-to-speech sintetizate sunau clar robotic, dar acest lucru a început să se schimbe la sfârșitul anilor '80 și începutul anilor '90. Consoanele mai blânde făceau ca mașinile vorbitoare să piardă din asprimea electronică și să sune mai uman. În 1990, Ann Syrdal de la AT&T Bell Laboratories a dezvoltat o voce sintetizată feminină. Inginerii au continuat, de-a lungul anilor '90, să lucreze pentru a face vocile sintetizate să sune cât mai natural.

În 1999, Microsoft a lansat Narrator, o soluție pentru citirea ecranului care este inclusă acum în fiecare copie de Microsoft Windows.

Anii 2000

Sinteza vocală a întâmpinat unele dificultăți în anii 2000, deoarece dezvoltatorii s-au străduit să creeze standarde general acceptate pentru vorbirea sintetizată. Deoarece vorbirea este extrem de individualizată, este dificil pentru oamenii din întreaga lume să ajungă la un consens privind pronunția corectă a fonemelor, difonemelor, intonației, tonului, reproducerii tiparelor și inflexiunilor.

Calitatea sunetului de sinteză vocală de tip formant a devenit, de asemenea, o preocupare importantă în anii '90, deoarece inginerii și cercetătorii au observat că sistemele folosite în laboratoare pentru redarea vorbirii sintetizate erau adesea mult mai avansate decât echipamentul utilizatorului obișnuit. Când vine vorba de sinteză vocală, mulți oameni se gândesc la sintetizatorul vocal al lui Stephen Hawking, care oferea o voce robotizată, cu puțină naturalețe umană.

În 2005, cercetătorii au ajuns, în sfârșit, la un consens și au început să folosească un set comun de date pentru vorbire, permițându-le să lucreze pornind de la aceleași principii de bază atunci când creau sisteme avansate de sinteză vocală.

În 2007, a fost realizat un studiu care arăta că ascultătorii pot deduce dacă o persoană care vorbește zâmbește. Cercetătorii continuă să studieze cum poate fi folosită această informație pentru a crea software de recunoaștere și sinteză vocală care să pară cât mai natural.

Anii 2010

Astăzi, produsele de sinteză vocală care folosesc semnale vocale sunt peste tot, de la Siri la Alexa. Sintetizatoarele electronice de voce nu doar că fac viața mai ușoară, ci și mai distractivă. Fie că folosești un sistem TTS pentru a asculta romane pe drum, fie că te bazezi pe aplicații care ușurează învățarea unei limbi străine, cel mai probabil folosești tehnologia text-to-speech pentru a-ți pune rețelele neuronale la treabă în fiecare zi.

Viitorul

În anii următori, este probabil ca tehnologia de sinteză vocală să se concentreze pe crearea unui model al creierului pentru a înțelege mai bine modul în care înregistrăm datele vocale în mintea noastră. Tehnologia vocală va încerca, de asemenea, să aprofundeze rolul emoțiilor în vorbire și va folosi aceste informații pentru a crea voci AI atât de naturale, încât să fie practic indistinguibile de vocile umane reale.

Ultimele noutăți în tehnologia de sinteză vocală: Speechify

Când afli despre tranzițiile din tehnologia de sinteză vocală, este uimitor să îți imaginezi cât de mult a avansat știința. Astăzi, aplicații precum Speechify fac posibilă convertirea oricărui text în fișiere audio cu ușurință. Cu doar o simplă apăsare de buton (sau atingere în aplicație), Speechify poate transforma site-uri web, documente și imagini cu text în vorbire naturală. Biblioteca Speechify se sincronizează pe toate dispozitivele tale, astfel încât să poți învăța și lucra oriunde te-ai afla. Descoperă aplicația Speechify atât în App Store-ul Apple, cât și în Google Play Android Google Play.  

Întrebări frecvente

Cine a inventat tehnologia text-to-speech?

Text-to-speech pentru limba engleză a fost inventat de Noriko Umeda. Sistemul a fost dezvoltat la Laboratorul Electrotehnic din Japonia în 1968.

Care este scopul tehnologiei text-to-speech?

Mulți oameni folosesc tehnologia text-to-speech. Pentru cei care preferă să primească informațiile în format audio, tehnologia TTS face ușor accesul la informațiile necesare pentru muncă sau studiu, fără a petrece ore întregi în fața unei cărți. Profesioniștii ocupați folosesc, de asemenea, tehnologia TTS pentru a rămâne la curent cu activitatea lor atunci când nu pot sta în fața unui ecran. Multe tipuri de tehnologie TTS au fost inițial dezvoltate pentru persoanele cu deficiențe de vedere, iar TTS este încă o modalitate extraordinară pentru cei care nu pot vedea să obțină informațiile de care au nevoie.

Cum sintetizezi o voce?

Fragmente de vorbire înregistrată sunt stocate într-o bază de date sub diverse unități. Software-ul pregătește fișiere audio prin selecție de unități. Pe baza acestora este creată o voce. De obicei, cu cât gama de ieșiri a unui program este mai mare, cu atât programului îi este mai greu să ofere utilizatorilor claritate vocală.

Bucură-te de cele mai avansate voci AI, fișiere nelimitate și suport 24/7

Încearcă gratuit
tts banner for blog

Distribuie acest articol

Tyler Weitzman

Tyler Weitzman

MS in Computer Science, Stanford University, Dyslexia & Accessibility Advocate, CEO/Founder of Speechify

Tyler Weitzman is the Co-Founder, Head of Artificial Intelligence & President at Speechify, the #1 text-to-speech app in the world, totaling over 100,000 5-star reviews. Weitzman is a graduate of Stanford University, where he received a BS in mathematics and a MS in Computer Science in the Artificial Intelligence track. He has been selected by Inc. Magazine as a Top 50 Entrepreneur, and he has been featured in Business Insider, TechCrunch, LifeHacker, CBS, among other publications. Weitzman’s Masters degree research focused on artificial intelligence and text-to-speech, where his final paper was titled: “CloneBot: Personalized Dialogue-Response Predictions.”

speechify logo

Despre Speechify

Cititor Text to Speech nr. 1

Speechify este platforma de top la nivel mondial în text to speech, de încredere pentru peste 50 de milioane de utilizatori și apreciată cu peste 500.000 de recenzii de 5 stele pentru aplicațiile sale de iOS, Android, Extensie Chrome, aplicație web și aplicație desktop Mac. În 2025, Apple a recompensat Speechify cu prestigiosul Apple Design Award la WWDC, numindu-l „o resursă esențială care ajută oamenii să trăiască mai bine”. Speechify oferă peste 1.000 de voci naturale în peste 60 de limbi și este folosit în aproape 200 de țări. Voci de celebrități includ Snoop Dogg, Mr. Beast și Gwyneth Paltrow. Pentru creatori și afaceri, Speechify Studio oferă instrumente avansate, inclusiv Generator de Voci AI, Clonare de voce AI, Dublaj AI și Schimbător de voce AI. Speechify alimentează și produse de top cu al său API text to speech de înaltă calitate, eficient din punct de vedere al costurilor. Prezentat în The Wall Street Journal, CNBC, Forbes, TechCrunch și alte publicații importante, Speechify este cel mai mare furnizor de text to speech din lume. Vizitează speechify.com/news, speechify.com/blog și speechify.com/press pentru a afla mai multe.