Una breu història de la conversió de text a veu

La síntesi de veu, o producció artificial de la veu humana, ha avançat molt en els últims 70 anys. Tant si avui fas servir serveis de text a veu per escoltar llibres, estudiar o revisar els teus escrits, és clar que aquests serveis han fet la vida més fàcil a persones de moltes professions.

Aquí veurem com funciona el processament de text a veu i com aquesta tecnologia d'assistència ha anat canviant amb el temps.

Introducció

Cap al 1700, el professor rus Christian Kratzenstein va crear ressonadors acústics que imitaven el so de la veu humana. Dues dècades després, el VODER (Voice Operating Demonstrator) va causar sensació a la Fira Mundial de Nova York quan el seu creador Homer Dudley va mostrar com es podia generar parla humana per mitjans artificials. L'aparell era difícil de fer sonar: Dudley en controlava la freqüència bàsica amb pedals de peu.

A principis del 1800, Charles Wheatstone va desenvolupar el primer sintetitzador mecànic de veu. Això va impulsar una ràpida evolució de les eines d'articulació i síntesi de veu.

Pot ser difícil definir què fa bo un programa de text a veu, però, com moltes coses, ho saps quan ho sents. Un bon programa ofereix veus naturals amb inflexió i to realistes.

La tecnologia de text a veu pot ajudar persones amb discapacitat visual o altres discapacitats a accedir a la informació que necessiten per treballar i comunicar-se. El programari també permet que estudiants i grans lectors puguin escoltar la informació mentre es mouen. La veu sintètica permet fer més coses en menys temps, i és útil en àmbits molt diversos, des de la creació de videojocs fins a ajudar persones amb dificultats de processament del llenguatge.

Anys 50 i 60

A finals dels anys 50 es van crear els primers sistemes de síntesi de veu, basats en ordinador. El 1961, John Larry Kelly Jr., físic de Bell Labs, va utilitzar un IBM per sintetitzar veu. El seu vocoder va recrear la cançó Daisy Bell.

Mentre Kelly perfeccionava el seu vocoder, Arthur C. Clarke, autor de 2001: Una Odissea a l'Espai, va incorporar la demostració de Kelly al guió del llibre. En una escena, l'ordinador HAL 9000 canta Daisy Bell.

El 1966 va aparèixer la codificació predictiva lineal. Aquest tipus de codificació de veu es va començar a desenvolupar de la mà de Fumitada Itakura i Shuzo Saito. Bishnu S. Atal i Manfred R. Schroeder també hi van contribuir.

Anys 70

El 1975, Itakura va desenvolupar el mètode de parells espectrals lineals. Aquesta codificació de veu d'alta compressió va ajudar Itakura a estudiar millor la síntesi i l'anàlisi de veu.

Aquell any també es va presentar MUSA. Aquest sistema independent de síntesi de veu feia servir un algorisme per llegir italià en veu alta. Una versió de tres anys després fins i tot podia cantar en italià.

Als anys 70 es va desenvolupar el primer sintetitzador articulatori basat en el tracte vocal humà. El primer model conegut va ser de Tom Baer, Paul Mermelstein i Philip Rubin a Haskins Laboratories, usant models del tracte vocal creats a Bell Labs als 60 i 70.

El 1976 es van introduir les Kurzweil Reading Machines per a persones cegues. Tot i que eren massa cares, les biblioteques en tenien perquè les persones amb discapacitat visual poguessin escoltar llibres.

La codificació predictiva lineal va ser la base dels xips sintetitzadors. Els xips de parla LPC de Texas Instruments i les joguines Speak & Spell dels anys 70 empraven aquesta tecnologia. Aquestes joguines eren exemples de síntesi de veu humana amb entonacions precises, diferent de la veu robòtica anterior. Es va popularitzar molta electrònica portàtil amb síntesi de veu, inclosa la calculadora Speech+ per a cecs. El Fidelity Voice Chess Challenger, un ordinador d'escacs amb veu, es va llançar el 1979.

Anys 80

Als 80, la síntesi de veu va irrompre al món dels videojocs. El 1980 es va llançar Stratovox (joc recreatiu de trets) de Sun Electronics. Manbiki Shoujo (Shoplifting Girl) va ser el primer joc d'ordinador personal amb síntesi de veu. També es va llançar el joc electrònic Milton el 1980, el primer joc de Milton Bradley amb capacitat de síntesi de veu humana.

El 1983 es va presentar DECtalk, una màquina acústica-mecànica autònoma. DECtalk entenia lletrejats fonètics de paraules, cosa que permetia personalitzar la pronunciació. També s'hi podia afegir el to, que DECtalk interpretava en parlar. Això li permetia cantar.

A finals dels 80, Steve Jobs va crear NeXT, un sistema de Trillium Sound Research. Tot i que NeXT no va triomfar, Jobs el va fusionar després amb Apple als 90.

Anys 90

Versions anteriors de text a veu sintetitzada sonaven robòtiques, però això va canviar entre finals dels 80 i els 90. Sons més suaus van fer que les màquines sonessin més humanes. El 1990, Ann Syrdal, d'AT&T Bell Labs, va crear una veu femenina sintetitzada. Al llarg dels 90, els enginyers van anar buscant veus més naturals.

El 1999, Microsoft va llançar Narrator, un lector de pantalla que ara s'inclou a totes les versions de Windows.

Anys 2000

La síntesi de veu va topar amb dificultats als anys 2000, mentre els desenvolupadors intentaven posar-se d'acord en uns estàndards comuns. Com que la veu és molt individual, és complicat consensuar la pronunciació de sons, l'entonació i els patrons.

La qualitat de l'àudio sintètic també va començar a preocupar més als 90, quan es va veure que la qualitat al laboratori era millor que la dels dispositius habituals. Molta gent associa la síntesi de veu amb la de Stephen Hawking, amb un so robòtic i poc humà.

El 2005, investigadors van acordar fer servir una base de dades comuna de veu, cosa que permetia treballar amb els mateixos criteris per crear sistemes avançats de síntesi de veu.

El 2007, un estudi va mostrar que és possible detectar si una persona parla somrient. Els investigadors continuen treballant per aplicar això a un reconeixement i una síntesi de veu més naturals.

Anys 2010

Avui, els productes de síntesi de veu són arreu, de Siri a Alexa. Els sintetitzadors electrònics no només faciliten la vida, sinó que també la fan més entretinguda. Tant si utilitzes un sistema TTS per escoltar novel·les com aplicacions per aprendre idiomes, segur que fas servir tecnologia de text a veu per activar la ment cada dia.

El futur

Els pròxims anys, la tecnologia de síntesi de veu buscarà crear un model del cervell per entendre millor com emmagatzemem dades de veu. També treballarà per entendre el paper de l'emoció en la parla, creant veus d'IA indistingibles de les d'éssers humans reals.

El més nou en síntesi de veu: Speechify

Veure com ha evolucionat la síntesi de veu és espectacular. Avui, aplicacions com Speechify permeten convertir text en àudio amb tota facilitat. Amb un sol toc, Speechify transforma webs, documents i imatges en veu natural. La biblioteca se sincronitza a tots els teus dispositius, fet que facilita seguir aprenent i treballant. Troba Speechify a l'App Store d'Apple i a Android Google Play.

Preguntes freqüents

Qui va inventar el text a veu?

El text a veu per a anglès el va inventar Noriko Umeda. El sistema es va desenvolupar al Laboratori Electrotècnic del Japó el 1968.

Quin és l'objectiu del text a veu?

Moltes persones fan servir tecnologia de text a veu. Per a qui prefereix la informació en format àudio, la tecnologia TTS facilita obtenir informació sense passar hores davant d'un llibre. Professionals ocupats fan servir TTS per continuar amb la feina sense estar enganxats a la pantalla. Moltes TTS es van crear per a persones amb discapacitat visual i avui encara són essencials per a qui té problemes de visió.

Com es sintetitza una veu?

Fragments de veu enregistrada es guarden a la base de dades per unitats. El programari prepara els arxius mitjançant selecció d'unitats. Així es crea una veu. Quan hi ha més varietat, normalment el programa té més dificultats per mantenir la claredat.

Speechify és la plataforma líder mundial de text a veu, de confiança per a més de 50 milions d'usuaris i avalada per més de 500.000 ressenyes de cinc estrelles a les seves aplicacions de text a veu per a iOS, Android, Extensió de Chrome, aplicació web i aplicació per a Mac. El 2025, Apple va premiar Speechify amb el prestigiós Premi de Disseny Apple a la WWDC, qualificant-lo com “una eina essencial que ajuda la gent a viure la seva vida.” Speechify ofereix més de 1.000 veus naturals en més de 60 idiomes i s'utilitza a gairebé 200 països. Entre les veus de celebritats hi trobem Snoop Dogg i Gwyneth Paltrow. Per a creadors i empreses, Speechify Studio proporciona eines avançades com Generador de veu IA, Clonació de veus IA, Doblatge IA i el seu Canviador de veu IA. Speechify també impulsa productes líders amb la seva API de text a veu, d'alta qualitat i amb una relació qualitat-preu òptima API de text a veu. Present en The Wall Street Journal, CNBC, Forbes, TechCrunch i altres mitjans destacats, Speechify és el proveïdor de text a veu més gran del món. Visiteu speechify.com/news, speechify.com/blog i speechify.com/press per saber-ne més.