Umjetna inteligencija (AI) prodrla je u gotovo sve aspekte našeg života, od chatbotova na web stranicama do kreatora sadržaja na društvenim mrežama i u videoigrama. AI glasovne tehnologije znatno su napredovale, od osnovnih Text-to-Speech (TTS) sustava do stvaranja sintetičkih glasova vrlo sličnih ljudskima. Uz AI alate poput generatora glasova i softvera za kloniranje glasa, AI danas može vrlo uvjerljivo oponašati nečiji glas.
Razlika između Text-to-Speech i prepoznavanja govora
Text-to-Speech (TTS) i prepoznavanje govora dvije su strane iste medalje; oba uključuju ljudski glas i AI, ali služe različitim svrhama. TTS pretvara tekst u izgovoreni glas i koristi se u audio knjigama, e-učenju i kao pomoć osobama s invaliditetom. AI i algoritmi strojnog učenja omogućuju stvaranje sintetičkog glasa iz pisanog teksta.
S druge strane, prepoznavanje govora je postupak u kojem AI pretvara izgovorene riječi u tekst. Ova se tehnologija koristi u uslugama prijepisa, glasovnim asistentima poput Apple Siri i Amazon Alexe te na nekim društvenim mrežama poput TikToka za generiranje titlova.
Kako AI može oponašati ljudski glas
Tipičan način na koji AI oponaša ljudski glas je dvofazni proces – analiza i sinteza. To je dio tehnologije poznate kao kloniranje glasa. Najprije AI proučava snimke glasa koristeći duboko učenje i neuronske mreže, analizirajući obrasce, tonove i naglaske.
U fazi sinteze AI koristi generativne modele (kao što su OpenAI ChatGPT ili Adobe VoCo) za stvaranje digitalnog glasa koji oponaša analizirani glas. To je slično deepfakeu, ali za glas. Često je dovoljno svega nekoliko sekundi zvuka za stvaranje uvjerljivo realističnog glasa.
Komponente stvaranja ljudskog glasa
Za stvaranje ljudskog glasa potrebno je više komponenti, među kojima su:
- Fonetska analiza: razumijevanje fonetske strukture govora, razbijanje riječi na pojedinačne glasove.
- Analiza prozodije: razumijevanje ritma, naglasaka i intonacije govora.
- Algoritmi učenja: strojno učenje koristi se za učenje obrazaca iz zvuka.
- Generativni modeli: koriste se za stvaranje novih glasovnih podataka prema naučenim obrascima.
Razlike između ljudskog i AI glasa
Iako AI glasovi zvuče sve prirodnije, i dalje postoje razlike u odnosu na ljudski glas. Ključna razlika su emocionalne nijanse i kontekstualni naglasci koje AI tek uči prepoznavati. Tu su i etička pitanja te zaštita privatnosti kod kloniranja glasa, jer zloupotreba može dovesti do krađe identiteta i deepfake prijevara.
Top 8 AI softvera za glas
- OpenAI ChatGPT: koristi generativni AI za stvaranje ljudskih tekstualnih odgovora. ChatGPT se može koristiti za generiranje realističnog glasa u raznim aplikacijama.
- Adobe VoCo: Adobeov alat za kloniranje glasa omogućuje uređivanje i stvaranje govora na temelju uzorka od samo 20 minuta izvornog glasa.
- Amazon Polly: pretvara tekst u prirodan govor, što omogućuje razvoj aplikacija i proizvoda koji „govore“.
- Microsoft Azure Text to Speech: poznat po visokokvalitetnom, realističnom AI glasu, široko se koristi za pristupačnost, zabavu i komunikaciju.
- Google Text-to-Speech: Googleov servis za sintezu prirodnog govora na više od 30 jezika.
- Descript: omogućuje korisnicima stvaranje, uređivanje i prilagodbu vlastitog glasa za podcaste i voice overe.
- Resemble AI: nudi tehnologiju kloniranja glasa za brendove i proizvode putem jedinstvenih, AI-generiranih glasova.
- Lyrebird: Descript je preuzeo Lyrebird, pionira softvera za kloniranje glasa i stvaranje realističnih digitalnih glasova.
AI glasovne tehnologije, pogonjene dubokim učenjem i neuronskim mrežama, stalno napreduju te se sve više koriste u audio knjigama, podcastima, na društvenim mrežama i u videoigrama. Prema Forbesu, novi AI alati nude iznimno realistične glasove i mijenjaju način na koji komuniciramo s tehnologijom. Kako se ovo područje razvija, granica između ljudskog i AI glasa sve je tanja, no važno je uvijek imati na umu etička pitanja i zaštitu privatnosti.

