La clonació de veu, una tecnologia pensada per replicar la parla d’una persona de manera realista, ha avançat molt amb els anys. Mitjançant la verificació de parlant i la síntesi de text a veu (SV2TTS), la veu es pot extreure i generar veu sintètica.
Com funciona un programari de clonació de veu?
Els programes de clonació de veu solen fer servir PyTorch, un framework d’aprenentatge profund. Normalment necessiten força àudios d’un parlant per clonar bé la veu. Aquestes dades entrenen models de sintetitzador i vocoder amb diversos paràmetres i dependències.
Aquest programari té tres peces clau: l’encoder, el sintetitzador i el vocoder. L’encoder crea embeddings de la veu, el sintetitzador els fa servir per generar l’espectrograma i el vocoder transforma l’espectrograma en veu audible.
La tecnologia funciona amb CPU o GPU, algunes compatibles amb CUDA per acceleració en GPU. Tot i que es pot fer servir amb CPU, la GPU és recomanable per a treball en temps real per la seva potència.
Impacte de Voice Cloning a GitHub
GitHub, plataforma de codi obert, allotja molts repositoris per a aplicacions de clonació de veu. Projectes GitHub de clonació de veu com els de CorentinJ i BenaAndrew permeten col·laborar, millorar i difondre aquestes tecnologies. Sovint inclouen models entrenats, clonació fàcil sense grans recursos ni coneixements en deep learning.
Molts projectes a GitHub, com el repo Real-Time-Voice-Cloning, ofereixen scripts i eines Python per a síntesi de text a veu (TTS) i conversió de veu. Eines com demo_toolbox.py permeten experimentar, mentre README.md explica com instal·lar i fer servir el projecte.
Propòsit i funcions de la clonació de veu
La clonació de veu s’utilitza per a entreteniment, art, accessibilitat i detecció de frau. Permet síntesi multispeaker realista en multimèdia o recrear veus de persones que han perdut la parla.
Els programes de clonació destaquen per imitar matisos únics, suport per a diversos idiomes, velocitat/ritme i to ajustables i compatibilitat amb sistemes com Linux. Molts ofereixen API fàcil d’integrar en altres aplicacions.
Els 9 millors programes de clonació de veu
- Speechify Voice Cloning: Speechify voice cloning és el millor. Clona la teva veu a l’instant. Prem grava al navegador i parla 30 segons. L’IA de Speechify la clonarà al moment.
- Real-Time-Voice-Cloning: Projecte open source a GitHub amb eina Python per a clonació gairebé en temps real amb poques dades.
- iSpeech: Solució TTS d’alta qualitat que ofereix clonació de veu i altres serveis relacionats.
- Resemble AI: Plataforma avançada amb clonació de veu personalitzada i API fàcil d’usar.
- Lyrebird: Ara part de Descript, Lyrebird destacava per clonar veus úniques digitals.
- CereVoice Me: Servei de CereProc per crear una veu TTS única a partir de gravacions de l’usuari.
- Voicepods: IA avançada per convertir text en veu realista i funcions de clonació.
- Modulate: Permet crear «skins» de veu personalitzables i úniques.
- Voicery: Destaca per la síntesi de veu d’alta qualitat i veus personalitzades.
Per fer-los servir, normalment cal fer pip install dels paquets, complir requirements.txt i seguir les instruccions. Molts funcionen amb Jupyter (ipynb), la línia de comandes o Google Colab.

