Graças aos avanços no aprendizado de máquina, a clonagem de voz evoluiu significativamente nos últimos anos, resultando em algumas das soluções de texto para fala mais impressionantes até hoje. Entre os desenvolvimentos mais importantes está o zero-shot, que vem causando grande impacto no setor de tecnologia. Este artigo vai apresentar a clonagem de voz zero-shot e como ela vem transformando a indústria.
Aprendizado de máquina zero-shot explicado
O objetivo da clonagem de voz é replicar a voz de um locutor, sintetizando seu tom e timbre usando apenas uma pequena quantidade de fala gravada. Em outras palavras, a clonagem de voz é uma tecnologia de ponta que usa inteligência artificial para criar uma voz que se parece com a de uma pessoa específica. Essa tecnologia se baseia em três principais processos de aprendizado:
Aprendizado one-shot
O aprendizado one-shot significa que o modelo é treinado com apenas uma imagem de algo novo, mas ainda assim deve ser capaz de reconhecer outras imagens da mesma coisa.
Aprendizado few-shot
O aprendizado few-shot ocorre quando um modelo recebe algumas imagens de algo novo e consegue reconhecer coisas semelhantes, mesmo que tenham pequenas diferenças.
Aprendizado zero-shot
O aprendizado zero-shot ensina um modelo a reconhecer novos objetos ou conceitos nos quais ele nunca foi treinado anteriormente, utilizando um conjunto de dados, como o VCTK, para descrevê-los. É quando o modelo aprende a identificar coisas novas sem imagens, exemplos ou outros dados de treinamento. Em vez disso, você fornece uma lista de características ou atributos que descrevem o novo item.
O que é clonagem de voz?
Clonagem de voz é a replicação da voz de um locutor utilizando técnicas de aprendizado de máquina. O objetivo da clonagem de voz é reproduzir o timbre do locutor usando apenas uma pequena quantidade de sua fala gravada. Na clonagem de voz, um codificador de locutor transforma a fala da pessoa em um código que posteriormente pode ser convertido em um vetor usando um embedding de locutor. Esse vetor é então utilizado para treinar um sintetizador, também conhecido como vocoder, para criar uma fala que soa como a do locutor original. O sintetizador recebe o vetor de embedding e um mel spectrogram, uma representação visual do sinal de fala, como entrada. Esse é o processo básico da clonagem de voz. Ao final, ele produz uma forma de onda, que é o próprio som da fala sintetizada. Esse processo normalmente utiliza técnicas de aprendizado de máquina, como deep learning. Além disso, ele pode ser treinado com uma variedade de conjuntos de dados e métricas para avaliar a qualidade da fala gerada. A clonagem de voz pode ser utilizada em várias aplicações, tais como:
- Conversão de voz – a capacidade de alterar uma gravação da voz de uma pessoa para soar como se fosse falada por outra.
- Verificação de locutor – quando alguém afirma ser uma determinada pessoa, e sua voz é usada para verificar se isso é verdade.
- Multilocutor texto para fala – criação de fala a partir de texto escrito e palavras-chave
Algoritmos populares de clonagem de voz incluem WaveNet, Tacotron2, Zero-shot Multilocutor TTS e o VALL-E da Microsoft. Além disso, muitos outros algoritmos open source podem ser encontrados no GitHub, oferecendo resultados finais excelentes. Se você quer se aprofundar nas técnicas de clonagem de voz, a ICASSP, a Interspeech e a IEEE International Conference são ótimos pontos de partida.
Aprendizado zero-shot na clonagem de voz
Um codificador de locutor é utilizado para extrair vetores de fala dos dados de treinamento para viabilizar a clonagem de voz zero-shot. Esses vetores de fala podem então ser usados no processamento de sinais de locutores que ainda não foram incluídos nos conjuntos de treinamento, também chamados de locutores desconhecidos. Isso pode ser feito treinando uma rede neural com diversas técnicas, tais como:
- Modelos convolucionais são redes neurais utilizadas para resolver problemas de classificação de imagens.
- Modelos autorregressivos podem prever valores futuros com base nos valores anteriores.
Um dos desafios da clonagem de voz zero-shot é garantir que a fala sintetizada tenha alta qualidade e soe natural para o ouvinte. Para lidar com esse desafio, várias métricas são usadas para avaliar a qualidade da síntese de fala:
- Similaridade do locutor: mede o quanto a fala sintetizada se assemelha aos padrões de fala do locutor original.
- Naturalidade da fala: refere-se ao quão natural a fala sintetizada soa para quem ouve.
Os dados reais do mundo, que são usados para ensinar e avaliar modelos de IA, são chamados de referência de áudio ground truth. Esses dados são utilizados para treinamento e normalização. Além disso, técnicas de transferência de estilo são utilizadas para aumentar a capacidade de generalização do modelo. A transferência de estilo envolve o uso de duas entradas – uma para o conteúdo principal e outra para a referência de estilo – para melhorar o desempenho do modelo com novos dados. Em outras palavras, o modelo se torna mais capaz de lidar com novas situações.
Veja a mais recente tecnologia de clonagem de voz em ação com o Speechify Studio
A clonagem de voz por IA do Speechify Studio permite criar uma versão em IA totalmente personalizada da sua própria voz — perfeita para personalizar narrações, construir consistência de marca ou adicionar um toque familiar a qualquer projeto. Basta gravar uma amostra e os modelos avançados de IA do Speechify irão gerar uma réplica digital realista que soa praticamente igual a você. Quer ainda mais flexibilidade? O recurso de modificador de voz permite transformar gravações existentes em qualquer uma das mais de 1.000 vozes de IA do Speechify Studio, dando controle criativo sobre tom, estilo e interpretação. Seja refinando a sua própria voz ou adaptando áudios para diferentes contextos, o Speechify Studio coloca a personalização profissional de voz ao seu alcance.
FAQ
Qual é o objetivo da clonagem de voz?
A clonagem de voz busca produzir fala de alta qualidade e naturalidade que possa ser utilizada em diversas aplicações para aprimorar a comunicação e a interação entre humanos e máquinas.
Qual a diferença entre conversão e clonagem de voz?
A conversão de voz consiste em modificar a fala de uma pessoa para soar como a de outra, enquanto a clonagem de voz cria uma nova voz semelhante à de um falante humano específico.
Qual software pode clonar a voz de alguém?
Há várias opções disponíveis, incluindo Speechify, Resemble.ai, Play.ht e muitos outros.
Como detectar uma voz falsa?
Uma das técnicas mais comuns para identificar um deepfake de áudio é a análise espectral, que envolve examinar o sinal de áudio para detectar padrões vocais característicos.

