A tecnologia de texto para fala tem avançado a passos largos, especialmente nos últimos anos. Impulsionado por melhorias em inteligência artificial, o TTS de hoje pode gerar leituras de alta qualidade que imitam a fala humana.
O VALL-E da Microsoft é a solução tecnológica mais recente capaz de fazer com que o texto para fala soe incrivelmente real. Trata-se de um modelo neural de codificação baseado em aprendizado de máquina zero-shot.
Se essa última frase soa como um jargão de ficção científica, não se preocupe. Vamos destrinchar os conceitos complexos por trás do VALL-E no artigo abaixo.
O Microsoft VALL-E, explicado
Os modelos de IA estão evoluindo rapidamente. Hoje em dia, praticamente todo mundo já ouviu falar do ChatGPT da OpenAI, que talvez seja o mais perto que chegamos de uma IA parecer uma pessoa real. E provavelmente você já se deparou com alguma arte gerada pela inteligência artificial do DALL-E.
Além de startups como a OpenAI, empresas globais como a Microsoft são grandes protagonistas no universo da IA.
Pesquisadores da Microsoft têm trabalhado recentemente em avanços para a síntese de texto para fala. O VALL-E é fruto desse esforço.
A nova IA tem potencial para revolucionar o segmento de TTS, pois é capaz de gerar fala com qualidade humana a partir de uma pequena amostra de áudio. Um prompt acústico de apenas três segundos já basta para que o VALL-E capte os padrões específicos do falante.
Depois de receber o prompt do falante, a IA pode imitar a voz humana e até mesmo reproduzir o tom emocional dessa pessoa. Também impressiona o fato de o VALL-E preservar o ambiente acústico do locutor original.
Em resumo, o modelo VALL-E se destaca pela semelhança com o locutor. Você pode ouvi-lo em ação no GitHub, onde a Microsoft compartilhou exemplos de áudio junto com uma explicação detalhada sobre a IA.
É claro que essa tecnologia tem inúmeras aplicações, como criação de podcasts e audiolivros. E o potencial tende a crescer ainda mais com a combinação do VALL-E e modelos generativos como o GPT-3.
No entanto, tecnologias como o VALL-E também podem ser usadas para fins maliciosos.
Como o VALL-E pode soar assustadoramente parecido com pessoas reais, é fácil imaginar como agentes mal-intencionados poderiam usar essa tecnologia para golpes, como deepfakes prejudiciais e não consensuais. Tais possibilidades fizeram com que a Microsoft publicasse um comunicado de ética.
No comunicado, a empresa defende modelos específicos de edição de fala que garantam o consentimento do falante original.
Polêmicas sobre os possíveis usos do VALL-E ficam para o futuro. Por enquanto, há uma questão mais interessante na mesa:
Como a IA consegue replicar padrões complexos com apenas três segundos de áudio?
Como era de se imaginar, a resposta é bastante complexa.
O VALL-E foi treinado com um vasto conjunto de dados, totalizando milhares de horas de fala em inglês. Isso preparou a IA para simular a fala em inglês com perfeição. No entanto, o VALL-E não é um sistema TTS comum – ele é alimentado por tecnologia de aprendizado de máquina de ponta.
Já mencionamos o nome da tecnologia: modelo de linguagem neural de codificação zero-shot. Vamos entender o que esses termos significam na prática.
Entendendo o modelo neural de codificação zero-shot
Começando pelo termo mais simples, "zero-shot" se refere a uma tecnologia específica para mecanismos de texto para fala. Ela permite que a IA gere fala até com dados nunca vistos antes. Em outras palavras, o computador pode ler em voz alta um texto que nunca "viu" antes.
Mais impressionante ainda, a tecnologia zero-shot permite que a máquina produza leituras sem treinamento adicional. Essencialmente, é parecido com a forma como os humanos podem ler um texto desconhecido em um idioma que já dominam.
Partindo para a parte mais complexa, o "modelo de linguagem neural de codificação" exige uma explicação mais detalhada.
Os motores de TTS dependem de codecs de áudio para criar formas de onda a partir do texto escrito. O codec ajuda a IA a traduzir letras, palavras e frases em sons correspondentes. Um codec neural tem essa mesma função, mas é baseado em uma rede neural robusta.
Claro, isso gera outra pergunta: o que é uma rede neural?
Vamos explicar de forma geral, sem entrar em muitos detalhes. Uma rede neural tenta imitar o funcionamento do cérebro humano. Essa rede é composta por neurônios artificiais chamados de nós, que são conectados e organizados em camadas.
Essa estrutura complexa possibilita o chamado aprendizado profundo, tornando a máquina mais apta a desenvolver e adaptar padrões desconhecidos.
O codec neural alimenta o modelo de linguagem, outra parte dessa equação de texto para fala.
O modelo de linguagem usa um conjunto de dados para entender qualquer texto inserido dentro do contexto de um idioma real. Em outras palavras, é assim que a máquina "dá sentido" ao texto.
No caso do VALL-E, a base do modelo de linguagem foi o LibriLight, uma biblioteca de áudio compilada pela Meta, do Facebook.
Ouça a tecnologia TTS de ponta em ação com o Speechify
Embora o VALL-E ainda não esteja disponível ao público, você pode ouvir como soa um avançado motor de texto para fala utilizando o Speechify. O Speechify é um serviço de TTS capaz de ler textos em voz alta praticamente de qualquer fonte.
Seja texto escrito, conteúdo da web ou uma página escaneada, o Speechify faz a leitura na hora. Melhor ainda, o motor possui narradores com vozes que soam naturais. Diferente dos TTS robóticos tradicionais, o Speechify soa mais humano do que máquina.
Além disso, é possível ajustar a forma como o Speechify faz a leitura. Escolha o idioma, o narrador, a velocidade da leitura e ouça qualquer texto exatamente do jeito que preferir.
Se tudo isso parece interessante, você pode experimentar o Speechify gratuitamente ainda hoje.
Perguntas frequentes
As pessoas podem usar o VALL-E?
Existem muitas preocupações sobre o potencial de uso indevido do VALL-E. A possibilidade de roubo de identidade é especialmente preocupante. Por isso, a Microsoft optou por não disponibilizar o VALL-E ao público.
O que é a IA da Microsoft?
A IA da Microsoft não é um produto específico. Na verdade, o programa da empresa funciona como uma estrutura para o desenvolvimento de IA. Inclui soluções de ciência de dados, IA conversacional, robótica, aprendizado de máquina e outros avanços do setor.
O que é uma interface por voz?
Uma interface por voz é exatamente o que o nome diz – uma interface de usuário que você utiliza por meio de comandos de voz. Essa tecnologia já é comum em dispositivos inteligentes – como a Alexa da Amazon, a Siri da Apple, a Cortana da Microsoft ou o Assistente do Google.
O que é um robô?
O termo “robô” se refere a qualquer máquina que funcione automaticamente. Essas máquinas são projetadas para substituir o trabalho humano. Apesar de os robôs serem normalmente retratados como humanoides na mídia popular, a maioria deles não se parece com pessoas. Na verdade, eles sequer precisam ter forma física. Por exemplo, assistentes virtuais populares atualmente também são considerados robôs.

