O que é o Microsoft VALL-E?
Destaques em
O Microsoft VALL-E representa o mais recente avanço tecnológico que pode proporcionar uma TTS com som completamente natural. Aqui está uma análise detalhada da tecnologia.
A tecnologia de conversão de texto em fala tem avançado a passos largos, especialmente nos últimos anos. Impulsionada por melhorias em inteligência artificial, a TTS de hoje pode oferecer leituras de alta qualidade que imitam a fala humana.
O VALL-E da Microsoft é a mais recente solução tecnológica que pode fazer a conversão de texto em fala soar incrivelmente real. É um modelo de linguagem neural baseado em aprendizado de máquina de zero-shot.
Se essa última frase soa como um jargão de ficção científica, não se preocupe. Vamos explicar os conceitos complexos por trás do VALL-E no artigo abaixo.
Microsoft VALL-E explicado
Os modelos de IA estão crescendo em poder rapidamente. Até agora, todos conhecem o ChatGPT da OpenAI, que pode ser o mais próximo que chegamos de uma IA parecer uma pessoa real. E você provavelmente já viu alguma arte gerada por IA do motor DALL-E.
Além de startups como a OpenAI, empresas globais como a Microsoft têm sido grandes protagonistas no espaço da IA.
Os pesquisadores da Microsoft têm trabalhado recentemente em avanços na síntese de texto para fala. O VALL-E representa exatamente isso.
A nova IA provavelmente será um divisor de águas no cenário de TTS porque pode gerar fala com som humano com base em uma pequena amostra de áudio. Um prompt acústico de três segundos é suficiente para o VALL-E captar os padrões específicos do falante.
Após receber o prompt do falante, a IA pode imitar a voz humana e até mesmo simular seu tom emocional. Igualmente impressionante, o VALL-E preserva o ambiente acústico do falante não visto.
Simplificando, o modelo VALL-E se destaca na semelhança com o falante. Você pode ouvi-lo em ação no GitHub, onde a Microsoft compartilhou exemplos de áudio junto com uma explicação detalhada da IA.
Claro, essa tecnologia tem muitos usos potenciais, como criação de podcasts e audiolivros. O potencial pode crescer ainda mais à medida que o VALL-E se combina com modelos generativos como o GPT-3.
Mas tecnologias como o VALL-E também podem ser usadas para fins mais nefastos.
Como o VALL-E pode soar assustadoramente como uma pessoa real, é fácil ver como atores mal-intencionados poderiam utilizar a tecnologia para golpes como deepfakes prejudiciais e não consensuais. Tais possibilidades levaram a Microsoft a emitir uma declaração de ética.
Na declaração, a empresa defende modelos específicos de edição de fala que garantiriam o consentimento do falante original.
Mas as controvérsias em torno dos usos potenciais do VALL-E são uma consideração para o futuro. Por enquanto, há uma questão mais empolgante na mesa:
Como a IA replica padrões complexos com apenas três segundos de áudio como amostra base?
Não surpreendentemente, a resposta é bastante complexa.
O VALL-E teve dados de treinamento extensivos, consistindo em milhares de horas de fala em inglês. Isso preparou a IA para uma simulação de fala em inglês sem falhas. No entanto, o VALL-E não é um sistema TTS comum – é alimentado por tecnologia de aprendizado de máquina de ponta.
Já mencionamos o nome da tecnologia: modelo de linguagem neural de codec de zero-shot. Vamos ver o que esses termos significam na prática.
Entendendo modelos de linguagem neural de codec de zero-shot
Começando pelo termo mais simples, “zero-shot” refere-se a uma tecnologia específica para motores de texto para fala. Ela permite a geração de fala pela IA com base em dados previamente desconhecidos. Em outras palavras, o computador pode ler em voz alta um texto que nunca “viu” antes.
Mais impressionante ainda, a tecnologia zero-shot permite que a máquina produza leituras sem treinamento adicional. Essencialmente, é semelhante a como os humanos podem ler um texto desconhecido em um idioma que já conhecem.
Passando para a parte complicada, o “modelo de linguagem neural de codec” requer uma explicação mais detalhada.
Os motores de TTS dependem de codecs de áudio para criar formas de onda com base no texto escrito. O codec ajuda a IA a traduzir letras, palavras e frases escritas em sons correspondentes. Um codec neural serve ao mesmo propósito, mas é baseado em uma robusta rede neural.
Claro, isso levanta uma questão adicional: O que é uma rede neural?
Vamos explicar aqui de forma mais ampla, sem entrar em detalhes ainda mais profundos. Uma rede neural tenta imitar como o cérebro humano funciona. A rede consiste em neurônios artificiais chamados nós, que estão conectados e organizados em camadas.
A estrutura complexa possibilita o chamado aprendizado profundo, tornando a máquina mais capaz de desenvolver e adaptar padrões desconhecidos.
O codec neural alimenta o modelo de linguagem, a outra parte desta equação de texto para fala.
O modelo de linguagem utiliza um conjunto de dados para entender qualquer entrada de texto no contexto de uma língua real. Em outras palavras, é assim que a máquina "compreende" o texto.
No caso do VALL-E, a LibriLight, uma biblioteca de áudio compilada pela Meta do Facebook, serviu como base para o modelo de linguagem da IA.
Ouça a tecnologia TTS de ponta em ação com o Speechify
Embora o VALL-E ainda não esteja disponível ao público, você pode ouvir como um avançado motor de texto para fala soa com o Speechify. O Speechify é um serviço TTS que pode ler em voz alta texto de praticamente qualquer fonte.
Seja texto escrito, conteúdo da web ou uma página escaneada, o Speechify lê instantaneamente. Melhor ainda, o motor possui vozes de narração que soam naturais. Ao contrário dos motores TTS típicos e robóticos, o Speechify soa mais como um humano do que uma máquina.
Além disso, você pode ajustar como o Speechify lê. Escolha seu idioma preferido, narrador e velocidade de leitura, e ouça qualquer texto exatamente como você deseja.
Se tudo isso parece empolgante, você pode experimentar o Speechify gratuitamente hoje.
Perguntas Frequentes
As pessoas podem usar o Vall-E?
Existem muitas preocupações sobre como o VALL-E poderia ser abusado. Roubo de identidade é uma possibilidade particularmente preocupante. Por essa razão, a Microsoft optou por não disponibilizar o VALL-E ao público.
O que é a Microsoft AI?
A Microsoft AI não é um produto específico. Em vez disso, o programa da empresa serve como uma estrutura de desenvolvimento de IA. A Microsoft AI inclui soluções de ciência de dados, IA conversacional, robótica, aprendizado de máquina e outros avanços na indústria.
O que é uma interface controlada por voz?
Uma interface controlada por voz é exatamente o que parece - uma interface de usuário com a qual você interage por meio de comandos de voz. Essa tecnologia já é comum em dispositivos inteligentes – pense na Alexa da Amazon, Siri da Apple, Cortana da Microsoft ou Assistente do Google.
O que é um robô?
O termo "robô" denota qualquer máquina que opera automaticamente. Tais máquinas são projetadas como substitutos do trabalho humano. Apesar da representação típica na mídia popular, a maioria dos robôs não tem aparência humanoide. Na verdade, eles podem nem ter uma forma física. Por exemplo, os assistentes virtuais populares de hoje também são considerados robôs.
Cliff Weitzman
Cliff Weitzman é um defensor da dislexia e o CEO e fundador da Speechify, o aplicativo de leitura em voz alta número 1 do mundo, com mais de 100.000 avaliações de 5 estrelas e ocupando o primeiro lugar na App Store na categoria Notícias e Revistas. Em 2017, Weitzman foi incluído na lista Forbes 30 Under 30 por seu trabalho em tornar a internet mais acessível para pessoas com dificuldades de aprendizagem. Cliff Weitzman já foi destaque em EdSurge, Inc., PC Mag, Entrepreneur, Mashable, entre outros meios de comunicação de destaque.