Social Proof

Vozes deepfake: como a IA está transformando a tecnologia de voz

Speechify é o gerador de voz AI número 1. Crie gravações de voz com qualidade humana em tempo real. Narre textos, vídeos, explicações – qualquer coisa que você tenha – em qualquer estilo.

Procurando nosso Leitor de Texto para Fala?

Destaques em

forbes logocbs logotime magazine logonew york times logowall street logo
Ouça este artigo com o Speechify!
Speechify

Você já ouviu falar de vozes deepfake, mas o que exatamente são elas? Este guia vai te contar tudo o que você precisa saber sobre essa tecnologia de IA e como ela se compara ao TTS.

Vozes deepfake e texto para fala

Graças aos avanços em inteligência artificial (IA) e aprendizado profundo, as pessoas agora podem criar mídia sintética de alta qualidade e realista. Essa tecnologia abriu portas para muitas novas tecnologias criativas que afetam diversas indústrias. Uma dessas tecnologias é o deepfake, também conhecido como vozes sintéticas e clonagem de voz.

O que são vozes deepfake?

Deepfake significa mídia sintética, também conhecida como clonagem de voz. Com a IA, é possível para os usuários gerar deepfakes de vídeo que trocam a aparência de alguém com a de outra pessoa na tela ou fazem alguém dizer algo que ele sempre negaria ter dito, popularmente conhecido como clonagem de voz. Imagine que você poderia ter uma voz de Arnold Schwarzenegger repetindo o que você quiser.

O processo requer software especial para analisar rostos, processar voz a partir de scripts de texto e modelar o movimento da boca em um espaço tridimensional.

Existem alguns usos avançados para essa tecnologia, mas a Clonagem de Voz é um deles. Quase todo mundo, mesmo que não seja um entusiasta de tecnologia, já se deparou com algum escândalo de deepfake. No entanto, recentemente foi lançado um documentário póstumo sobre Tony Bourdain que surpreendeu o público, pois ele ainda era capaz de narrar em

Startups de TI ajudaram a produtora a recriar a voz de Bourdain para dar um toque de realidade à história. Sem dúvida, isso é uma grande conquista, mas levanta muitas questões morais. Afinal, basta um computador com o software certo para alguém produzir imagens manipuladas ou sons comprometendo qualquer outra pessoa.

Como exatamente os deepfakes são feitos?

Primeiro, você reúne amostras suficientes da voz de alguém. As entradas podem vir de postagens em redes sociais, chamadas telefônicas gravadas, televisão, etc. Em seguida, um software rodando em algoritmos de IA combina as amostras para produzir uma voz falsa. 

Este é um resumo básico do processo complexo, mas no final, as ferramentas de IA usam os dados coletados para criar vozes que soam naturais e que podem ler texto digital. Por essa razão, os deepfakes estão intimamente relacionados à tecnologia de texto para fala (TTS). 

A integração de vozes deepfake em texto para fala

Os usuários podem manipular características como tom, idade e sotaque utilizando a tecnologia de voz deepfake integrada em sistemas de texto para fala. Essas pessoas podem até desenvolver vozes sintetizadas que se assemelham ao tom e estilo desejados, por exemplo, em caso de deficiência vocal. Essa personalização melhorará muito sua capacidade de comunicação e sua qualidade de vida em um sentido geral.

Usando vozes deepfake, eles criam conteúdos de áudio mais atraentes que atraem seguidores e fidelidade para criadores de conteúdo. Eles utilizam vozes deepfake que soam como as de narradores notáveis ou estrelas para atrair e fascinar ouvintes. Isso é especialmente valioso para conteúdos multimídia como audiolivros, podcasts, onde o som tem grande impacto para evocar sentimentos e envolvimento do público.

No entanto, o uso de vozes deepfake para incorporação em sistemas TTS apresenta vários problemas morais. As vozes deepfake são capazes de manipulação e personificação—enganando pessoas que não são capazes de dar consentimento em relação a tais atos. Isso aponta para a necessidade de controles firmes e estatutos que promovam a aplicação correta e moral dessa tecnologia.

Finalmente, a incorporação de vozes deepfake em sistemas de texto para fala apresenta uma oportunidade para síntese de voz individualizada e envolvente. Essa tecnologia pode mudar muito nossa interação com a fala gerada de uma forma que a tornará mais acessível e melhorará a satisfação geral dos usuários, considerando preocupações éticas.

Prós

Os deepfakes contêm vários elementos positivos. O vídeo deepfake “This Is Not Morgan Freeman” de 2021 demonstrou como a tecnologia aumentada pode ter sua utilidade.

As imagens mostraram que ao treinar a IA com gravações de áudio e clipes de filme, eles conseguiram criar uma imitação do ator, incluindo a reprodução de seus movimentos, aparência e fala. Como apontamos, isso tem seus problemas éticos, mas pode ser inestimável para uma pessoa como o ator Val Kilmer.

Mesmo que Kilmer tenha tido câncer de garganta que o fez perder a voz, algumas pessoas acreditavam que era o fim de sua carreira em Hollywood. Em um Prime Voice, no documentário da Amazon Prime sobre Kilmer, foi revelado que o filho do ator forneceria dublagens para Kilmer ao interpretar novos papéis.

No entanto, quando Kilmer se uniu à Sonantic—uma startup de TI especializada em modelagem de voz, ele eventualmente recuperou sua voz. Usando tecnologia deepfake, a empresa recriou a voz de Kilmer, e o público pôde ouvir os resultados impressionantes no filme recentemente lançado Top Gun: Maverick.

Contras

O aprendizado de máquina pode replicar a voz de alguém em locais como Nova York, que estão rapidamente adotando a tecnologia. Isso facilita que indivíduos revelem suas informações pessoais e caiam em armadilhas de chamadas fraudulentas ou enganosas.

Preocupações éticas sobre a tecnologia Deepfake

Existem algumas questões éticas em torno do uso de vozes deepfake e texto para fala. À medida que mais avanços tecnológicos surgem, há possíveis retrocessos. As vozes deepfake do AI de Arnold Schwarzenegger, por exemplo, são tão naturais que enganam as pessoas. Isso pode causar desconfiança em relação a qualquer coisa ouvida e dúvida pessoal.

À medida que a sociedade adota qualquer forma de nova tecnologia, deve pensar duas vezes sobre os perigos que vêm com ela. Deepfakes podem enganar e influenciar seres humanos através de suas vozes. Portanto, é razoável se preocupar, pois isso pode comprometer a confiança pública e infringir direitos de privacidade.

Principalmente, há um problema urgente quando se trata do uso de deepfakes. Ainda mais perigoso é o uso de vozes sintéticas em golpes telefônicos e campanhas de desinformação que estão amplamente disseminadas. Imagine que você recebe uma ligação desconhecida, mas a voz de alguém soa muito familiar. Você pode reconhecer essa voz como de um amigo próximo, membro da família ou namorado/namorada. Mas, quase imediatamente depois, ficaria claro que isso é apenas uma farsa. A manipulação pode causar efeitos extremamente adversos que podem afetar pessoas, comunidades inteiras ou estados.

Reduzindo o impacto do uso indevido de vozes deepfake

Para reduzir essa ameaça, são necessários programas regulatórios fortes e de educação do usuário. As vozes deepfake precisam ser usadas com discernimento e devem haver diretrizes estabelecidas por governos e empresas de tecnologia trabalhando em conjunto. Medidas eficazes foram desenvolvidas para identificar e combater a aplicação ilícita da tecnologia de vozes sintéticas; isso também envolve educar os usuários sobre esse fato, já que a tecnologia de voz sintética pode ser usada para fins maliciosos.

Além disso, é necessário considerar cuidadosamente ser inovador, mas sem ultrapassar limites no uso da tecnologia de voz deepfake e texto para fala. Os desenvolvimentos na tecnologia são certamente promissores, mas é preciso haver transparência e responsabilidade adequada ao usá-los. É importante informar os usuários sobre a síntese de voz, pois isso permite que eles saibam melhor o que é real e o que é falso.

Questões legais e de privacidade em relação às vozes deepfake

Considerações legais e de privacidade também entram em jogo quando se trata de vozes deepfake. Surgem questões sobre a propriedade de vozes sintetizadas e o potencial para uso não autorizado. Diretrizes claras precisam ser estabelecidas para navegar por essas questões complexas, garantindo que os direitos dos indivíduos sejam protegidos e que a tecnologia seja usada de forma responsável.

À medida que navegamos pelas considerações éticas em torno das vozes deepfake, é essencial engajar-se em discussões abertas e inclusivas. Éticos, formuladores de políticas, tecnólogos e o público em geral devem se unir para abordar essas preocupações e moldar o futuro dessa tecnologia de uma forma que beneficie a sociedade como um todo.

Imagine receber uma ligação que parece ser de um amigo ou membro da família, mas na verdade é uma voz falsa tentando enganá-lo. Isso pode prejudicar pessoas, comunidades e até países inteiros. Existem muitos casos de uso para vozes deepfake, desde aplicações divertidas como fazer a Alexa falar com a voz de uma celebridade até usos mais sérios que podem ser enganosos.

A necessidade de regulamentação para tornar o uso de vozes deepfake ético

Para manter as pessoas seguras, precisamos de regras fortes e maneiras de ensinar os usuários sobre essas vozes falsas. Governos e empresas de tecnologia devem trabalhar juntos. Eles precisam criar regras sobre como usar vozes deepfake da maneira correta. Eles também precisam encontrar maneiras de identificar e parar vozes falsas prejudiciais.

Ao usar vozes deepfake, é importante ser cuidadoso e pensar sobre o que é certo e errado. Mesmo que essas novas ferramentas de voz sejam legais, precisamos usá-las de uma maneira que seja honesta. As pessoas devem saber quando uma voz que ouvem é feita por um computador. Dessa forma, elas podem decidir se confiam no que estão ouvindo.

Falar sobre os problemas com vozes deepfake é importante. Todos, desde especialistas até pessoas comuns, devem compartilhar suas opiniões. Isso nos ajudará a usar essa tecnologia de uma maneira que seja boa para todos.

Felizmente, à medida que o software de criação de vozes melhora, também ficaremos melhores em identificar vozes falsas. Empresas de tecnologia estão desenvolvendo ferramentas para detectar e impedir essas vozes falsas. Isso ajudará lugares como bancos e call centers em Nova York a garantir que estão falando com pessoas reais e não com vozes de computador tentando enganá-los.

Software de voz deepfake para experimentar

Ferramentas de aprendizado de máquina podem impactar positivamente a vida de muitas pessoas, e você pode estar interessado em tentar criar um deepfake de áudio. Embora você precise de hardware e software de ponta para obter resultados de alta qualidade, pode usar vários programas para produzir vozes com som natural. Aqui estão cinco geradores de voz deepfake que você pode experimentar:

Resemble

Resemble AI é uma ferramenta de texto para fala e criação de deepfake que produz vozes humanas usando dados limitados. Com aproximadamente cinco minutos de gravações de áudio, os usuários podem criar seu primeiro deepfake.

Você pode testar o recurso de amostra e alimentar o aplicativo com clipes seus, e em poucos minutos, ouvirá uma voz familiar. Os usuários apreciam a interface fácil de usar do Resemble e podem até ajustar a entonação do áudio gerado.

Descript

Este impressionante sintetizador de voz possui poderosas capacidades de edição. O programa analisa gravações de voz, clipes de vídeo e transcrições para gerar vozes impulsionadas por IA. Se você não estiver satisfeito com a qualidade do material de entrada, pode editá-lo diretamente no aplicativo—sem necessidade de refazer gravações.

O principal objetivo do Descript é ajudar criadores de conteúdo a fazer locuções de alta qualidade para seus podcasts e vídeos. O programa possui inúmeras vozes de estoque que você pode experimentar para se familiarizar com as capacidades do Descript.

ReSpeecher

ReSpeecher é uma solução confiável de deepfake que ajudou a recriar a voz de Luke Skywalker em The Mandalorian. Embora o software seja adequado para filmes e programas de TV, também pode ser uma excelente maneira de fazer locuções para anúncios, animações, videogames, podcasts e mais. 

iSpeech

O iSpeech está disponível como um programa de desktop, mas você também pode experimentar a versão baseada na web. Além da síntese de voz, o aplicativo possui recursos de texto para fala, leitor de web e reconhecimento de fala. Para se familiarizar com o software, você pode experimentar uma de suas demos e brincar com as vozes de Barrack Obama, Arnold Schwarzenegger ou Scarlett Johansson.

Clonagem de voz em tempo real

Este projeto de código aberto está disponível gratuitamente no GitHub. Esta caixa de ferramentas abrangente pode sintetizar a voz de uma pessoa com apenas cinco segundos de entrada de áudio. No entanto, os usuários relataram que operar o software requer habilidades técnicas de nível moderado a avançado.

Speechify – a alternativa fácil de usar de texto para fala às vozes deepfake

Aplicativos de texto para fala (TTS) como Speechify e geradores de deepfake dependem de tecnologias semelhantes, mas têm propósitos diferentes. O Speechify é uma ferramenta de TTS ou leitura em voz alta que pode ler praticamente qualquer texto impresso ou digital. Após os usuários importarem um documento do Microsoft Word, artigo ou transcrição para o aplicativo e selecionarem sua voz de narrador preferida, o Speechify lerá o conteúdo em voz alta.

O programa oferece uma seleção incomparável de vozes masculinas e femininas de alta qualidade e suporta mais de 20 idiomas, incluindo inglês, espanhol, francês, italiano e português. Se você deseja aumentar a produtividade e ouvir uma celebridade lendo para você, por que não experimentar a voz da Gwyneth Paltrow no Speechify?

Baixe o programa no seu computador, iPhone ou dispositivo Android e experimente o Speechify gratuitamente hoje.

Perguntas Frequentes

O FakeYou é gratuito?

FakeYou é um programa fácil de usar e gratuito que você pode usar para criar vozes com som natural.

Como saber se uma voz é deepfake?

Pode ser desafiador identificar deepfakes sem software sofisticado. Empresas de cibersegurança usam sistemas biométricos de voz para prevenir fraudes de deepfake. 

Quais são alguns dos perigos das vozes deepfake?

Deepfakes às vezes servem a propósitos maliciosos e podem espalhar desinformação, arruinar a reputação de uma pessoa e causar falta de confiança em instituições governamentais. 

Cliff Weitzman

Cliff Weitzman

Cliff Weitzman é um defensor da dislexia e o CEO e fundador da Speechify, o aplicativo de leitura em voz alta número 1 do mundo, com mais de 100.000 avaliações de 5 estrelas e ocupando o primeiro lugar na App Store na categoria Notícias e Revistas. Em 2017, Weitzman foi incluído na lista Forbes 30 Under 30 por seu trabalho em tornar a internet mais acessível para pessoas com dificuldades de aprendizagem. Cliff Weitzman já foi destaque em EdSurge, Inc., PC Mag, Entrepreneur, Mashable, entre outros meios de comunicação de destaque.