Tudo sobre vozes deepfake
O crescimento da mídia deepfake é um dos tópicos mais quentes na esfera de cibersegurança e na imprensa. Ela tem diversos usos, desde a criação de conteúdo adulto até fake news e fraudes financeiras. Utilizar a aparência e a voz de outra pessoa sem o seu consentimento em vídeos e áudios críveis pode parecer um avanço tecnológico em inteligência artificial. No entanto, não é isento de controvérsias.
O que é uma voz deepfake?
Uma voz deepfake é uma voz que imita de maneira muito próxima a voz de uma pessoa real. Embora seja sintética, a voz soa humana e pode replicar com precisão a tonalidade, o sotaque, o ritmo e outras características únicas.
Pessoas que criam vozes deepfake ou clonagem de voz utilizam tecnologia de IA e grande capacidade computacional. Às vezes pode levar semanas para clonar a voz de outra pessoa. Além de ferramentas e softwares especializados, os deepfakes precisam de dados de treinamento, o que frequentemente significa dispor de gravações suficientes da voz da pessoa alvo.
De certa forma, esse processo é semelhante ao uso de texto para fala para gerar vozes sintéticas. Mas softwares TTS geralmente criam vozes naturais sem tentar replicar a voz de uma pessoa específica.
Naturalmente, não há problema em pessoas clonarem suas próprias vozes para audiolivros, locuções e outros tipos de conteúdo. No entanto, criar vozes deepfake de outras pessoas sem o consentimento delas é motivo de grande preocupação.
Os riscos das vozes deepfake
Por muito tempo, autenticação por voz parecia coisa de filmes de ficção científica. Infelizmente, essa tecnologia já existe e está longe de ser infalível. À medida que softwares de voz deepfake e redes neurais evoluem, golpistas conseguem causar ainda mais estragos.
Em 2020, um gerente de banco recebeu uma ligação de quem ele acreditava ser um diretor da empresa. O gerente reconheceu a voz e não hesitou em autorizar uma transferência de 35 milhões de dólares. Ele não fazia ideia de que a voz do diretor era clonada.
A Forbes relatou um incidente semelhante um ano antes. Isso aconteceu em uma empresa de energia do Reino Unido, que foi enganada por uma voz deepfake de uma pessoa de confiança.
Mais assustador ainda, obter gravações claras da voz das pessoas é algo muito fácil. Pode-se conseguir isso por gravadores, entrevistas online, coletivas de imprensa, etc. A tecnologia de captura de voz também está cada vez mais avançada. Assim, os dados fornecidos aos modelos de IA são mais precisos, resultando em vozes deepfake ainda mais críveis.
As ferramentas de cibersegurança ainda não desenvolveram formas infalíveis de detectar deepfakes de áudio.
Os melhores softwares de voz deepfake
Speechify
Diferente de outras ferramentas desta lista, Speechify Voice Over não é um app de clonagem de voz. No entanto, o texto para fala utiliza algoritmos de IA de alta qualidade para criar mídia sintética e vozes naturais. O Speechify Voice Over Studio possui uma vasta biblioteca de vozes realistas e pode criar novas vozes com base em vários parâmetros.
A conversão de texto em voz ajuda as pessoas a acompanhar textos escritos ou criar podcasts. Também é possível fazer gravações de áudio com base no texto digitado ou escaneado. Você pode usá-las para marketing, mensagens automáticas, atendimento ao cliente e muito mais.
Resemble
O Resemble AI é um dos softwares de áudio mais poderosos para criar gravações deepfake. O software de clonagem não precisa de grandes quantidades de dados para começar a clonar.
Você pode usar o Resemble para clonar sua própria voz. Nesse caso, é uma opção eficiente para criar clipes comerciais pré-gravados ou roteiros de podcast, anúncios, etc. O software de síntese de voz também suporta diversos idiomas e oferece ferramentas de modulação para personalizar vozes e adicionar entonação ou emoção.
Descript
Descript é uma ferramenta de clonagem de voz com recursos avançados de edição. Ela pode trabalhar a partir de transcrições e clipes de áudio para gerar vozes realistas, que podem ser usadas para vídeos deepfake bastante convincentes.
Apesar de o Descript ter uma curva de aprendizado alta, as opções avançadas de personalização, o gravador de tela e a edição multitrilha permitem criar discursos ultrarrealistas na voz de qualquer pessoa.
ReSpeecher
Utilizar algoritmos de aprendizado de máquina para criar vozes de IA que se assemelham a pessoas reais pode ser empolgante e um ótimo negócio. O ReSpeecher é o software utilizado pela Lucasfilm para criar a voz de Luke Skywalker em The Mandalorian.
Isso mostra que alguns softwares de voz deepfake vão além de pequenos clipes para redes sociais. O ReSpeecher é altamente requisitado devido à sua capacidade de síntese de fala de alta qualidade e ao histórico comprovado em imitar vozes humanas.
Real-Time Voice Cloning
Nem todo mundo tem centenas de dólares para gastar mensalmente no ReSpeecher ou aguardar na fila de usuários. Algumas pessoas querem uma opção mais acessível e, quem sabe, gratuita. O Real-Time Voice Cloning é um software open-source que qualquer um pode acessar no GitHub.
Não é o software de síntese de fala mais fácil de usar para gerar gravações na voz de outra pessoa, mas funciona com clipes menores de áudio. Em alguns casos, as amostras de áudio podem ser suficientes para enganar a Alexa ou fazer algumas pegadinhas ao telefone.
iSpeech
iSpeech é outro gerador de voz gratuito focado em clonagem de voz. Possui reconhecimento avançado de fala e também um leitor de texto para fala. O app oferece funcionalidades ampliadas e uma coleção de vozes de celebridades.
Você pode usar o iSpeech para criar deepfakes de voz personalizados, modelos exclusivos e gravar sua voz. É uma ferramenta versátil, embora não tão convincente quanto as demais desta lista. Mesmo assim, serve como uma excelente introdução ao mundo dos deepfakes.
Speechify – Crie vozes humanas com som natural
Speechify tira o máximo proveito de algoritmos de deep learning para gerar vozes humanas com som natural, que podem passar por reais sem clonar a voz de uma pessoa específica. Apesar de os deepfakes trazerem muitas preocupações para a cibersegurança, o software de texto para fala geralmente é muito mais útil do que problemático.
Experimente Speechify Voice Over Studio para criar podcasts e narrações, ler conteúdos complexos com mais facilidade, aprender um novo idioma e muito mais.
Perguntas Frequentes
FakeYou é gratuito?
FakeYou é um gerador de voz por IA limitado, mas gratuito. Ele conta com uma extensa biblioteca de vozes que imitam celebridades, e qualquer pessoa pode usá-lo, desde que não se importe com o tempo de conversão muitas vezes lento. Afinal, é fácil de usar no navegador.
Como detectar vozes deepfake?
Detectar vozes deepfake exige softwares e hardwares altamente avançados para analisar padrões de fala, ruídos de fundo e outros elementos.
Qual é a diferença entre uma voz deepfake e um sintetizador de voz?
Vozes deepfake geralmente se referem a vozes clonadas, enquanto sintetizadores de voz geram vozes naturais para fins comerciais.

