Uma breve história da conversão de texto em fala

A síntese de fala, ou a produção artificial da voz humana, percorreu um longo caminho nos últimos 70 anos. Se você atualmente usa serviços de texto para fala para ouvir livros, estudar ou revisar seu próprio trabalho escrito, não há dúvida de que esses serviços tornaram a vida mais fácil para pessoas em diversas profissões.

Aqui, vamos dar uma olhada em como o processamento de texto para fala funciona e como essa tecnologia assistiva mudou ao longo do tempo.

Introdução

Nos anos 1700, o professor russo Christian Kratzenstein criou ressonadores acústicos que imitavam o som da voz humana. Duas décadas depois, o VODER (Voice Operating Demonstrator) ganhou destaque na Feira Mundial de Nova York quando o criador Homer Dudley mostrou ao público como a fala humana poderia ser criada por meios artificiais. O dispositivo era difícil de operar – Dudley tinha que controlar a frequência fundamental usando pedais.

No início dos anos 1800, Charles Wheatstone desenvolveu o primeiro sintetizador de fala mecânico. Isso deu início a uma rápida evolução das ferramentas e tecnologias de síntese articulatória.

Pode ser difícil definir exatamente o que faz um bom programa de texto para fala, mas como muitas coisas na vida, você sabe quando ouve. Um programa de alta qualidade oferece vozes com som natural com inflexão e tom realistas.

A tecnologia de texto para fala pode ajudar pessoas com deficiência visual e outras deficiências a obter as informações de que precisam para prosperar no trabalho e se comunicar com os outros. O software também permite que estudantes e outras pessoas com grandes cargas de leitura ouçam suas informações por meio da fala humana enquanto estão em movimento. A fala sintética permite que as pessoas façam mais em menos tempo e pode ser útil em uma variedade de contextos, desde a criação de videogames até ajudar pessoas com diferenças de processamento de linguagem.

Anos 1950 e 60

No final dos anos 1950, os primeiros sistemas de síntese de fala foram criados. Esses sistemas eram baseados em computadores. Em 1961, John Larry Kelly Jr., um físico dos Bell Labs, usou um computador IBM para sintetizar fala. Seu vocoder (sintetizador de gravador de voz) recriou a música Daisy Bell.

Na época em que Kelly estava aperfeiçoando seu vocoder, Arthur C. Clarke, autor de 2001: Uma Odisseia no Espaço, usou a demonstração de Kelly no roteiro de seu livro. Durante a cena, o computador HAL 9000 canta Daisy Bell.

Em 1966, a codificação preditiva linear surgiu. Esta forma de codificação de fala começou a ser desenvolvida por Fumitada Itakura e Shuzo Saito. Bishnu S. Atal e Manfred R. Schroeder também contribuíram para o desenvolvimento da codificação preditiva linear.

Anos 1970

Em 1975, o método de pares espectrais lineares foi desenvolvido por Itakura. Este método de codificação de fala de alta compressão ajudou Itakura a aprender mais sobre análise e síntese de fala, identificando pontos fracos e descobrindo como melhorá-los.

Durante este ano, o MUSA também foi lançado. Este sistema de síntese de fala autônomo usava um algoritmo para ler italiano em voz alta. Uma versão lançada três anos depois foi capaz de cantar em italiano.

Nos anos 70, o primeiro sintetizador articulatório foi desenvolvido com base no trato vocal humano. O primeiro sintetizador conhecido foi desenvolvido por Tom Baer, Paul Mermelstein e Philip Rubin nos Laboratórios Haskins. O trio usou informações dos modelos de trato vocal criados nos Laboratórios Bell nos anos 60 e 70.

Em 1976, as Máquinas de Leitura Kurzweil para Cegos foram introduzidas. Embora esses dispositivos fossem caros demais para o público em geral, as bibliotecas frequentemente os disponibilizavam para pessoas com deficiência visual ouvirem livros.

A codificação preditiva linear tornou-se o ponto de partida para chips sintetizadores. Os Chips de Fala LPC da Texas Instruments e os brinquedos Speak & Spell do final dos anos 1970 usavam tecnologia de chip sintetizador. Esses brinquedos eram exemplos de síntese de voz humana com entonações precisas, diferenciando a voz das vozes sintetizadas comumente robóticas da época. Muitos eletrônicos portáteis com a capacidade de sintetizar fala tornaram-se populares durante essa década, incluindo a calculadora Speech+ da Telesensory Systems para cegos. O Fidelity Voice Chess Challenger, um computador de xadrez capaz de sintetizar fala, foi lançado em 1979.

Anos 1980

Nos anos 1980, a síntese de voz começou a agitar o mundo dos videogames. O lançamento de 1980 de Stratovox (um jogo de arcade estilo tiro) foi feito pela Sun Electronics. Manbiki Shoujo (traduzido para o inglês como Shoplifting Girl) foi o primeiro jogo de computador pessoal com a capacidade de sintetizar fala. O jogo eletrônico Milton também foi lançado em 1980 – foi o primeiro jogo eletrônico da The Milton Bradley Company com a capacidade de sintetizar a voz humana.

Em 1983, a máquina de fala acústico-mecânica autônoma chamada DECtalk. O DECtalk entendia grafias fonéticas de palavras, permitindo a pronúncia personalizada de palavras incomuns. Essas grafias fonéticas também podiam incluir um indicador de tom que o DECtalk usaria ao enunciar os componentes fonéticos. Isso permitia que o DECtalk cantasse.

No final dos anos 80, Steve Jobs criou o NeXT, um sistema desenvolvido pela Trillium Sound Research. Embora o NeXT não tenha decolado, Jobs eventualmente fundiu o programa com a Apple nos anos 90.

Anos 1990

Versões anteriores de sistemas de texto para fala sintetizados soavam distintamente robóticas, mas isso começou a mudar no final dos anos 80 e início dos anos 90. Consoantes mais suaves permitiram que as máquinas falantes perdessem o tom eletrônico e soassem mais humanas. Em 1990, Ann Syrdal, nos Laboratórios Bell da AT&T, desenvolveu uma voz feminina para sintetizador de fala. Engenheiros trabalharam para tornar as vozes mais naturais durante os anos 90.

Em 1999, a Microsoft lançou o Narrator, uma solução de leitor de tela que agora está incluída em todas as cópias do Microsoft Windows.

Anos 2000

A síntese de fala encontrou alguns obstáculos durante os anos 2000, enquanto os desenvolvedores lutavam para criar padrões acordados para a fala sintetizada. Como a fala é altamente individual, é difícil para as pessoas ao redor do mundo se unirem e concordarem sobre a pronúncia correta de fonemas, difones, entonação, tom, reprodução de padrões e inflexão.

A qualidade do áudio de síntese de fala por formantes também se tornou uma preocupação nos anos 90, à medida que engenheiros e pesquisadores perceberam que a qualidade dos sistemas usados em laboratório para reproduzir fala sintetizada era muitas vezes muito mais avançada do que o equipamento que o usuário possuía. Ao pensar em síntese de fala, muitas pessoas lembram-se do sintetizador de voz de Stephen Hawking, que fornecia uma voz com som robótico e pouco tom humano.

Em 2005, os pesquisadores finalmente chegaram a um acordo e começaram a usar um conjunto de dados comum de fala, permitindo que trabalhassem a partir dos mesmos ideais básicos ao criar sistemas de síntese de fala de alto nível.

Em 2007, um estudo mostrou que os ouvintes podem perceber se uma pessoa que está falando está sorrindo. Os pesquisadores continuam a trabalhar para descobrir como usar essa informação para criar software de reconhecimento e síntese de fala que seja mais natural.

Anos 2010

Hoje, produtos de síntese de fala que usam sinais de fala estão em toda parte, de Siri a Alexa. Sintetizadores de fala eletrônicos não apenas tornam a vida mais fácil – eles também tornam a vida mais divertida. Seja usando um sistema TTS para ouvir romances em movimento ou usando aplicativos que facilitam o aprendizado de um idioma estrangeiro, é provável que você esteja usando tecnologia de texto para fala para ativar suas redes neurais diariamente.

O futuro

Nos próximos anos, é provável que a tecnologia de síntese de voz se concentre em criar um modelo do cérebro para entender melhor como registramos dados de fala em nossas mentes. A tecnologia de fala também trabalhará para entender melhor o papel que a emoção desempenha na fala e usará essa informação para criar vozes de IA que sejam indistinguíveis de humanos reais.

O Mais Recente em Tecnologia de Síntese de Voz: Speechify

Ao aprender sobre as transições da tecnologia de síntese de fala anterior, é incrível imaginar o quanto a ciência avançou. Hoje, aplicativos como Speechify tornam fácil traduzir qualquer texto em arquivos de áudio. Com apenas um toque de botão (ou toque em um aplicativo), o Speechify é capaz de pegar sites, documentos e imagens de texto e traduzi-los em fala com som natural. A biblioteca do Speechify sincroniza em todos os seus dispositivos, tornando simples para você continuar aprendendo e trabalhando em movimento. Confira o aplicativo Speechify tanto na App Store da Apple quanto na Play Store do Google.

Perguntas Frequentes

Quem inventou o texto para fala?

O texto para fala em inglês foi inventado por Noriko Umeda. O sistema foi desenvolvido no Laboratório Eletrotécnico no Japão em 1968.

Qual é o propósito do texto para fala?

Muitas pessoas utilizam a tecnologia de conversão de texto em fala. Para aqueles que preferem obter informações em formato de áudio, a tecnologia TTS pode facilitar o acesso às informações necessárias para trabalhar ou aprender, sem precisar passar horas em frente a um livro. Profissionais ocupados também usam a tecnologia TTS para se manterem atualizados com seu trabalho quando não podem ficar em frente a uma tela de computador. Muitos tipos de tecnologia TTS foram originalmente desenvolvidos para pessoas com deficiência visual, e o TTS ainda é uma maneira fantástica para pessoas com dificuldades de visão obterem as informações de que precisam.

Como sintetizar uma fala?

Trechos de fala gravada são armazenados em um banco de dados em várias unidades. O software prepara arquivos de áudio através da seleção de unidades. A partir daí, uma voz é criada. Muitas vezes, quanto maior o alcance de saída de um programa, mais ele enfrenta dificuldades para fornecer clareza vocal aos usuários.

Speechify é a principal plataforma de leitura de texto em voz alta do mundo, confiada por mais de 50 milhões de usuários e com mais de 500.000 avaliações de cinco estrelas em seus aplicativos de leitura de texto em voz alta para iOS, Android, extensão para Chrome, aplicativo web e desktop para Mac. Em 2025, a Apple premiou o Speechify com o prestigiado Apple Design Award durante a WWDC, chamando-o de “um recurso essencial que ajuda as pessoas a viverem suas vidas.” O Speechify oferece mais de 1.000 vozes naturais em mais de 60 idiomas e é usado em quase 200 países. Entre as vozes de celebridades estão Snoop Dogg, Mr. Beast e Gwyneth Paltrow. Para criadores e empresas, o Speechify Studio oferece ferramentas avançadas, incluindo Gerador de Voz IA, Clonagem de Voz IA, Dublagem IA e Modificador de Voz IA. O Speechify também alimenta produtos líderes com sua API de leitura de texto em voz alta de alta qualidade e custo acessível. Destaque em The Wall Street Journal, CNBC, Forbes, TechCrunch e outros grandes veículos de notícias, o Speechify é o maior provedor de leitura de texto em voz alta do mundo. Visite speechify.com/news, speechify.com/blog e speechify.com/press para saber mais.