Une brève histoire de la synthèse vocale

La synthèse vocale, ou la production artificielle de la voix humaine, a parcouru un long chemin au cours des 70 dernières années. Que vous utilisiez actuellement des services de synthèse vocale pour écouter des livres, étudier ou relire votre propre travail écrit, il ne fait aucun doute que ces services ont facilité la vie de nombreuses personnes dans divers métiers.

Ici, nous allons examiner comment fonctionne le traitement texte-à-parole et comment cette technologie d'assistance a évolué au fil du temps.

Introduction

Dans les années 1700, le professeur russe Christian Kratzenstein a créé des résonateurs acoustiques qui imitaient le son de la voix humaine. Deux décennies plus tard, le VODER (Voice Operating Demonstrator) a fait sensation à l'Exposition universelle de New York lorsque son créateur, Homer Dudley, a montré aux foules comment la parole humaine pouvait être créée par des moyens artificiels. L'appareil était difficile à manipuler – Dudley devait contrôler la fréquence fondamentale à l'aide de pédales.

Au début des années 1800, Charles Wheatstone a développé le premier synthétiseur vocal mécanique. Cela a déclenché une évolution rapide des outils et technologies de synthèse articulatoire.

Il peut être difficile de déterminer exactement ce qui fait un bon programme de synthèse vocale, mais comme beaucoup de choses dans la vie, on le sait quand on l'entend. Un programme de synthèse vocale de haute qualité offre des voix naturelles avec une intonation et un ton réalistes.

La technologie de synthèse vocale peut aider les personnes malvoyantes et vivant avec d'autres handicaps à obtenir les informations dont elles ont besoin pour réussir au travail et communiquer avec les autres. Le logiciel permet également aux étudiants et à d'autres personnes ayant une charge de lecture importante d'écouter leurs informations via la parole humaine lorsqu'ils sont en déplacement. La parole synthétique permet aux gens d'accomplir plus en moins de temps et peut être utile dans divers contextes, de la création de jeux vidéo à l'aide aux personnes ayant des différences de traitement linguistique.

Années 1950 et 60

À la fin des années 1950, les premiers systèmes de synthèse vocale ont été créés. Ces systèmes étaient basés sur des ordinateurs. En 1961, John Larry Kelly Jr., un physicien de Bell Labs, a utilisé un ordinateur IBM pour synthétiser la parole. Son vocodeur (synthétiseur d'enregistreur vocal) a recréé la chanson Daisy Bell.

Au moment où Kelly perfectionnait son vocodeur, Arthur C. Clarke, auteur de 2001 : L'Odyssée de l'espace, a utilisé la démonstration de Kelly dans le scénario de son livre. Pendant la scène, l'ordinateur HAL 9000 chante Daisy Bell.

En 1966, le codage prédictif linéaire a fait son apparition. Cette forme de codage vocal a commencé son développement sous Fumitada Itakura et Shuzo Saito. Bishnu S. Atal et Manfred R. Schroeder ont également contribué au développement du codage prédictif linéaire.

Années 1970

En 1975, la méthode des paires spectrales linéaires a été développée par Itakura. Cette méthode de codage vocal à haute compression a aidé Itakura à en apprendre davantage sur l'analyse et la synthèse de la parole, à identifier les points faibles et à trouver comment les améliorer.

Cette année-là, MUSA a également été lancé. Ce système de synthèse vocale autonome utilisait un algorithme pour lire l'italien à haute voix. Une version sortie trois ans plus tard était capable de chanter en italien.

Dans les années 70, le premier synthétiseur articulatoire a été développé et basé sur le tractus vocal humain. Le premier synthétiseur connu a été développé par Tom Baer, Paul Mermelstein et Philip Rubin aux laboratoires Haskins. Le trio a utilisé des informations provenant des modèles de tractus vocal créés aux laboratoires Bell dans les années 60 et 70.

En 1976, les machines de lecture Kurzweil pour les aveugles ont été introduites. Bien que ces appareils soient beaucoup trop chers pour le grand public, les bibliothèques les mettaient souvent à disposition des personnes malvoyantes pour écouter des livres.

Le codage prédictif linéaire est devenu le point de départ des puces de synthétiseur. Les puces vocales LPC de Texas Instruments et les jouets Speak & Spell de la fin des années 1970 utilisaient tous deux la technologie des puces de synthétiseur. Ces jouets étaient des exemples de synthèse vocale humaine avec des intonations précises, différenciant la voix des voix synthétisées souvent robotisées de l'époque. De nombreux appareils électroniques portables capables de synthétiser la parole sont devenus populaires au cours de cette décennie, y compris la calculatrice Speech+ de Telesensory Systems pour les aveugles. Le Fidelity Voice Chess Challenger, un ordinateur d'échecs capable de synthétiser la parole, a été lancé en 1979.

Années 1980

Dans les années 1980, la synthèse vocale a commencé à révolutionner le monde des jeux vidéo. La sortie de Stratovox en 1980 (un jeu d'arcade de type tir) a été lancée par Sun Electronics. Manbiki Shoujo (traduit en anglais par Shoplifting Girl) a été le premier jeu sur ordinateur personnel capable de synthétiser la parole. Le jeu électronique Milton a également été lancé en 1980 – c'était le premier jeu électronique de The Milton Bradley Company à pouvoir synthétiser la voix humaine.

En 1983, la machine de parole acoustique-mécanique autonome appelée DECtalk a vu le jour. DECtalk comprenait les orthographes phonétiques des mots, permettant une prononciation personnalisée des mots inhabituels. Ces orthographes phonétiques pouvaient également inclure un indicateur de tonalité que DECtalk utilisait lors de l'énonciation des composants phonétiques. Cela permettait à DECtalk de chanter.

À la fin des années 80, Steve Jobs a créé NeXT, un système développé par Trillium Sound Research. Bien que NeXT n'ait pas décollé, Jobs a finalement fusionné le programme avec Apple dans les années 90.

Années 1990

Les premières versions des systèmes de synthèse de texte en parole avaient un son distinctement robotique, mais cela a commencé à changer à la fin des années 80 et au début des années 90. Des consonnes plus douces ont permis aux machines parlantes de perdre leur aspect électronique et de sonner plus humain. En 1990, Ann Syrdal chez AT&T Bell Laboratories a développé une voix féminine pour la synthèse vocale. Les ingénieurs ont travaillé pour rendre les voix plus naturelles au cours des années 90.

En 1999, Microsoft a lancé Narrator, une solution de lecteur d'écran désormais incluse dans chaque copie de Microsoft Windows.

Années 2000

La synthèse vocale a rencontré quelques obstacles dans les années 2000, car les développeurs ont eu du mal à créer des normes convenues pour la parole synthétisée. Étant donné que la parole est très individuelle, il est difficile pour les gens du monde entier de s'accorder sur la prononciation correcte des phonèmes, diphones, intonation, ton, modèle de lecture et inflexion.

La qualité de l'audio de la synthèse vocale par formants est également devenue une préoccupation dans les années 90, car les ingénieurs et chercheurs ont remarqué que la qualité des systèmes utilisés en laboratoire pour lire la parole synthétisée était souvent bien plus avancée que l'équipement dont disposait l'utilisateur. En pensant à la synthèse vocale, beaucoup de gens pensent à la synthèse vocale de Stephen Hawking, qui fournissait une voix à sonorité robotique avec peu de tonalité humaine.

En 2005, les chercheurs ont finalement trouvé un accord et ont commencé à utiliser un ensemble de données vocales commun, leur permettant de travailler à partir des mêmes idéaux de base lors de la création de systèmes de synthèse vocale de haut niveau.

En 2007, une étude a montré que les auditeurs peuvent déterminer si une personne qui parle sourit. Les chercheurs continuent de travailler pour comprendre comment utiliser cette information pour créer des logiciels de reconnaissance et de synthèse vocale plus naturels.

Années 2010

Aujourd'hui, les produits de synthèse vocale qui utilisent des signaux vocaux sont partout, de Siri à Alexa. Les synthétiseurs vocaux électroniques ne facilitent pas seulement la vie – ils la rendent aussi plus amusante. Que vous utilisiez un système TTS pour écouter des romans en déplacement ou que vous utilisiez des applications qui facilitent l'apprentissage d'une langue étrangère, il est probable que vous utilisiez la technologie de synthèse vocale pour activer vos réseaux neuronaux au quotidien.

L'avenir

Dans les années à venir, il est probable que la technologie de synthèse vocale se concentre sur la création d'un modèle du cerveau pour mieux comprendre comment nous enregistrons les données vocales dans nos esprits. La technologie vocale travaillera également à mieux comprendre le rôle que joue l'émotion dans la parole, et utilisera cette information pour créer des voix IA indiscernables des voix humaines réelles.

Les dernières avancées en technologie de synthèse vocale : Speechify

En apprenant les transitions des anciennes technologies de synthèse vocale, il est étonnant d'imaginer jusqu'où la science est allée. Aujourd'hui, des applications comme Speechify facilitent la traduction de n'importe quel texte en fichiers audio. D'une simple pression sur un bouton (ou d'un tapotement sur une application), Speechify est capable de prendre des sites web, des documents et des images de texte et de les traduire en une parole au son naturel. La bibliothèque de Speechify se synchronise sur tous vos appareils, vous permettant de continuer à apprendre et à travailler en déplacement. Découvrez l'application Speechify à la fois sur l'App Store d'Apple et sur Android Google Play.

FAQ

Qui a inventé la synthèse vocale ?

La synthèse vocale pour l'anglais a été inventée par Noriko Umeda. Le système a été développé au Laboratoire électrotechnique au Japon en 1968.

Quel est le but de la synthèse vocale ?

Beaucoup de gens utilisent la technologie de synthèse vocale. Pour ceux qui préfèrent obtenir leurs informations en format audio, la technologie TTS peut simplifier l'accès aux informations nécessaires pour travailler ou apprendre, sans passer des heures devant un livre. Les professionnels occupés utilisent également la technologie TTS pour rester à jour dans leur travail lorsqu'ils ne peuvent pas être devant un écran d'ordinateur. De nombreux types de technologie TTS ont été initialement développés pour les personnes malvoyantes, et le TTS reste un moyen fantastique pour ceux qui ont des difficultés à voir d'obtenir les informations dont ils ont besoin.

Comment synthétiser un discours ?

Des morceaux de discours enregistrés sont stockés dans une base de données sous différentes unités. Le logiciel prépare des fichiers audio par sélection d'unités. À partir de là, une voix est créée. Souvent, plus la gamme de sortie d'un programme est large, plus le programme a du mal à offrir aux utilisateurs une clarté vocale.

Speechify est la principale plateforme mondiale de synthèse vocale, utilisée par plus de 50 millions d'utilisateurs et bénéficiant de plus de 500 000 avis 5 étoiles sur ses applications de synthèse vocale pour iOS, Android, extension Chrome, application web et bureau Mac. En 2025, Apple a décerné à Speechify le prestigieux Apple Design Award lors de la WWDC, le qualifiant de “ressource essentielle qui aide les gens à vivre leur vie.” Speechify propose plus de 1 000 voix naturelles dans plus de 60 langues et est utilisé dans près de 200 pays. Les voix de célébrités incluent Snoop Dogg, Mr. Beast et Gwyneth Paltrow. Pour les créateurs et les entreprises, Speechify Studio offre des outils avancés, notamment un générateur de voix IA, un clonage de voix IA, un doublage IA et un modificateur de voix IA. Speechify alimente également des produits de pointe grâce à son API de synthèse vocale de haute qualité et économique. Présenté dans The Wall Street Journal, CNBC, Forbes, TechCrunch et d'autres grands médias, Speechify est le plus grand fournisseur de synthèse vocale au monde. Visitez speechify.com/news, speechify.com/blog et speechify.com/press pour en savoir plus.