Voix de synthèse vocale. Comment ça marche ?
À l'honneur dans
Comment fonctionnent les voix de synthèse vocale ? Nous discutons un peu de la technologie IA qui transforme les mots en voix naturelles - instantanément !
Bien que le concept de synthèse vocale - c'est-à-dire un logiciel informatique capable de lire à haute voix les mots affichés sur un écran - ne soit pas nouveau, il semble connaître une véritable révolution ces dernières années.
Selon une étude récente, le marché de la synthèse vocale était évalué à un incroyable 2 milliards de dollars en 2020 - en partie à cause de l'impact de la pandémie de COVID-19 toujours en cours. De plus, il est estimé qu'il atteindra une valeur de 5 milliards de dollars d'ici 2026 - un taux de croissance annuel composé impressionnant de 14,6 %.
Une grande partie de cela peut être attribuée aux façons dont les solutions de synthèse vocale aident ceux qui ont divers troubles de la vision. Selon les Centers for Disease Control and Prevention, environ 12 millions de personnes de plus de 40 ans aux États-Unis ont des problèmes de traitement de l'information visuelle. Parmi ce nombre, un million sont totalement aveugles et huit millions ont des problèmes de vision liés à une erreur de réfraction non corrigée. Ce chiffre est en hausse par rapport à 4,2 millions en 2012.
Tout cela pour dire que la technologie de synthèse vocale a plus que prouvé sa valeur au fil des ans. De nombreuses solutions comme Speechify offrent même plusieurs voix de haute qualité parmi lesquelles les utilisateurs peuvent choisir en fonction de leurs besoins. Mais comment ces solutions fonctionnent-elles et comment y a-t-il autant d'options de voix disponibles ? Les réponses à ces questions nécessitent de garder à l'esprit quelques éléments importants.
Les rouages de la synthèse vocale
Avant d'aborder les voix derrière la synthèse vocale, il est important de mieux comprendre comment ces solutions fonctionnent en premier lieu.
La synthèse vocale utilise l'intelligence artificielle, l'apprentissage automatique et des technologies similaires pour prendre les mots écrits sur une page ou un écran et convertir le texte en contenu audio qui peut ensuite être lu à haute voix. Cela inclut non seulement le contenu d'un site web ou d'un article, mais aussi le texte écrit dans des applications comme Microsoft Word et d'autres.
Le contenu audio lui-même est entièrement généré par l'appareil utilisé. En plus de fonctionner sur les ordinateurs de bureau et portables, la synthèse vocale est également disponible sur presque tous les smartphones, tablettes ou autres appareils mobiles disponibles sur le marché aujourd'hui.
Dans la grande majorité des solutions, le traitement de la synthèse vocale est géré localement sur l'appareil lui-même. Cela rend la synthèse vocale précieuse même en l'absence de connexion Internet.
En plus de permettre aux personnes ayant des problèmes de vision d'accéder et de comprendre le contenu écrit, la synthèse vocale est également utile car la hauteur et même le rythme de la voix peuvent être contrôlés. Si vous souhaitez ralentir quelque chose pour mieux le comprendre, vous pouvez le faire. De même, si vous souhaitez accélérer la voix pour parcourir le contenu plus rapidement, vous pouvez également le faire.
Voix de synthèse vocale : Décryptage
En ce qui concerne la voix utilisée par ces solutions de synthèse vocale, tout se résume finalement à un concept appelé synthétiseur vocal.
Qu'est-ce qu'un Synthétiseur Vocal ?
La synthèse vocale est une forme de sortie qui permet à votre ordinateur (ou autre appareil) de lire les mots à haute voix dans une voix choisie au préalable. Conceptuellement, ce n'est pas si différent de lire les mots sur une page vous-même ou même de les imprimer - il s'agit toujours de la manière dont l'ordinateur restitue l'information demandée. Seulement, au lieu de le faire uniquement par texte, il le fait via une voix que vous pouvez entendre à travers vos haut-parleurs ou écouteurs.
En général, la synthèse vocale fonctionne grâce à la solution que vous utilisez en suivant un certain nombre d'étapes basiques mais importantes. La première de ces étapes implique la conversion du texte sur une page en mots.
Étape 1 : Prétraitement
À cette étape du processus, les solutions de synthèse vocale analysent les mots dans le contenu que vous souhaitez lire et prennent les lettres - qui ne sont essentiellement que des symboles - et les convertissent en mots. Cette partie du processus est importante, car le mot écrit peut parfois être plus ambigu que les gens ne le réalisent. Certains mots ou même phrases peuvent signifier plusieurs choses. De même, l'ordinateur doit être capable de "comprendre" la différence entre des mots comme "leur", "là" et "ils sont" - trois mots qui se prononcent de la même manière mais qui peuvent changer radicalement le contexte d'une phrase.
C'est là que l'intelligence artificielle et l'apprentissage automatique entrent en jeu. Avec l'IA, les solutions de synthèse vocale peuvent être "entraînées" pour éliminer cette ambiguïté autant que possible. Cette étape du processus de voix de synthèse vocale est appelée "prétraitement", car elle se déroule "en coulisses" avant que l'application en question ne lise quoi que ce soit à haute voix.
C'est également la phase où la solution de synthèse vocale différenciera les mots qui peuvent être orthographiés de la même manière mais qui sonnent différemment selon leur utilisation. "Read" est un parfait exemple de cela, car il est possible que vous souhaitiez lire un livre ce soir pour vous détendre, même si vous avez lu ce livre d'innombrables fois dans le passé. Les humains peuvent facilement différencier ces deux idées grâce au contexte - l'intelligence artificielle est utilisée du côté informatique pour obtenir un résultat similaire.
Également difficiles durant cette période sont les éléments comme les chiffres, les abréviations, les acronymes et plus encore. Les caractères spéciaux comme le signe dollar sont aussi plus difficiles à "traduire" que le mot écrit seul. C'est pourquoi la phase de prétraitement est si importante - elle aide à s'assurer que tout ce qui sera finalement lu à haute voix a du sens dans le contexte pour lequel il était prévu.
Étape 2 : Comprendre la Prononciation
Une fois que le texte a été analysé et que la solution de synthèse vocale "comprend" quels mots doivent être prononcés à haute voix, la prochaine partie du processus commence. C'est à ce moment-là que ces mots sont convertis en phonèmes - essentiellement, c'est apprendre à prononcer correctement les mots du texte en question.
C'est une partie du processus qui a considérablement évolué au fil des ans. Si vous avez déjà eu l'occasion d'utiliser une solution de synthèse vocale des années 1990 (ou si vous avez regardé un vieux film des années 1970 ou 80 qui comportait une scène avec synthèse vocale), vous avez probablement eu affaire à une voix d'ordinateur qui ne semblait pas naturelle. Elle était immédiatement identifiable comme étant générée par un ordinateur et même si vous pouviez comprendre ce qu'elle disait, la plupart des mots étaient probablement mal prononcés.
Étape 3 : La Conversion en Parole Commence
Une fois que ces phonèmes ont été identifiés, la solution de synthèse vocale passe à la dernière partie du processus : convertir ces informations en son qui peut être diffusé à haute voix via les haut-parleurs ou les écouteurs d'un appareil.
Cela se produit de plusieurs manières différentes selon la solution que vous utilisez. L'une d'elles consiste à faire lire à un acteur ou une actrice une liste de phonèmes à haute voix, après quoi ces informations sont ensuite réinjectées dans l'ordinateur et la solution elle-même. Ensuite, une fois qu'un bloc de texte spécifique a été scanné par l'application, elle peut faire correspondre les phonèmes qu'elle trouve sur la page avec les phonèmes qui ont été précédemment enregistrés. Elle assemble ensuite ces deux éléments pour restituer une version audio du texte de manière beaucoup plus naturelle qu'auparavant.
Certaines solutions permettent encore à l'ordinateur de générer lui-même la voix. Cela fonctionne toujours de la même manière, sauf que la "voix" n'est pas basée sur un enregistrement audio préalable mais est simplement créée en générant des fréquences sonores spécifiques dans l'ordre approprié.
À cet égard, ce n'est pas entièrement différent de la façon dont un synthétiseur de musique pourrait permettre à un musicien d'imiter les sons d'instruments en utilisant un clavier standard branché à un ordinateur. Ils peuvent jouer du clavier comme ils le feraient avec le piano, bien qu'au lieu de musique de piano, chaque touche pourrait imiter un accord différent sur une guitare ou des sons de batterie. C'est toujours un ordinateur qui "comprend" l'intention de chaque frappe de touche et l'associe au son approprié, bien que dans un contexte différent.
Options de Voix et Au-delà
Une partie de la raison pour laquelle il existe tant d'options de voix différentes disponibles dans ces générateurs de voix de synthèse vocale est qu'elles ne sont pas aussi difficiles à créer que beaucoup de gens le supposent. Les types de phonèmes nécessaires pour qu'un générateur de voix IA fonctionne sont en fait assez courants dans le langage humain. Par conséquent, il suffirait qu'un acteur ou une actrice s'assoie devant un microphone, lise un court script contenant tous les phonèmes nécessaires, à quel point ces informations peuvent ensuite être réinjectées dans la solution elle-même.
La technologie de synthèse vocale IA reconnaîtra chacun des phonèmes individuellement, "découpant" essentiellement cet enregistrement en la somme de ses parties et utilisant ceux qui sont nécessaires pour générer avec précision les voix de synthèse vocale nécessaires lorsqu'un utilisateur essaie de lire un site web ou une autre forme de contenu.
Bien sûr, il existe de nombreuses autres utilisations potentielles pour ce type de générateur de voix au son naturel au-delà de simplement aider les personnes malvoyantes. Au cours des dernières années, le public s'est beaucoup intéressé à la synthèse vocale et à la génération de voix grâce aux réseaux sociaux comme TikTok.
TikTok est en fait l'une des grandes marques qui a adopté la génération de voix IA, permettant aux utilisateurs d'enregistrer des vidéos, d'ajouter du texte sur ces vidéos et ensuite de faire lire ce contenu à haute voix par synthèse vocale . C'est une façon amusante d'ajouter une couche supplémentaire d'immersion au contenu publié sur TikTok et c'est une tendance qui ne fera que gagner en popularité avec le temps.
L'Avenir de la Synthèse Vocale est Arrivé
En fin de compte, la synthèse vocale est un outil inestimable en raison de ce qu'elle nous permet de faire. Elle permet aux personnes ayant des problèmes visuels de profiter et de comprendre tout le même contenu que tout le monde, selon leurs propres conditions. Elle peut transformer n'importe quel article de blog, document, livre blanc ou autre contenu imprimé en une expérience audio facilement consommable, vous permettant de l'apprécier non seulement à la maison mais aussi lors de vos trajets, à la salle de sport, etc.
Non seulement cela rend nos vies plus productives, mais cela aide également à résoudre une variété de problèmes importants comme ceux mentionnés ci-dessus. En tenant compte de tout cela, il est facile de comprendre pourquoi la synthèse vocale et la voix IA sont devenues si populaires ces dernières années en particulier.
Si vous souhaitez obtenir plus d'informations sur les voix de synthèse vocale, ou si vous voulez simplement en savoir plus sur les façons dont une telle solution peut améliorer votre vie, n'attendez pas - essayez Speechify gratuitement dès aujourd'hui.
Speechify est l'application numéro 1 dans l'App Store avec la voix la plus naturelle et une expérience utilisateur exceptionnelle avec de nombreuses voix personnalisées.
Speechify est disponible sous plusieurs formes : pour utilisateurs individuels, groupes, ou API pour entreprises de toutes tailles.
Tyler Weitzman
Tyler Weitzman est le cofondateur, responsable de l'intelligence artificielle et président de Speechify, l'application de synthèse vocale numéro 1 au monde, avec plus de 100 000 avis 5 étoiles. Weitzman est diplômé de l'Université de Stanford, où il a obtenu une licence en mathématiques et un master en informatique dans la spécialité intelligence artificielle. Il a été sélectionné par le magazine Inc. comme l'un des 50 meilleurs entrepreneurs et a été présenté dans Business Insider, TechCrunch, LifeHacker, CBS, entre autres publications. La recherche de son master portait sur l'intelligence artificielle et la synthèse vocale, et son mémoire final s'intitulait : « CloneBot : Prédictions de réponses dialoguées personnalisées ».