Tout savoir sur l'API Google Cloud Text to Speech

L'IA générative et l'intelligence artificielle ont parcouru un long chemin. La synthèse vocale est un concept relativement ancien, il existe depuis un certain temps. Il y a beaucoup à découvrir et à catégoriser ici, et je vais décomposer cela et l'examiner sous tous les angles. Que vous soyez débutant ou expert, cela devrait apporter une clarté globale à l'API Text to Speech de Google.

D'accord, avant de plonger dans n'importe quel sujet, il est essentiel d'établir les règles de base. Définissons quelques termes et construisons notre fondation pour pouvoir nous y appuyer fermement.

Séparons ici les deux technologies : la synthèse vocale et les API, et quel est le rôle de Google Cloud.

Note de l'éditeur : Vous cherchez la meilleure API de synthèse vocale ? Découvrez l'API de synthèse vocale bien documentée et facile à utiliser de Speechify.

Synthèse vocale

J'ai beaucoup écrit sur ce sujet et vous pouvez lire mon Qu'est-ce que la synthèse vocale blog et également vous renseigner sur la synthèse vocale pour bien comprendre ce sujet. Ces articles vont plus en profondeur et vous pouvez les ignorer pour l'instant. Je vais les résumer en quelques phrases.

La synthèse vocale repose sur une technologie appelée synthèse vocale pour convertir les mots en discours généré par l'IA. Les cas d'utilisation sont nombreux. Cela aide les personnes ayant des difficultés de lecture telles que la dyslexie et les problèmes de vision, ainsi que celles qui cherchent simplement à gagner en efficacité.

API

API signifie Interface de Programmation d'Applications. Elle agit simplement comme un pont entre deux applications. Si vous développiez une application contenant du contenu audio et nécessitant une fonctionnalité de synthèse vocale, vous devriez construire cette fonctionnalité vous-même, ou vous pourriez simplement vous connecter à une API de synthèse vocale existante.

Vous vous concentreriez sur la construction de votre application et vous appuieriez sur une API tierce comme un pont, pour importer la fonctionnalité de synthèse vocale afin de synthétiser votre texte.

API Google Cloud

C'est là que Google Cloud entre en jeu. Google a développé une API de synthèse vocale robuste et la propose aux développeurs sous différentes structures tarifaires. Tout développeur cherchant à créer des applications personnalisées ou des applications web nécessitant une fonctionnalité de synthèse vocale pourrait simplement combler cet écart en utilisant les fonctionnalités TTS de Google. Oui, TTS est l'abréviation de synthèse vocale.

Trouvez le guide de démarrage rapide sur Google Cloud Console https://cloud.google.com/. Vous pouvez trouver des tutoriels, gérer votre compte de service, accéder aux voix wavenet et plus encore.

Google Cloud lui-même est une plateforme cloud proposée par Google et offre une multitude de services modulaires. Vous pouvez choisir d'utiliser un, plusieurs ou tous ses services. Tout ce que vous auriez à faire est de créer des clés d'accès pour l'authentification de chaque API - le pont. La plupart, sinon tous, des services ont un coût bien qu'il puisse y avoir un seuil gratuit.

Google a acheté DeepMind en 2014 pour sa technologie de synthèse vocale et son travail dans le développement de réseaux neuronaux. Donc, si vous tombez sur DeepMind, c'est maintenant Google DeepMind et ils ne font qu'un.

Maintenant que nous avons une compréhension solide, plongeons dans l'API Google Cloud Text to Speech.

Fonctionnalités de l'API Google Text to Speech

Google est un pionnier et leader technologique mondial, cela ne fait aucun doute. En ce qui concerne l'API TTS, vous pouvez vous attendre à trouver des fonctionnalités de classe mondiale qui continuent d'évoluer.

Voix de haute fidélité

Les voix de synthèse vocale de Google sont parmi les meilleures de l'industrie. Elles sonnent très humaines avec une intonation naturelle. La TTS en est à ses débuts et ceux qui peuvent le mieux synthétiser l'audio pour qu'il ressemble à une voix humaine vont gagner cette course.

Sélection de voix

Google revendique la plus large sélection de voix pour que votre projet ne ressemble pas aux autres 1000 ou pire encore, à l'application de vos concurrents.

Créez votre propre voix

Cela touche à la technologie de clonage de voix. Vous pouvez créer votre voix personnalisée en vous enregistrant ou en enregistrant quelqu'un d'autre, avec sa permission. Vous pouvez ensuite utiliser cet échantillon pour être la voix qui lit à haute voix tout votre texte.

Voix neuronales

Les voix neuronales offrent la meilleure qualité parmi la vaste sélection de voix. Vous pouvez également internationaliser ces voix pour élargir votre audience internationale.

Voix Studio

Les voix studio sont des voix haut de gamme et elles sonnent très professionnelles, comme si elles avaient été enregistrées de manière traditionnelle.

Ajustement de la Voix

Choisissez une voix puis ajustez la vitesse, la tonalité, et plus encore pour personnaliser le ton ou la voix.

Combien coûte l'API Google Text to Speech ?

Tout dépend de la qualité de la voix et de la longueur de votre texte. Plus vous souhaitez que votre voix soit naturelle, plus cela sera coûteux. Cependant, coûteux est relatif ici. Même les voix de haute qualité sont relativement abordables.

Type de voix	Gratuit par mois	Après avoir atteint l'utilisation gratuite
Voix Neural2	0 à 1 million d'octets	16 $ par million d'octets
Voix Polyglot	0 à 1 million d'octets	16 $ par million d'octets
Voix Studio	0 à 100 000 octets	160 $ par million d'octets
Voix Standard	0 à 4 millions de caractères	4 $ par million de caractères
Voix Wavenet	0 à 1 million de caractères	16 $ par million de caractères

Quelle est la différence entre caractères et octets ?

Comme vous pouvez le voir, le prix varie considérablement en fonction de la qualité de la voix. L'encodage audio et le traitement nécessaires pour transformer le texte en parole varient d'un niveau à l'autre. Pour les niveaux inférieurs, comme les Voix Standard par exemple, le prix est plus bas et est compté par caractères.

Cela signifie que si votre projet comporte 4 millions de caractères, cela vous coûterait 16 $ pour convertir ces caractères en parole en utilisant les Caractères Standard.

Les Voix Studio, en revanche, nécessitent une plus grande puissance de traitement et sont facturées en fonction des octets. Dans certaines langues, comme le japonais par exemple, un seul caractère peut être composé de plusieurs octets.

Pour obtenir le prix le plus précis, il est important de savoir sur quelle langue vous travaillez et d'avoir une compréhension de base du nombre moyen d'octets par caractère pour estimer en conséquence.

Comment configurer votre projet API Google Cloud Text to Speech ?

Créez un compte Google Cloud ou connectez-vous sur cette page
Créez un nouveau projet et nommez-le de manière appropriée
Ajoutez une méthode de facturation. Vous ne serez facturé que pour ce que vous utilisez.
Ensuite, choisissez votre projet et associez-le à un compte de facturation.
Activez l'API Text-to-Speech. Allez dans la barre de recherche des produits et ressources située en haut de la page, et tapez "speech".
Parmi les résultats affichés, choisissez l'API Cloud Text-to-Speech
Configurez l'authentification pour votre environnement de développement. Pour les instructions, consultez Configurer l'authentification pour Text-to-Speech.

Vous pouvez également essayer Text-to-Speech sans le lier à votre projet :

Choisissez l'option ESSAYER CETTE API.
Pour activer l'API Text-to-Speech pour l'utiliser avec votre projet, cliquez sur ACTIVER.

Consultez la documentation Google Cloud pour plus d'aide.

Comment désactiver l'API Text to Speech

Pour désactiver l'API Text-to-Speech, allez sur votre tableau de bord Google Cloud Platform et cliquez sur le lien "Accéder à l'aperçu des API" dans la boîte des API. Localisez l'API Text-to-Speech, puis cliquez dessus, suivi de la sélection du bouton "DÉSACTIVER L'API" en haut de la page.

Commencez avec l'API Google Text to Speech

Maintenant que votre projet est configuré, vous pouvez utiliser la ligne de commande pour commencer.

gcloud init

Créez une authentification locale

gcloud auth application-default login

Vous pouvez maintenant installer une bibliothèque cliente. Dans cet exemple, nous allons examiner Node.js

npm install --save @google-cloud/text-to-speech

L'API Google Cloud Text to Speech prend en charge ces langues :

Go
Java
Node.js
C++
C#
PHP
Python
Ruby
TypeScript
Terraform
YAML

Comment fonctionne l'API Google Cloud ?

Tout commence par un simple appel d'API. Vous envoyez votre texte dans un appel de transcription et vous recevez ensuite un fichier audio de votre texte parlé. Avec votre demande, vous pouvez faire des exigences spécifiques. Choisissez une voix, une langue, et plus encore, puis l'API de synthèse vocale vous renverra le fichier audio.

Vous pouvez apprendre à installer et utiliser les bibliothèques clientes de synthèse vocale ici. Nos exemples de code seront pour Node.js. Mais vous pouvez choisir autre chose, de Python à PHP. Ce avec quoi vous êtes à l'aise.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

Et voilà. Vous avez configuré l'API Google Cloud Text to Speech et envoyé votre première demande pour convertir du texte en parole. Vous pouvez récupérer le fichier dans divers formats, de OGG à MP3.

Voici quelques façons d'utiliser l'API Google Text to Speech

L'API Google Text-to-Speech (TTS) offre une solution polyvalente pour divers cas d'utilisation dans différentes industries. Quelques cas d'utilisation courants incluent :

Synthèse vocale pour les utilisateurs malvoyants : Implémenter la TTS dans les applications pour convertir le contenu écrit en mots parlés, rendant l'information numérique accessible aux utilisateurs malvoyants.
Systèmes téléphoniques automatisés : Utiliser la TTS pour créer des invites et des réponses naturelles pour les systèmes de réponse vocale interactive dans le service client ou les lignes d'information.
Voix off pour le contenu multimédia : Générer des voix off naturelles pour les vidéos, podcasts ou autres contenus multimédias pour améliorer l'expérience utilisateur.
Synthèse vocale pour le contenu traduit : Convertir le texte traduit en mots parlés pour faciliter l'apprentissage des langues, la communication internationale ou la consommation de contenu dans diverses langues.
Assistance à la lecture pour les utilisateurs dyslexiques : Fournir une fonctionnalité TTS pour aider les personnes dyslexiques ou ayant des difficultés de lecture à consommer du contenu écrit.
Navigation vocale dans les applications : Intégrer la TTS dans les applications de navigation pour fournir des directions étape par étape ou des informations basées sur la localisation de manière audible.
Synthèse vocale pour le contenu éducatif : Améliorer les expériences d'apprentissage en ligne en convertissant le contenu textuel éducatif en mots parlés, aidant à la compréhension et à l'engagement.
Synthèse vocale pour les applications de productivité : Intégrer la TTS dans les outils de productivité, tels que les applications de prise de notes ou de gestion des tâches, pour permettre des retours parlés ou la récupération d'informations.
Voix naturelle pour les assistants virtuels : Alimenter les assistants vocaux avec une TTS naturelle pour améliorer les interactions utilisateur et fournir des informations de manière conversationnelle.
Alertes et notifications auditives : Utiliser la TTS pour fournir des alertes audibles, des notifications ou des mises à jour de statut sur les appareils de l'Internet des objets (IoT) pour une meilleure sensibilisation de l'utilisateur.

Meilleures alternatives à l'API Google Cloud TTS

À ma dernière mise à jour des connaissances en janvier 2022, il existe plusieurs alternatives à l'API Google Text-to-Speech. Gardez à l'esprit que la popularité et les capacités de ces services peuvent avoir changé depuis. Voici quelques alternatives notables :

API de synthèse vocale Speechify : Nous sommes ravis de dévoiler le développement d'une API de synthèse vocale qui offre les voix IA les plus naturelles et appréciées de Speechify directement aux développeurs du monde entier. Réservez votre place dès aujourd'hui.
Amazon Polly : Proposé par Amazon Web Services (AWS), Polly fournit une synthèse vocale naturelle dans diverses langues et voix. Il s'intègre bien avec d'autres services AWS.
Service vocal Microsoft Azure : Le service vocal Azure inclut des capacités de synthèse vocale et prend en charge une variété d'applications, y compris les assistants vocaux, les systèmes de navigation, et plus encore.
IBM Watson Text to Speech : IBM Watson propose un service de synthèse vocale qui permet aux développeurs de convertir du texte écrit en discours naturel en utilisant diverses voix.
Nuance Communications : Nuance propose une gamme de solutions de reconnaissance vocale et de synthèse vocale pour des applications dans les secteurs de la santé, de l'automobile et du service client.
CereProc : CereProc est une entreprise de technologie de synthèse vocale qui offre des voix synthétiques de haute qualité pour des applications telles que l'accessibilité, le divertissement et la communication.
iSpeech : iSpeech fournit des services de synthèse vocale basés sur le cloud avec prise en charge de plusieurs langues et voix. Il est adapté à diverses applications, y compris les applications mobiles et les sites web.
ResponsiveVoice : ResponsiveVoice est une API de synthèse vocale simple et abordable qui prend en charge plusieurs langues et peut être utilisée dans diverses applications web.
Neospeech : Neospeech propose des solutions de synthèse vocale axées sur des voix naturelles. Leur technologie est utilisée dans des applications telles que l'e-learning et le divertissement.
ReadSpeaker : ReadSpeaker fournit des solutions de synthèse vocale en ligne et hors ligne pour diverses applications, y compris les sites web, l'e-learning et les services d'accessibilité.
Acapelabox : Acapela Group propose une API de synthèse vocale basée sur le cloud, Acapelabox, qui prend en charge plusieurs langues et voix pour des applications dans divers secteurs.

FAQ sur l'API Google Text to Speech

Google propose plusieurs niveaux de voix et presque chaque niveau a une limite gratuite. Par exemple, les voix standard sont gratuites jusqu'au premier million d'octets. Au-delà, c'est 16 $ par million d'octets. Donc oui, cela peut être gratuit avec un nombre limité de caractères ou d'octets.

Il suffit de créer un compte sur https://cloud.google.com/text-to-speech/ et de suivre les étapes indiquées. J'ai également détaillé le processus dans ce blog, juste au-dessus.

Vous pouvez obtenir une clé API Google Text-to-Speech en vous connectant à votre compte Google Cloud, puis en créant un projet. Une fois votre projet créé, vous pouvez générer une clé API.

L'URL de l'API Google Text to Speech est https://cloud.google.com/text-to-speech/

Il n'y a techniquement pas de période d'essai gratuite pour Google Cloud. Il existe plusieurs services au sein de Google Cloud et chaque service a ses propres conditions et niveaux gratuits.

Non. L'API Google Cloud Text to Speech nécessite une connexion Internet.

L'authentification aux services Google Cloud, y compris l'API Text-to-Speech, peut se faire à l'aide de clés API, OAuth 2.0 ou de comptes de service. La méthode d'authentification appropriée dépend du cas d'utilisation et du type d'application.

Je lui donnerais 5 étoiles. C'est facile à utiliser, la fonction de recherche est excellente et est la plus utilisée. Les tarifs sont corrects et c'est globalement un excellent produit.

L'API Google Text-to-Speech propose des bibliothèques clientes pour divers langages de programmation, y compris Python. Elle prend également en charge les requêtes API RESTful, ce qui la rend compatible avec les langages capables de faire des requêtes HTTP.

L'intégration de l'API Google Text-to-Speech dans une application Android implique l'utilisation de la classe TextToSpeech et la réalisation de requêtes API. Des instructions détaillées sont disponibles dans la documentation officielle pour les développeurs Android.

Pour implémenter l'API Google Text-to-Speech dans une application JavaScript, vous pouvez effectuer des requêtes HTTP vers le point de terminaison de l'API. Le processus implique de construire la requête API appropriée et de gérer la réponse dans votre code JavaScript. Consultez la documentation officielle pour plus de détails.

Speechify est la principale plateforme mondiale de synthèse vocale, utilisée par plus de 50 millions de personnes et soutenue par plus de 500 000 avis cinq étoiles sur ses solutions iOS, Android, extension Chrome, application web et application Mac de bureau. En 2025, Apple a décerné à Speechify le prestigieux Apple Design Award lors de la WWDC, le qualifiant de « ressource essentielle qui aide les gens à vivre mieux ». Speechify propose plus de 1000 voix naturelles dans plus de 60 langues et est utilisé dans près de 200 pays. On y retrouve des voix de célébrités comme Snoop Dogg et Gwyneth Paltrow. Pour les créateurs et les entreprises, Speechify Studio propose des outils avancés comme le Générateur de voix IA, Clonage vocal IA, Doublage IA et le changeur de voix IA. Speechify alimente aussi des produits majeurs grâce à son API de synthèse vocale haute qualité et abordable. Présenté dans The Wall Street Journal, CNBC, Forbes, TechCrunch et d’autres grands médias, Speechify est le plus grand fournisseur mondial de synthèse vocale. Rendez-vous sur speechify.com/news, speechify.com/blog et speechify.com/press pour en savoir plus.