Tout savoir sur l'API Google Cloud Text to Speech

L’IA générative et l’intelligence artificielle ont beaucoup évolué. La synthèse vocale est un concept plutôt ancien, déjà présent depuis des années. Il y a beaucoup à expliquer et à classer ici, je vais donc tout détailler pour vous offrir une vue d’ensemble de l’API Google Text to Speech, que vous soyez débutant ou confirmé.

Avant d’entrer dans le vif du sujet, il est important de poser les bases. Définissons quelques termes et construisons les fondations pour bien comprendre.

Séparons ici les deux technologies : la synthèse vocale et les API, puis voyons où se place Google Cloud.

Note de l'éditeur : Vous cherchez l’API de synthèse vocale la plus avancée ? Découvrez celle de Speechify, bien documentée et simple à prendre en main text to speech API.

Synthèse vocale

J’ai beaucoup écrit sur ce sujet : lisez mon article Qu’est-ce que la synthèse vocale et informez-vous aussi sur la synthèse vocale pour mieux comprendre. Ces articles vont plus loin dans les détails, mais voici un résumé.

La synthèse vocale utilise la technologie dite de synthèse de la parole pour convertir les mots en voix générée par IA. Les cas d’usage sont nombreux : aide aux personnes dyslexiques, malvoyantes, ou tout simplement pour gagner en efficacité au quotidien.

API

API signifie Interface de Programmation d’Application. C’est tout simplement un pont entre deux applications. Si vous développez une application nécessitant de l’audio et une fonction de synthèse vocale, vous pouvez la coder vous-même ou utiliser une API de synthèse vocale existante.

Vous vous concentrez ainsi sur votre application et vous vous appuyez sur une API tierce comme pont pour intégrer la synthèse vocale à votre projet.

API Google Cloud

C’est là que Google Cloud entre en jeu. Google propose une API de synthèse vocale très puissante à disposition des développeurs, avec différents tarifs. Toute personne développant une application nécessitant la synthèse vocale peut en profiter grâce aux fonctionnalités TTS de Google (TTS = Text to Speech).

Retrouvez le guide de démarrage sur Google Cloud Console https://cloud.google.com/. Vous y trouverez des tutoriels, la gestion des comptes de service, l’accès aux voix Wavenet et bien plus.

Google Cloud est la plateforme cloud modulaire de Google, qui propose de nombreux services. Vous pouvez en utiliser un seul ou plusieurs. Il suffit de créer des clés d’accès pour chaque API. La majorité des services est payante, mais il existe souvent un palier gratuit.

Google a racheté DeepMind en 2014 pour sa technologie de synthèse vocale et ses travaux sur les réseaux neuronaux. Si vous voyez DeepMind, il s'agit désormais de Google DeepMind, c’est la même entité.

Maintenant que vous avez les bases, approfondissons l’API Google Cloud Texte en Parole.

Fonctionnalités de l’API Google Text to Speech

Google est l’un des leaders technologiques mondiaux, aucun doute là-dessus. Pour l’API TTS, attendez-vous à des fonctions de pointe qui évoluent en permanence.

Voix Haute Fidélité

Les voix synthèse vocale de Google comptent parmi les meilleures. Elles sonnent très naturelles et humaines. Les systèmes capables de générer les voix les plus réalistes seront les grands gagnants de demain.

Choix de voix

Google propose l’une des plus larges sélections de voix, pour que votre projet ne ressemble pas à mille autres ni à celui de vos concurrents.

Créez votre propre voix

Ceci rejoint la technologie de clonage vocal. Vous pouvez générer une voix personnalisée à partir d’un enregistrement, avec l’accord de la personne. Votre texte sera alors lu avec cette voix.

Voix neuronales

Les voix neuronales offrent la meilleure qualité. Vous pouvez aussi les adapter à l’international pour toucher de nouveaux publics.

Voix studio

Les voix studio sont haut de gamme et paraissent très professionnelles, proches d’un enregistrement en studio traditionnel.

Réglage de la voix

Choisissez une voix puis ajustez la vitesse, la hauteur ou le ton pour personnaliser le rendu selon vos besoins.

Quel est le prix de l’API Google Text to Speech ?

Tout dépend de la qualité vocale souhaitée et de la longueur du texte. Plus la voix doit sembler naturelle, plus c’est cher. Mais cela reste abordable, même pour les options haut de gamme.

Type de voix	Gratuit/mois	Après quota gratuit
Voix Neural2	0 à 1 million d’octets	16 $ par million d’octets
Voix Polyglotte	0 à 1 million d’octets	16 $ par million d’octets
Voix Studio	0 à 100 000 octets	160 $ par million d’octets
Voix standard	0 à 4 millions de caractères	4 $ par million de caractères
Voix Wavenet	0 à 1 million de caractères	16 $ par million de caractères

Différence entre caractères et octets

Comme vous le voyez, le prix dépend de la qualité de la voix. L’encodage audio et le traitement diffèrent selon les options. Les voix standard sont facturées au caractère, ce qui les rend moins chères.

Concrètement, si votre projet compte 4 millions de caractères, cela vous coûtera 16 $ pour les convertir en voix avec l’option standard.

Les voix studio nécessitent plus de ressources et sont facturées aux octets. En japonais, par exemple, un caractère peut être composé de plusieurs octets.

Pour un coût précis, il faut connaître la langue utilisée, le rapport moyen d’octets par caractère, puis adapter le calcul en conséquence.

Comment configurer votre projet Google Cloud Platform Text to Speech ?

Créez un compte Google Cloud ou connectez-vous ici
Créez un nouveau projet et donnez-lui un nom
Ajoutez un mode de paiement. Vous ne payez que ce que vous consommez.
Associez ensuite votre projet à un compte de facturation.
Activez l’API Text-to-Speech. Recherchez “speech” dans la barre du haut.
Dans les résultats, choisissez Cloud Text-to-Speech API
Paramétrez l’authentification pour votre environnement de développement. Voir la documentation.

Vous pouvez aussi tester Text-to-Speech sans le lier à un projet :

Choisissez l’option ESSAYER CETTE API.
Pour l’activer avec votre projet, cliquez sur ACTIVER.

Consultez la documentation Google Cloud pour plus d’aide.

Comment désactiver l’API Synthèse vocale

Pour désactiver l’API Text-to-Speech, rendez-vous sur le tableau de bord Google Cloud Platform, cliquez sur « Accéder à la vue d'ensemble des APIs » dans la boîte API, sélectionnez Text-to-Speech, puis cliquez sur « DÉSACTIVER L’API » en haut.

Démarrer avec Google Text to Speech API

Votre projet est prêt, vous pouvez démarrer avec la ligne de commande.

gcloud init

Créez une authentification locale

gcloud auth application-default login

Vous pouvez maintenant installer une bibliothèque cliente. Exemple avec Node.js :

npm install --save @google-cloud/text-to-speech

L’API Google Cloud Text to Speech prend en charge ces langages :

Go
Java
Node.js
C++
C#
PHP
Python
Ruby
TypeScript
Terraform
YAML

Comment fonctionne l’API Google Cloud ?

Tout commence par un simple appel d’API. Vous envoyez votre texte, puis recevez en retour un fichier audio correspondant. Précisez la voix, la langue, etc., et l’API de synthèse vocale vous renvoie le fichier audio.

Apprenez à installer et utiliser les bibliothèques clientes text to speech ici. Nos exemples sont en Node.js, mais vous pouvez aussi choisir Python, PHP et d’autres.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

Et voilà. Vous avez configuré Google Cloud Text to Speech API et envoyé votre première requête pour convertir du texte en audio, avec différents formats possibles (OGG, MP3, etc.).

Quelques usages de l’API Google Text to Speech

L’API Text to Speech (TTS) de Google couvre de nombreux usages, aussi bien métiers que grand public. Voici des exemples courants :

Synthèse vocale pour malvoyants : Transformer le texte écrit en voix pour rendre le contenu accessible aux personnes malvoyantes.
Systèmes téléphoniques automatisés : Utiliser le TTS pour générer des messages vocaux réalistes pour les services d’assistance et les hotlines.
Voix-off pour médias : Générer des voix-off pour vidéos, podcasts ou autres contenus multimédias.
Synthèse vocale pour contenus traduits : Convertir les traductions texte en audio pour l’apprentissage des langues ou l’accès multilingue.
Assistance à la lecture/dyslexie : Proposer la synthèse vocale pour aider les personnes atteintes de dyslexie ou de troubles de la lecture.
Navigation vocale dans les applis : Offrir un guidage vocal dans les applications de navigation ou d'information géolocalisée.
Synthèse vocale pour l’éducation : Améliorer l’e-learning en lisant à haute voix le contenu éducatif.
Synthèse pour apps de productivité : Intégrer le TTS dans les outils de prise de notes ou de gestion de tâches pour un retour audio.
Voix naturelle pour assistants virtuels : Alimenter les assistants avec une voix naturelle pour une expérience plus humaine.
Alertes et notifications sonores : Fournir des alertes ou notifications audio sur appareils connectés (IoT) pour une meilleure réactivité.

Meilleures alternatives à l’API Google Cloud TTS

À ma dernière mise à jour début 2022, il existait plusieurs alternatives à l’API Google Text to Speech. Leur popularité et leurs fonctions peuvent évoluer. Voici quelques alternatives marquantes :

Speechify Text to Speech API : Speechify Text to Speech API propose plus de 1 000 voix réalistes et émotionnelles IA couvrant 60+ langues et accents. Réservez votre place.
Amazon Polly : Service AWS proposant une synthèse vocale très réaliste dans de nombreuses langues et voix, avec une intégration AWS facile.
Microsoft Azure Speech Service : Inclut la synthèse vocale avec de multiples usages possibles : assistants, navigation...
IBM Watson Text to Speech : Permet de transformer le texte écrit en voix naturelle avec divers choix de voix.
Nuance Communications : Propose des solutions de reconnaissance et synthèse vocale, notamment Text to Speech pour la santé, l’automobile, le support client...
CereProc : Société technologique spécialisée dans la synthèse vocale de haute qualité pour l’accessibilité, le divertissement, la communication.
iSpeech : Services cloud de synthèse vocale multilingue pour différentes applis et sites web.
ResponsiveVoice : API abordable de synthèse vocale Text to Speech adaptée à de nombreux environnements web.
Neospeech : Technologie orientée voix naturelles, utilisée dans l’e-learning, le divertissement...
ReadSpeaker : Solutions en ligne et hors-ligne pour sites, e-learning et accessibilité.
Acapelabox : Acapela Group propose une API cloud Text to Speech avec plusieurs langues et voix pour différents secteurs.

FAQ

Google propose plusieurs niveaux de voix, chacun avec un quota gratuit. Par exemple, la voix standard est gratuite jusqu’à 1 million d’octets, ensuite c’est 16 $/million d’octets. Donc oui, c’est gratuit dans la limite des quotas.

Créez simplement un compte sur https://cloud.google.com/text-to-speech/ et suivez les étapes. Le processus est détaillé dans ce blog ci-dessus.

Connectez-vous à Google Cloud, créez un projet, puis générez la clé API.

L’URL de l’API Google Text to Speech est https://cloud.google.com/text-to-speech/

Il n’y a techniquement pas de période d’essai gratuite unique pour Google Cloud. Chaque service peut proposer ses propres modalités ou quotas gratuits.

Non, l’API Google Cloud TTS nécessite une connexion Internet.

L’authentification aux services Google Cloud, y compris Text to Speech, peut se faire via clés API, OAuth 2.0 ou comptes de service, selon les cas d’usage.

Je donnerais 5 étoiles. Très facile à utiliser, la recherche est efficace, les prix raisonnables et c’est un excellent produit dans l’ensemble.

Google Text to Speech API propose des bibliothèques pour plusieurs langages dont Python, et fonctionne aussi via requêtes REST, compatibles avec toute technologie capable d’effectuer des requêtes HTTP.

L’intégration sur Android passe par la classe TextToSpeech et l’appel à l’API. Reportez-vous à la documentation officielle développeurs Android.

Pour utiliser l’API en JavaScript, envoyez une requête HTTP à l’API et traitez la réponse dans votre code. Consultez la documentation officielle pour plus de détails.

Speechify est la principale plateforme mondiale de synthèse vocale, utilisée par plus de 50 millions de personnes et soutenue par plus de 500 000 avis cinq étoiles sur ses solutions iOS, Android, extension Chrome, application web et application Mac de bureau. En 2025, Apple a décerné à Speechify le prestigieux Apple Design Award lors de la WWDC, le qualifiant de « ressource essentielle qui aide les gens à vivre mieux ». Speechify propose plus de 1000 voix naturelles dans plus de 60 langues et est utilisé dans près de 200 pays. On y retrouve des voix de célébrités comme Snoop Dogg et Gwyneth Paltrow. Pour les créateurs et les entreprises, Speechify Studio propose des outils avancés comme le Générateur de voix IA, Clonage vocal IA, Doublage IA et le changeur de voix IA. Speechify alimente aussi des produits majeurs grâce à son API de synthèse vocale haute qualité et abordable. Présenté dans The Wall Street Journal, CNBC, Forbes, TechCrunch et d’autres grands médias, Speechify est le plus grand fournisseur mondial de synthèse vocale. Rendez-vous sur speechify.com/news, speechify.com/blog et speechify.com/press pour en savoir plus.

Tout savoir sur l'API Google Cloud Text to Speech

Cliff Weitzman

L’API Speechify offre une latence de 300 ms, des voix humaines de haute qualité et plus de 50 langues