Tutto quello che c'è da sapere sull'API Google Cloud Text to Speech

L'intelligenza artificiale generativa e l'intelligenza artificiale hanno fatto molta strada. La sintesi vocale è un concetto relativamente più vecchio, è in circolazione da un po'. C'è molto da esplorare e categorizzare e lo analizzerò da tutte le angolazioni. Che tu sia un principiante o un esperto, questo dovrebbe portare chiarezza complessiva sull'API Text to Speech di Google.

Bene, prima di immergerci in qualsiasi argomento, è necessario stabilire le regole di base. Definiamo alcuni termini e costruiamo la nostra base in modo da poterci appoggiare saldamente su di essa.

Separiamo qui le due tecnologie; sintesi vocale e API, e qual è il ruolo di Google Cloud.

Nota dell'editore: Cerchi la migliore API per la sintesi vocale? Dai un'occhiata all'API di sintesi vocale di Speechify, ben documentata e facile da usare.

Sintesi Vocale

Ho scritto ampiamente su questo argomento e puoi leggere il mio Cos'è la sintesi vocale blog e anche approfondire la sintesi vocale per avere una solida comprensione di questo argomento. Questi vanno più in profondità e puoi saltarli per ora. Li riassumerò in poche frasi.

La sintesi vocale si basa su una tecnologia chiamata sintesi vocale per convertire le parole in discorsi generati dall'IA. Gli usi per questo sono abbondanti. Dall'aiutare le persone con barriere alla lettura come la dislessia e la cattiva visione a coloro che semplicemente seguono il percorso dell'efficienza.

API

API sta per Application Programming Interface. Funziona semplicemente come un ponte tra due applicazioni. Se stavi sviluppando un'app che aveva contenuti audio e richiedeva funzionalità di sintesi vocale, allora dovresti costruire tu stesso la funzionalità di sintesi vocale, oppure potresti semplicemente connetterti a un'API di sintesi vocale esistente.

Ti concentreresti sulla costruzione della tua app e ti affideresti a un'API di terze parti come ponte, per importare la funzionalità di sintesi vocale per sintetizzare il tuo testo.

API Google Cloud

È qui che entra in gioco Google Cloud. Google ha sviluppato un'API di sintesi vocale robusta e la offre agli sviluppatori in varie strutture tariffarie. Qualsiasi sviluppatore che desideri creare app personalizzate o app web che richiedono funzionalità di sintesi vocale potrebbe semplicemente colmare quel divario utilizzando le funzionalità TTS di Google. Sì, TTS è l'acronimo di text to speech.

Trova il quickstart su Google Cloud Console https://cloud.google.com/. Puoi trovare tutorial, gestire il tuo account di servizio, accedere alle voci wavenet e altro ancora.

Google Cloud stesso è una piattaforma cloud offerta da Google e offre una serie di servizi modulari. Puoi scegliere di utilizzare uno, molti o tutti i suoi servizi. Tutto ciò che dovresti fare è creare chiavi di accesso per l'autenticazione di ciascuna API - il ponte. La maggior parte, se non tutti, i servizi hanno un costo anche se potrebbe esserci una soglia gratuita.

Google ha acquistato DeepMind nel 2014 per la sua tecnologia di sintesi vocale e il lavoro nello sviluppo delle reti neurali. Quindi, se ti imbatti in DeepMind, ora è Google DeepMind e sono tutti uno e lo stesso.

Ora che abbiamo una solida comprensione, immergiamoci a fondo nell'API Google Cloud Text to Speech.

Caratteristiche dell'API Google Text to Speech

Google è un pioniere e leader tecnologico globale, non c'è dubbio su questo. Quando si tratta dell'API TTS, puoi aspettarti di trovare funzionalità di classe mondiale che continuano a evolversi.

Voce ad Alta Fedeltà

Le voci di sintesi vocale di Google sono tra le migliori del settore. Suonano molto umane e con un'intonazione naturale. TTS è nelle sue fasi iniziali e chi riesce meglio a sintetizzare l'audio per farlo sembrare che una persona stia parlando vincerà questa corsa.

Selezione di Voci

Google vanta la più ampia selezione di voci, quindi il tuo progetto non deve suonare come gli altri 1000 là fuori o, peggio ancora, come l'app dei tuoi concorrenti.

Crea la Tua Voce

Questo si avvicina alla tecnologia di clonazione vocale. Puoi creare la tua voce personalizzata registrando te stesso o qualcun altro, con il loro permesso. Puoi quindi utilizzare questo campione per essere la voce che legge ad alta voce tutto il tuo testo.

Voci Neurali

Le voci neurali offrono la migliore qualità tra la vasta selezione di voci. Puoi anche internazionalizzare queste voci per ampliare il tuo pubblico internazionale.

Voci Studio

Le voci studio sono voci di alta gamma e suonano molto professionali, come se fossero state registrate con il metodo tradizionale.

Regolazione della Voce

Scegli una voce e poi regola la velocità, il tono e altro per personalizzare il timbro o una voce.

Quanto costa l'API Google Text to Speech?

Tutto dipende dalla qualità della voce e dalla lunghezza del tuo testo. Più naturale vuoi che sia la voce, più costoso sarà. Tuttavia, costoso è relativo qui. Anche le voci di alta qualità sono relativamente economiche.

Tipo di voce	Gratis al mese	Dopo aver raggiunto l'uso gratuito
Voci Neural2	0 a 1 milione di byte	$16 per un milione di byte
Voci Poliglotta	0 a 1 milione di byte	$16 per un milione di byte
Voci Studio	0 a 100.000 byte	$160 per un milione di byte
Voci Standard	0 a 4 milioni di caratteri	$4 per un milione di caratteri
Voci Wavenet	0 a 1 milione di caratteri	$16 per un milione di caratteri

Qual è la Differenza tra Caratteri e Byte

Come puoi vedere, i prezzi variano significativamente in base alla qualità della voce. La codifica audio e l'elaborazione necessarie per trasformare il testo in parlato variano da livello a livello. Per i livelli inferiori, come le Voci Standard, il prezzo è più basso e viene calcolato in base ai caratteri.

Ciò significa che, se il tuo progetto ha 4 milioni di caratteri, ti costerebbe $16 per convertire quei caratteri in parlato utilizzando i Caratteri Standard.

Le Voci Studio, d'altra parte, richiedono una maggiore potenza di elaborazione e vengono addebitate in base ai byte. In alcune lingue, come il giapponese, ad esempio, un singolo carattere potrebbe essere composto da più byte.

Quindi, per un prezzo più accurato, è importante sapere su quale lingua stai lavorando e avere una comprensione di base della quantità media di byte per ogni carattere e stimarla di conseguenza.

Come Configurare il Progetto API Google Cloud Platform Text to Speech?

Crea un account Google Cloud o accedi a questa pagina
Crea un nuovo progetto e assegnagli un nome appropriato
Aggiungi un metodo di pagamento. Ti verrà addebitato solo ciò che utilizzi.
Quindi scegli il tuo progetto e associarlo a un account di fatturazione.
Attiva l'API Text-to-Speech. Vai alla barra di ricerca dei prodotti e delle risorse situata in alto nella pagina e digita "speech".
Dai risultati visualizzati, scegli l'API Cloud Text-to-Speech
Configura l'autenticazione per il tuo ambiente di sviluppo. Per le istruzioni, vedi Configurare l'autenticazione per Text-to-Speech.

Puoi anche provare Text-to-Speech senza collegarlo al tuo progetto:

Scegli l'opzione PROVA QUESTA API.
Per abilitare l'API Text-to-Speech per l'uso con il tuo progetto, fai clic su ABILITA.

Consulta la Documentazione di Google Cloud per ulteriore aiuto.

Come Disattivare l'API Text to Speech

Per disattivare l'API Text-to-Speech, vai al tuo dashboard di Google Cloud Platform e fai clic sul link "Vai alla panoramica delle API" all'interno del riquadro delle API. Individua l'API Text-to-Speech e poi cliccaci sopra, seguito dalla selezione del pulsante "DISATTIVA API" in cima alla pagina.

Inizia con l'API Google Text to Speech

Ora che hai configurato il tuo progetto, puoi utilizzare la riga di comando per iniziare.

gcloud init

Crea autenticazione locale

gcloud auth application-default login

Ora puoi installare una libreria client. In questo esempio, vedremo Node.js

npm install --save @google-cloud/text-to-speech

L'API Google Cloud Text to Speech Supporta Queste Lingue:

Go
Java
Node.js
C++
C#
PHP
Python
Ruby
TypeScript
Terraform
YAML

Come Funziona l'API di Google Cloud?

Tutto inizia con una semplice chiamata API. Invierai il tuo testo in una chiamata di trascrizione e riceverai un file audio del tuo testo parlato. Con la tua richiesta, puoi fare richieste specifiche. Scegli una voce, una lingua e altro, e l'API di sintesi vocale ti invierà il file audio.

Puoi imparare come installare e utilizzare le librerie client di sintesi vocale qui. I nostri esempi di codice saranno per Node.js. Ma puoi scegliere qualsiasi altra cosa, da Python a PHP. Qualunque cosa ti faccia sentire a tuo agio.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

E questo è tutto. Hai configurato l'API di Google Cloud Text to Speech e inviato la tua prima richiesta per convertire il testo in parlato. Puoi ottenere il file in vari formati; da OGG a MP3.

Ecco Alcuni Modi per Utilizzare l'API di Google Text to Speech

L'API di Google Text-to-Speech (TTS) offre una soluzione versatile per vari casi d'uso in diversi settori. Alcuni casi d'uso comuni includono:

Sintesi Vocale per Utenti Ipovedenti: Implementare TTS nelle applicazioni per convertire il contenuto scritto in parole parlate, rendendo le informazioni digitali accessibili agli utenti ipovedenti.
Sistemi Telefonici Automatizzati: Utilizzare TTS per creare prompt e risposte naturali per sistemi di risposta vocale interattiva nel servizio clienti o nelle hotline informative.
Voiceover per Contenuti Multimediali: Generare voiceover naturali per video, podcast o altri contenuti multimediali per migliorare l'esperienza utente.
Sintesi Vocale per Contenuti Tradotti: Convertire il testo tradotto in parole parlate per facilitare l'apprendimento delle lingue, la comunicazione internazionale o il consumo di contenuti in varie lingue.
Assistenza alla Lettura per Utenti Dislessici: Fornire funzionalità TTS per assistere le persone con dislessia o difficoltà di lettura nel consumo di contenuti scritti.
Navigazione Vocale nelle Applicazioni: Integrare TTS nelle applicazioni di navigazione per fornire indicazioni passo-passo o informazioni basate sulla posizione in modo udibile.
Sintesi Vocale per Contenuti Educativi: Migliorare le esperienze di e-learning convertendo il contenuto testuale educativo in parole parlate, aiutando la comprensione e il coinvolgimento.
Sintesi Vocale per App di Produttività: Integrare TTS in strumenti di produttività, come app per prendere appunti o gestione delle attività, per abilitare feedback parlato o recupero di informazioni.
Voce Naturale per Assistenti Virtuali: Alimentare assistenti vocali con TTS dal suono naturale per migliorare le interazioni con gli utenti e fornire informazioni in modo conversazionale.
Avvisi e Notifiche Sonore: Utilizzare TTS per fornire avvisi udibili, notifiche o aggiornamenti di stato su dispositivi Internet of Things (IoT) per una maggiore consapevolezza dell'utente.

Le Migliori Alternative all'API di Google Cloud TTS

A partire dal mio ultimo aggiornamento di conoscenza nel gennaio 2022, ci sono diverse alternative all'API di Google Text-to-Speech. Tieni presente che la popolarità e le capacità di questi servizi potrebbero essere cambiate da allora. Ecco alcune alternative notevoli:

Speechify Text to Speech API: Siamo entusiasti di annunciare lo sviluppo di un'API di sintesi vocale che offre le voci AI più naturali e amate di Speechify direttamente agli sviluppatori di tutto il mondo. Prenota il tuo posto oggi.
Amazon Polly: Offerto da Amazon Web Services (AWS), Polly fornisce una sintesi vocale naturale in varie lingue e voci. Si integra bene con altri servizi AWS.
Microsoft Azure Speech Service: Azure Speech Service include funzionalità di sintesi vocale e supporta una varietà di applicazioni, tra cui assistenti vocali, sistemi di navigazione e altro ancora.
IBM Watson Text to Speech: IBM Watson offre un servizio di sintesi vocale che consente agli sviluppatori di convertire il testo scritto in voce naturale utilizzando varie voci.
Nuance Communications: Nuance fornisce una gamma di soluzioni di riconoscimento vocale e sintesi vocale per applicazioni in ambito sanitario, automobilistico e di servizio clienti.
CereProc: CereProc è un'azienda di tecnologia di sintesi vocale che offre voci sintetiche di alta qualità per applicazioni come accessibilità, intrattenimento e comunicazione.
iSpeech: iSpeech fornisce servizi di sintesi vocale basati su cloud con supporto per più lingue e voci. È adatto per varie applicazioni, tra cui app mobili e siti web.
ResponsiveVoice: ResponsiveVoice è un'API di sintesi vocale semplice e conveniente che supporta più lingue e può essere utilizzata in varie applicazioni web.
Neospeech: Neospeech offre soluzioni di sintesi vocale con un focus su voci naturali. La loro tecnologia è utilizzata in applicazioni come e-learning e intrattenimento.
ReadSpeaker: ReadSpeaker fornisce soluzioni di sintesi vocale online e offline per diverse applicazioni, tra cui siti web, e-learning e servizi di accessibilità.
Acapelabox: Acapela Group offre un'API di sintesi vocale basata su cloud, Acapelabox, che supporta più lingue e voci per applicazioni in vari settori.

Domande frequenti sull'API Google Text to Speech

Google offre diversi livelli di voci e quasi ogni livello ha un limite gratuito. Ad esempio, le voci standard sono gratuite fino al primo milione di byte. Dopo di che, costa $16 per milione di byte. Quindi sì, può essere gratuita con un numero limitato di caratteri o byte.

Basta creare un account su https://cloud.google.com/text-to-speech/ e seguire i passaggi indicati. Inoltre, ho descritto il processo in dettaglio in questo blog, appena sopra.

Puoi ottenere una chiave API Google Text-to-Speech accedendo al tuo account Google Cloud e poi creando un progetto. Una volta creato il progetto, puoi generare una chiave API.

L'URL per l'API Google Text to Speech è https://cloud.google.com/text-to-speech/

Tecnicamente non esiste un periodo di prova gratuito per Google Cloud. Ci sono diversi servizi all'interno di Google Cloud e ciascun servizio ha i propri termini e livelli gratuiti.

No. L'API Google Cloud Text-to-Speech richiede una connessione internet.

L'autenticazione ai servizi Google Cloud, inclusa l'API Text-to-Speech, può essere effettuata utilizzando chiavi API, OAuth 2.0 o account di servizio. Il metodo di autenticazione appropriato dipende dal caso d'uso e dal tipo di applicazione.

La valuterei 5 stelle. È facile da usare, la funzione di ricerca è ottima ed è quella più utilizzata. I prezzi sono ragionevoli ed è nel complesso un ottimo prodotto.

L'API Google Text-to-Speech offre librerie client per vari linguaggi di programmazione, incluso Python. Supporta anche richieste API RESTful, rendendola compatibile con i linguaggi che possono effettuare richieste HTTP.

Integrare l'API Google Text-to-Speech in un'app Android comporta l'uso della classe TextToSpeech e l'invio di richieste API. Istruzioni dettagliate sono disponibili nella documentazione ufficiale per gli sviluppatori Android.

Per implementare l'API Google Text-to-Speech in un'applicazione JavaScript, puoi effettuare richieste HTTP all'endpoint dell'API. Il processo prevede la costruzione della richiesta API appropriata e la gestione della risposta nel tuo codice JavaScript. Consulta la documentazione ufficiale per i dettagli.

Speechify è la piattaforma di sintesi vocale leader al mondo, scelta da oltre 50 milioni di utenti e sostenuta da più di 500.000 recensioni a cinque stelle delle sue app di sintesi vocale disponibili per iOS, Android, estensione Chrome, web app e app desktop Mac. Nel 2025, Apple ha premiato Speechify con il prestigioso Apple Design Award al WWDC, definendolo “una risorsa essenziale che aiuta le persone a vivere meglio la propria vita”. Speechify offre più di 1.000 voci naturali in oltre 60 lingue ed è utilizzato in quasi 200 paesi. Tra le voci celebri ci sono Snoop Dogg e Gwyneth Paltrow. Per creatori e aziende, Speechify Studio offre strumenti avanzati tra cui l'AI Voice Generator, la clonazione vocale AI, il doppiaggio AI e il cambia voce AI. Speechify alimenta anche prodotti leader con la sua API di sintesi vocale di alta qualità e dal prezzo conveniente text to speech API. Citato su The Wall Street Journal, CNBC, Forbes, TechCrunch e molte altre importanti testate giornalistiche, Speechify è il principale fornitore di sintesi vocale al mondo. Visita speechify.com/news, speechify.com/blog e speechify.com/press per saperne di più.