Alles über die Google Cloud Text-to-Speech API

Generative KI und künstliche Intelligenz haben sich stark weiterentwickelt. Text-to-Speech ist ein relativ älteres Konzept, das es schon eine Weile gibt. Es gibt viel zu entdecken und zu kategorisieren, und ich werde es aufschlüsseln und aus allen Blickwinkeln betrachten. Egal, ob Sie Anfänger oder Profi sind, dies sollte Ihnen einen umfassenden Überblick über die Google Text-to-Speech API verschaffen.

Bevor wir in ein Thema eintauchen, müssen wir die Grundregeln festlegen. Lassen Sie uns einige Begriffe definieren und unser Fundament aufbauen, damit wir fest darauf stehen können.

Lassen Sie uns die beiden Technologien hier trennen: Text-to-Speech und APIs, und welche Rolle Google Cloud spielt.

Hinweis des Redakteurs: Suchen Sie nach der führenden Text-to-Speech API? Schauen Sie sich die gut dokumentierte und einfach zu bedienende Text-to-Speech API von Speechify an.

Text-to-Speech

Ich habe ausführlich zu diesem Thema geschrieben und Sie können meinen Was ist Text-to-Speech Blog lesen und sich auch über Sprachsynthese informieren, um ein solides Verständnis für dieses Thema zu bekommen. Diese gehen tiefer ins Detail und Sie können sie vorerst überspringen. Ich werde sie in ein paar Sätzen zusammenfassen.

Text-to-Speech basiert auf einer Technologie namens Sprachsynthese, um Wörter in KI-generierte Sprache umzuwandeln. Die Anwendungsfälle dafür sind zahlreich. Von der Unterstützung von Menschen mit Leseschwierigkeiten wie Legasthenie und Sehschwäche bis hin zu denen, die einfach die Effizienz steigern möchten.

API

API steht für Application Programming Interface. Es fungiert einfach als Brücke zwischen zwei Anwendungen. Wenn Sie eine App entwickeln, die Audioinhalte hat und Text-to-Speech-Funktionalität erfordert, müssten Sie die Text-to-Speech-Funktionalität selbst entwickeln oder einfach eine bestehende Text-to-Speech API nutzen.

Sie würden sich auf den Aufbau Ihrer App konzentrieren und auf eine Drittanbieter-API als Brücke verlassen, um die Text-to-Speech-Funktionalität zu importieren, um Ihren Text zu synthetisieren.

Google Cloud API

Hier kommt Google Cloud ins Spiel. Google hat eine robuste Text-to-Speech API entwickelt und bietet sie Entwicklern in verschiedenen Gebührenstrukturen an. Jeder Entwickler, der benutzerdefinierte Apps oder Web-Apps erstellen möchte, die Text-to-Speech-Funktionalität erfordern, könnte diese Lücke einfach mit den TTS-Funktionen von Google schließen. Ja, TTS steht für Text-to-Speech.

Finden Sie den Schnellstart in der Google Cloud Console https://cloud.google.com/. Sie können Tutorials finden, Ihr Servicekonto verwalten, auf Wavenet-Stimmen zugreifen und mehr.

Google Cloud selbst ist eine von Google angebotene Cloud-Plattform und bietet eine Vielzahl modularer Dienste. Sie können wählen, ob Sie einen, viele oder alle Dienste nutzen möchten. Alles, was Sie tun müssen, ist, Zugangsschlüssel für die Authentifizierung jeder API zu erstellen - die Brücke. Die meisten, wenn nicht alle, Dienste sind kostenpflichtig, obwohl es möglicherweise eine kostenlose Schwelle gibt.

Google kaufte 2014 DeepMind für seine Text-to-Speech-Technologie und die Arbeit an der Entwicklung neuronaler Netzwerke. Wenn Sie also auf DeepMind stoßen, ist es jetzt Google DeepMind und sie sind alle ein und dasselbe.

Jetzt, da wir ein solides Verständnis haben, lassen Sie uns tief in die Google Cloud Text-to-Speech API eintauchen.

Google Text-to-Speech API Funktionen

Google ist ein globaler Technologieführer, daran besteht kein Zweifel. Wenn es um die TTS API geht, können Sie erstklassige Funktionen erwarten, die sich ständig weiterentwickeln.

Hochwertige Sprachqualität

Die Text-to-Speech-Stimmen von Google gehören zu den besten der Branche. Sie klingen sehr menschlich und haben eine natürlich klingende Intonation. TTS befindet sich in seinen frühesten Stadien und diejenigen, die am besten Audio synthetisieren können, um wie ein sprechender Mensch zu klingen, werden dieses Rennen gewinnen.

Auswahl an Stimmen

Google behauptet, die größte Auswahl an Stimmen zu haben, sodass Ihr Projekt nicht wie die anderen 1000 da draußen klingen muss oder schlimmer noch, wie die App Ihrer Konkurrenten.

Erstellen Sie Ihre eigene Stimme

Dies grenzt an Stimmenklon-Technologie. Sie können Ihre eigene Stimme erstellen, indem Sie sich selbst oder jemand anderen, mit deren Erlaubnis, aufnehmen. Sie können dann dieses Sample verwenden, um alle Ihre Texte laut vorlesen zu lassen.

Neuronale Stimmen

Neuronale Stimmen bieten die beste Qualität unter der großen Auswahl an Stimmen. Sie können diese Stimmen auch internationalisieren, um Ihr internationales Publikum zu vergrößern.

Studio-Stimmen

Studio-Stimmen sind Spitzenstimmen und klingen sehr professionell, als wären sie auf traditionelle Weise aufgenommen worden.

Stimmenanpassung

Wählen Sie eine Stimme und passen Sie dann die Geschwindigkeit, die Tonhöhe und mehr an, um den Ton oder die Stimme zu individualisieren.

Wie viel kostet die Google Text-to-Speech API?

Es hängt alles von der Sprachqualität und der Länge Ihres Textes ab. Je natürlicher die Stimme klingen soll, desto teurer wird es. Allerdings ist teuer hier relativ. Selbst die hochwertigen Stimmen sind relativ günstig.

Stimmtyp	Frei pro Monat	Nach Erreichen der freien Nutzung
Neural2-Stimmen	0 bis 1 Million Bytes	16 $ pro eine Million Bytes
Polyglot-Stimmen	0 bis 1 Million Bytes	16 $ pro eine Million Bytes
Studio-Stimmen	0 bis 100.000 Bytes	160 $ pro eine Million Bytes
Standard-Stimmen	0 bis 4 Millionen Zeichen	4 $ pro eine Million Zeichen
Wavenet-Stimmen	0 bis 1 Million Zeichen	16 $ pro eine Million Zeichen

Was ist der Unterschied zwischen Zeichen & Bytes?

Wie Sie sehen können, variiert die Preisgestaltung erheblich je nach Qualität der Stimme. Die Audio-Codierung und Verarbeitung, die erforderlich ist, um Text in Sprache umzuwandeln, variiert von Stufe zu Stufe. Bei den niedrigeren, wie den Standard-Stimmen, ist die Preisgestaltung niedriger und wird nach Zeichen berechnet.

Das bedeutet, wenn Ihr Projekt 4 Millionen Zeichen hat, würde es 16 $ kosten, diese Zeichen mit den Standard-Zeichen in Sprache umzuwandeln.

Die Studio-Stimmen hingegen erfordern mehr Rechenleistung und werden auf Basis von Bytes berechnet. In einigen Sprachen, wie zum Beispiel Japanisch, könnte ein einzelnes Zeichen aus mehreren Bytes bestehen.

Für die genaueste Preisgestaltung ist es wichtig zu wissen, in welcher Sprache Sie arbeiten, und ein grundlegendes Verständnis der durchschnittlichen Anzahl von Bytes pro Zeichen zu haben und dies entsprechend zu schätzen.

Wie richtet man das Google Cloud Platform Text-to-Speech API-Projekt ein?

Erstellen Sie ein Google Cloud-Konto oder melden Sie sich auf dieser Seite an
Erstellen Sie ein neues Projekt und benennen Sie es entsprechend
Fügen Sie eine Zahlungsmethode hinzu. Sie werden nur für das belastet, was Sie nutzen.
Wählen Sie dann Ihr Projekt aus und verknüpfen Sie es mit einem Abrechnungskonto.
Aktivieren Sie die Text-to-Speech API. Gehen Sie zur Suchleiste für Produkte und Ressourcen oben auf der Seite und geben Sie "speech" ein.
Wählen Sie aus den angezeigten Ergebnissen die Cloud Text-to-Speech API
Richten Sie die Authentifizierung für Ihre Entwicklungsumgebung ein. Für Anweisungen siehe Authentifizierung für Text-to-Speech einrichten.

Sie können Text-to-Speech auch ausprobieren, ohne es mit Ihrem Projekt zu verknüpfen:

Wählen Sie die Option TRY THIS API.
Um die Text-to-Speech API für die Nutzung mit Ihrem Projekt zu aktivieren, klicken Sie auf ENABLE.

Schauen Sie sich die Google Cloud-Dokumentation für weitere Hilfe an.

Wie deaktiviert man die Text-to-Speech API?

Um die Text-to-Speech API zu deaktivieren, gehen Sie zu Ihrem Google Cloud Platform-Dashboard und klicken Sie auf den Link "Gehe zu API-Übersicht" im API-Feld. Suchen Sie die Text-to-Speech API und klicken Sie darauf, gefolgt von der Auswahl der Schaltfläche "API DEAKTIVIEREN" oben auf der Seite.

Erste Schritte mit der Google Text-to-Speech API

Jetzt, da Ihr Projekt eingerichtet ist, können Sie die Befehlszeile verwenden, um loszulegen.

gcloud init

Lokale Authentifizierung erstellen

gcloud auth application-default login

Jetzt können Sie eine Client-Bibliothek installieren. In diesem Beispiel betrachten wir Node.js

npm install --save @google-cloud/text-to-speech

Die Google Cloud Text-to-Speech API unterstützt diese Sprachen:

Go
Java
Node.js
C++
C#
PHP
Python
Ruby
TypeScript
Terraform
YAML

Wie funktioniert die Google Cloud API?

Alles beginnt mit einem einfachen API-Aufruf. Sie senden Ihren Text in einem Transkriptaufruf und erhalten dann eine Audiodatei Ihres gesprochenen Textes. Mit Ihrer Anfrage können Sie spezifische Anforderungen stellen. Wählen Sie eine Stimme, eine Sprache und mehr, und die Text-to-Speech-API sendet Ihnen die Audiodatei zurück.

Sie können lernen, wie Sie die Text-to-Speech-Clientbibliotheken installieren und verwenden hier. Unsere Codebeispiele sind für Node.js. Aber Sie können alles andere von Python bis PHP wählen. Was auch immer Ihnen am besten liegt.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

Und das war's. Sie haben die Google Cloud Text-to-Speech-API eingerichtet und Ihre erste Anfrage gesendet, um Text in Sprache umzuwandeln. Sie können die Datei in verschiedenen Formaten zurückerhalten; von OGG bis MP3.

Hier sind einige Möglichkeiten, die Google Text-to-Speech-API zu nutzen

Die Google Text-to-Speech (TTS) API bietet eine vielseitige Lösung für verschiedene Anwendungsfälle in unterschiedlichen Branchen. Einige gängige Anwendungsfälle sind:

Text-to-Speech für sehbehinderte Nutzer: Implementierung von TTS in Anwendungen, um schriftliche Inhalte in gesprochene Worte umzuwandeln und digitale Informationen für sehbehinderte Nutzer zugänglich zu machen.
Automatisierte Telefonsysteme: Nutzung von TTS, um natürlich klingende Ansagen und Antworten für interaktive Sprachdialogsysteme im Kundenservice oder bei Informationshotlines zu erstellen.
Voiceovers für Medieninhalte: Erzeugung von natürlich klingenden Voiceovers für Videos, Podcasts oder andere multimediale Inhalte zur Verbesserung der Benutzererfahrung.
Text-to-Speech für übersetzte Inhalte: Umwandlung von übersetztem Text in gesprochene Worte, um das Sprachenlernen, die internationale Kommunikation oder den Konsum von Inhalten in verschiedenen Sprachen zu erleichtern.
Lesehilfe für dyslexische Nutzer: Bereitstellung von TTS-Funktionalität, um Personen mit Dyslexie oder Leseschwierigkeiten beim Konsum von schriftlichen Inhalten zu unterstützen.
Sprachnavigation in Anwendungen: Integration von TTS in Navigationsanwendungen, um Wegbeschreibungen oder standortbasierte Informationen hörbar bereitzustellen.
Text-to-Speech für Bildungsinhalte: Verbesserung von E-Learning-Erfahrungen durch Umwandlung von Bildungstexten in gesprochene Worte, um das Verständnis und die Beteiligung zu fördern.
Sprachsynthese für Produktivitäts-Apps: Integration von TTS in Produktivitätstools wie Notiz- oder Aufgabenverwaltungs-Apps, um gesprochene Rückmeldungen oder Informationsabrufe zu ermöglichen.
Natürliche Stimme für virtuelle Assistenten: Einsatz von natürlich klingendem TTS, um Sprachassistenten zu betreiben und die Benutzerinteraktionen zu verbessern sowie Informationen auf eine konversationelle Weise bereitzustellen.
Auditive Warnungen und Benachrichtigungen: Verwendung von TTS, um hörbare Warnungen, Benachrichtigungen oder Statusaktualisierungen auf Internet-of-Things (IoT)-Geräten für eine verbesserte Benutzerwahrnehmung bereitzustellen.

Beste Alternativen zur Google Cloud TTS API

Stand meines letzten Wissensstandes im Januar 2022 gibt es mehrere Alternativen zur Google Text-to-Speech API. Beachten Sie, dass sich die Beliebtheit und Fähigkeiten dieser Dienste seitdem geändert haben können. Hier sind einige bemerkenswerte Alternativen:

Speechify Text to Speech API: Wir freuen uns, die Entwicklung einer Text-to-Speech-API vorzustellen, die die natürlichsten und beliebtesten KI-Stimmen von Speechify direkt Entwicklern weltweit zur Verfügung stellt. Sichern Sie sich noch heute Ihren Platz.
Amazon Polly: Angeboten von Amazon Web Services (AWS), bietet Polly eine natürlich klingende Sprachsynthese in verschiedenen Sprachen und Stimmen. Es integriert sich gut mit anderen AWS-Diensten.
Microsoft Azure Speech Service: Der Azure Speech Service umfasst Text-to-Speech-Funktionen und unterstützt eine Vielzahl von Anwendungen, darunter Sprachassistenten, Navigationssysteme und mehr.
IBM Watson Text to Speech: IBM Watson bietet einen Text-to-Speech-Dienst, der es Entwicklern ermöglicht, geschriebenen Text in natürlich klingende Sprache mit verschiedenen Stimmen umzuwandeln.
Nuance Communications: Nuance bietet eine Reihe von Sprach- und Spracherkennungslösungen, einschließlich Text-to-Speech, für Anwendungen im Gesundheitswesen, Automobilbereich und Kundenservice.
CereProc: CereProc ist ein Unternehmen für Text-to-Speech-Technologie, das hochwertige synthetische Stimmen für Anwendungen wie Barrierefreiheit, Unterhaltung und Kommunikation anbietet.
iSpeech: iSpeech bietet cloudbasierte Text-to-Speech-Dienste mit Unterstützung für mehrere Sprachen und Stimmen. Es eignet sich für verschiedene Anwendungen, einschließlich mobiler Apps und Websites.
ResponsiveVoice: ResponsiveVoice ist eine einfache und kostengünstige Text-to-Speech-API, die mehrere Sprachen unterstützt und in verschiedenen webbasierten Anwendungen verwendet werden kann.
Neospeech: Neospeech bietet Text-to-Speech-Lösungen mit Fokus auf natürlich klingende Stimmen. Ihre Technologie wird in Anwendungen wie E-Learning und Unterhaltung eingesetzt.
ReadSpeaker: ReadSpeaker bietet Online- und Offline-Text-to-Speech-Lösungen für diverse Anwendungen, einschließlich Websites, E-Learning und Barrierefreiheitsdienste.
Acapelabox: Die Acapela Group bietet eine cloudbasierte Text-to-Speech-API, Acapelabox, die mehrere Sprachen und Stimmen für Anwendungen in verschiedenen Branchen unterstützt.

Google Text to Speech API FAQs

Google bietet mehrere Stufen von Stimmen an, und fast jede Stufe hat ein kostenloses Limit. Zum Beispiel sind die Standardstimmen bis zu den ersten Millionen Bytes kostenlos. Danach kostet es 16 $ pro Million Bytes. Ja, es kann also mit begrenzten Zeichen oder Bytes kostenlos sein.

Erstellen Sie einfach ein Konto unter https://cloud.google.com/text-to-speech/ und folgen Sie den dortigen Schritten. Außerdem habe ich den Prozess im Detail in diesem Blog oben beschrieben.

Sie können einen Google Text-to-Speech-API-Schlüssel erhalten, indem Sie sich in Ihr Google Cloud-Konto einloggen und dann ein Projekt erstellen. Sobald Sie Ihr Projekt erstellt haben, können Sie einen API-Schlüssel generieren.

Die URL für die Google Text-to-Speech-API ist https://cloud.google.com/text-to-speech/

Es gibt technisch gesehen keine kostenlose Testphase für Google Cloud. Es gibt mehrere Dienste innerhalb von Google Cloud und jeder Dienst hat seine eigenen Bedingungen und kostenlosen Stufen.

Nein. Die Google Cloud Text-to-Speech-API erfordert eine Internetverbindung.

Die Authentifizierung für Google Cloud-Dienste, einschließlich der Text-to-Speech-API, kann mit API-Schlüsseln, OAuth 2.0 oder Dienstkonten erfolgen. Die geeignete Authentifizierungsmethode hängt vom Anwendungsfall und der Art der Anwendung ab.

Ich würde es mit 5 Sternen bewerten. Es ist einfach zu bedienen, die Suchfunktion ist großartig und wird am meisten genutzt. Die Preisgestaltung ist angemessen und es ist insgesamt ein großartiges Produkt.

Die Google Text-to-Speech API bietet Client-Bibliotheken für verschiedene Programmiersprachen, einschließlich Python. Sie unterstützt auch RESTful API-Anfragen, was sie mit Sprachen kompatibel macht, die HTTP-Anfragen stellen können.

Die Integration der Google Text-to-Speech API in eine Android-App erfordert die Verwendung der TextToSpeech-Klasse und das Stellen von API-Anfragen. Detaillierte Anweisungen finden Sie in der offiziellen Dokumentation für Android-Entwickler.

Um die Google Text-to-Speech API in einer JavaScript-Anwendung zu implementieren, können Sie HTTP-Anfragen an den API-Endpunkt stellen. Der Prozess umfasst das Erstellen der entsprechenden API-Anfrage und das Verarbeiten der Antwort in Ihrem JavaScript-Code. Einzelheiten finden Sie in der offiziellen Dokumentation.

Speechify ist die weltweit führende Text-vorlesen-lassen-Plattform, der mehr als 50 Millionen Nutzer vertrauen und die von über 500.000 Fünf-Sterne-Bewertungen für die Text-vorlesen-lassen-iOS-, Android-, Chrome-Erweiterung-, Web-App- und Mac-Desktop-Anwendungen unterstützt wird. 2025 verlieh Apple Speechify den renommierten Apple Design Award auf der WWDC und bezeichnete es als „eine wichtige Ressource, die Menschen hilft, ihren Alltag zu meistern“. Speechify bietet über 1.000 natürlich klingende Stimmen in mehr als 60 Sprachen und wird in fast 200 Ländern genutzt. Zu den prominenten Stimmen gehören Snoop Dogg und Gwyneth Paltrow. Für Kreative und Unternehmen bietet Speechify Studio fortschrittliche Tools wie den KI-Stimmengenerator, KI-Stimmenklonen, KI-Dubbing und den KI-Stimmenveränderer. Mit seiner hochwertigen und zugleich erschwinglichen Text-vorlesen-lassen-API ermöglicht Speechify zudem branchenführende Produkte. In The Wall Street Journal, CNBC, Forbes, TechCrunch und anderen namhaften Medien vorgestellt, ist Speechify der weltweit führende Anbieter für Text vorlesen lassen. Besuchen Sie speechify.com/news, speechify.com/blog und speechify.com/press, um mehr zu erfahren.