Wszystko, co musisz wiedzieć o Google Cloud Text to Speech API

Generatywna AI i sztuczna inteligencja przeszły długą drogę. Technologia zamiany tekstu na mowę to stosunkowo starszy koncept, który istnieje już od jakiegoś czasu. Jest tu wiele do omówienia i sklasyfikowania, a ja postaram się to rozłożyć na czynniki pierwsze i spojrzeć na to z różnych perspektyw. Niezależnie od tego, czy jesteś początkującym, czy profesjonalistą, to powinno przynieść ogólną jasność na temat Google Text to Speech API.

Zanim zagłębimy się w jakikolwiek temat, musimy ustalić podstawowe zasady. Zdefiniujmy kilka terminów i zbudujmy naszą bazę, abyśmy mogli na niej pewnie się oprzeć.

Oddzielmy tutaj dwie technologie: zamianę tekstu na mowę i API, oraz jaka jest rola Google Cloud.

Uwaga redaktora: Szukasz wiodącego API do zamiany tekstu na mowę? Sprawdź dobrze udokumentowane i łatwe w użyciu API do zamiany tekstu na mowę.

Zamiana tekstu na mowę

Napisałem obszernie na ten temat i możesz przeczytać mój Co to jest zamiana tekstu na mowę blog oraz zapoznać się z syntezą mowy, aby lepiej zrozumieć ten temat. Te artykuły są bardziej szczegółowe i możesz je na razie pominąć. Podsumuję je w kilku zdaniach.

Zamiana tekstu na mowę opiera się na technologii zwanej syntezą mowy, która przekształca słowa w mowę generowaną przez AI. Zastosowania tej technologii są liczne. Od pomocy osobom z barierami w czytaniu, takimi jak dysleksja i słaby wzrok, po tych, którzy po prostu dążą do większej efektywności.

API

API to skrót od Application Programming Interface. Działa po prostu jako most między dwiema aplikacjami. Jeśli tworzyłbyś aplikację z treściami audio i potrzebowałbyś funkcji zamiany tekstu na mowę, musiałbyś samodzielnie zbudować tę funkcję, lub po prostu połączyć się z istniejącym API do zamiany tekstu na mowę.

Skupiłbyś się na budowaniu swojej aplikacji i polegał na zewnętrznym API jako moście, aby zaimportować funkcję zamiany tekstu na mowę do syntezowania swojego tekstu.

Google Cloud API

Tutaj wkracza Google Cloud. Google opracowało solidne API do zamiany tekstu na mowę i oferuje je deweloperom w różnych strukturach opłat. Każdy deweloper, który chce tworzyć niestandardowe aplikacje lub aplikacje internetowe wymagające funkcji zamiany tekstu na mowę, może po prostu wypełnić tę lukę, korzystając z funkcji TTS Google. Tak, TTS to skrót od zamiany tekstu na mowę.

Znajdź szybki start w Google Cloud Console https://cloud.google.com/. Możesz znaleźć samouczki, zarządzać swoim kontem usługowym, uzyskać dostęp do głosów wavenet i więcej.

Google Cloud to platforma chmurowa oferowana przez Google, która oferuje szereg modułowych usług. Możesz wybrać korzystanie z jednej, wielu lub wszystkich jej usług. Wszystko, co musisz zrobić, to utworzyć klucze dostępu do uwierzytelniania każdego API - mostu. Większość, jeśli nie wszystkie, usługi są płatne, choć może istnieć darmowy próg.

Google kupiło DeepMind w 2014 roku dla jego technologii zamiany tekstu na mowę i pracy nad rozwojem sieci neuronowych. Więc jeśli natkniesz się na DeepMind, to teraz Google DeepMind i są one jednym i tym samym.

Teraz, gdy mamy solidne zrozumienie, zanurzmy się głęboko w Google Cloud Text to Speech API.

Funkcje Google Text to Speech API

Google jest globalnym pionierem i liderem technologii, nie ma co do tego wątpliwości. Jeśli chodzi o API TTS, możesz spodziewać się światowej klasy funkcji, które ciągle się rozwijają.

Wysoka jakość dźwięku

Głosy Google do zamiany tekstu na mowę są jednymi z najlepszych w branży. Brzmią bardzo ludzko i mają naturalne brzmienie intonacji. TTS jest w swoich najwcześniejszych etapach, a ci, którzy najlepiej potrafią syntezować dźwięk, aby brzmiał jak ludzka mowa, wygrają ten wyścig.

Wybór głosów

Google twierdzi, że ma najszerszy wybór głosów, więc Twój projekt nie musi brzmieć tak samo jak inne 1000 projektów na rynku, a tym bardziej jak aplikacja Twojego konkurenta.

Stwórz swój własny głos

To graniczy z technologią klonowania głosu. Możesz stworzyć swój własny głos, nagrywając siebie lub kogoś innego, za jego zgodą. Możesz następnie użyć tej próbki jako głosu, który będzie czytał na głos cały Twój tekst.

Głosy neuronowe

Głosy neuronowe oferują najlepszą jakość spośród szerokiego wyboru głosów. Możesz również zmiędzynarodowić te głosy, aby zwiększyć swoją międzynarodową publiczność.

Głosy studyjne

Głosy studyjne to bardziej zaawansowane głosy, które brzmią bardzo profesjonalnie, jakby były nagrane tradycyjną metodą.

Dostrajanie głosu

Wybierz głos, a następnie dostosuj prędkość, ton i inne parametry, aby spersonalizować brzmienie głosu.

Ile kosztuje Google Text to Speech API?

Wszystko sprowadza się do jakości głosu i długości tekstu. Im bardziej naturalnie brzmiący głos chcesz uzyskać, tym droższy będzie. Jednak drogi to pojęcie względne. Nawet głosy wysokiej jakości są stosunkowo niedrogie.

Typ głosu	Bezpłatnie miesięcznie	Po przekroczeniu darmowego limitu
Głosy Neural2	0 do 1 miliona bajtów	16 USD za milion bajtów
Głosy poliglotyczne	0 do 1 miliona bajtów	16 USD za milion bajtów
Głosy studyjne	0 do 100 000 bajtów	160 USD za milion bajtów
Głosy standardowe	0 do 4 milionów znaków	4 USD za milion znaków
Głosy Wavenet	0 do 1 miliona znaków	16 USD za milion znaków

Jaka jest różnica między znakami a bajtami

Jak widać, ceny różnią się znacznie w zależności od jakości głosu. Kodowanie audio i przetwarzanie potrzebne do zamiany tekstu na mowę różni się w zależności od poziomu. Dla niższych, na przykład głosów standardowych, ceny są niższe i liczone są według znaków.

Oznacza to, że jeśli Twój projekt ma 4 miliony znaków, koszt konwersji tych znaków na mowę przy użyciu standardowych znaków wyniesie 16 USD.

Z kolei głosy studyjne wymagają większej mocy przetwarzania i są rozliczane na podstawie bajtów. W niektórych językach, na przykład japońskim, pojedynczy znak może składać się z wielu bajtów.

Dlatego dla najdokładniejszego ustalenia ceny ważne jest, aby wiedzieć, z jakim językiem pracujesz i mieć podstawowe zrozumienie średniej liczby bajtów na znak, aby odpowiednio to oszacować.

Jak skonfigurować projekt Google Cloud Platform Text to Speech API?

Utwórz konto Google Cloud lub zaloguj się na tej stronie
Utwórz nowy projekt i nadaj mu odpowiednią nazwę
Dodaj metodę płatności. Będziesz obciążany tylko za to, co wykorzystasz.
Następnie wybierz swój projekt i powiąż go z kontem rozliczeniowym.
Aktywuj API Text-to-Speech. Przejdź do paska wyszukiwania produktów i zasobów znajdującego się na górze strony i wpisz "speech".
Z wyświetlonych wyników wybierz Cloud Text-to-Speech API
Skonfiguruj uwierzytelnianie dla swojego środowiska deweloperskiego. Instrukcje znajdziesz w sekcji Konfiguracja uwierzytelniania dla Text-to-Speech.

Możesz również wypróbować Text-to-Speech bez łączenia go z projektem:

Wybierz opcję WYPRÓBUJ TO API.
Aby włączyć API Text-to-Speech do użycia z projektem, kliknij WŁĄCZ.

Sprawdź dokumentację Google Cloud, aby uzyskać dalszą pomoc.

Jak wyłączyć API Text to Speech

Aby dezaktywować API Text-to-Speech, przejdź do swojego pulpitu Google Cloud Platform i kliknij link "Przejdź do przeglądu API" w polu API. Zlokalizuj API Text-to-Speech, a następnie kliknij na nie, po czym wybierz przycisk "WYŁĄCZ API" na górze strony.

Rozpocznij pracę z Google Text to Speech API

Teraz, gdy masz skonfigurowany projekt, możesz rozpocząć pracę za pomocą wiersza poleceń.

gcloud init

Utwórz lokalne uwierzytelnianie

gcloud auth application-default login

Teraz możesz zainstalować bibliotekę klienta. W tym przykładzie przyjrzymy się Node.js

npm install --save @google-cloud/text-to-speech

Google Cloud Text to Speech API obsługuje te języki:

Go
Java
Node.js
C++
C#
PHP
Python
Ruby
TypeScript
Terraform
YAML

Jak działa Google Cloud API?

Wszystko zaczyna się od prostego wywołania API. Wysyłasz swój tekst w wywołaniu transkrypcji, a następnie otrzymujesz plik audio z nagranym tekstem. W swoim żądaniu możesz określić konkretne wymagania. Wybierz głos, język i inne opcje, a API zamiany tekstu na mowę odeśle Ci plik audio.

Możesz nauczyć się, jak zainstalować i używać bibliotek klienta zamiany tekstu na mowę tutaj. Nasze przykłady kodu będą dla Node.js. Ale możesz wybrać cokolwiek innego, od Pythona po PHP. Cokolwiek jest dla Ciebie wygodne.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

I to wszystko. Skonfigurowałeś Google Cloud Text to Speech API i wysłałeś swoje pierwsze żądanie, aby zamienić tekst na mowę. Możesz otrzymać plik w różnych formatach; od OGG po MP3.

Kilka sposobów na wykorzystanie Google Text to Speech API

Google Text-to-Speech (TTS) API oferuje wszechstronne rozwiązanie dla różnych zastosowań w różnych branżach. Niektóre powszechne przypadki użycia obejmują:

Zamiana tekstu na mowę dla osób niedowidzących: Wdrażanie TTS w aplikacjach do konwersji treści pisemnych na słowa mówione, co umożliwia dostęp do informacji cyfrowych dla osób niedowidzących.
Zautomatyzowane systemy telefoniczne: Wykorzystanie TTS do tworzenia naturalnie brzmiących komunikatów i odpowiedzi dla systemów interaktywnej odpowiedzi głosowej w obsłudze klienta lub infoliniach informacyjnych.
Lektory do treści multimedialnych: Generowanie naturalnie brzmiących lektorów do filmów, podcastów lub innych treści multimedialnych w celu poprawy doświadczenia użytkownika.
Zamiana tekstu na mowę dla przetłumaczonych treści: Konwersja przetłumaczonego tekstu na słowa mówione w celu ułatwienia nauki języków, międzynarodowej komunikacji lub konsumpcji treści w różnych językach.
Wsparcie w czytaniu dla osób z dysleksją: Zapewnienie funkcji TTS, aby pomóc osobom z dysleksją lub trudnościami w czytaniu w konsumpcji treści pisemnych.
Nawigacja głosowa w aplikacjach: Integracja TTS w aplikacjach nawigacyjnych w celu dostarczania wskazówek krok po kroku lub informacji o lokalizacji w formie dźwiękowej.
Zamiana tekstu na mowę dla treści edukacyjnych: Ulepszanie doświadczeń e-learningowych poprzez konwersję treści edukacyjnych na słowa mówione, wspomagając zrozumienie i zaangażowanie.
Synteza mowy dla aplikacji produktywności: Integracja TTS w narzędziach produktywności, takich jak aplikacje do notatek lub zarządzania zadaniami, aby umożliwić mówione informacje zwrotne lub pobieranie informacji.
Naturalny głos dla wirtualnych asystentów: Zasilanie asystentów głosowych naturalnie brzmiącym TTS w celu poprawy interakcji z użytkownikami i dostarczania informacji w sposób konwersacyjny.
Dźwiękowe alerty i powiadomienia: Wykorzystanie TTS do dostarczania dźwiękowych alertów, powiadomień lub aktualizacji statusu na urządzeniach Internetu Rzeczy (IoT) w celu zwiększenia świadomości użytkownika.

Najlepsze alternatywy dla Google Cloud TTS API

Na dzień mojej ostatniej aktualizacji wiedzy w styczniu 2022 roku istnieje kilka alternatyw dla Google Text-to-Speech API. Pamiętaj, że popularność i możliwości tych usług mogły się od tego czasu zmienić. Oto kilka godnych uwagi alternatyw:

Speechify Text to Speech API: Z radością ogłaszamy rozwój API do zamiany tekstu na mowę, które dostarcza najbardziej naturalne i lubiane głosy AI Speechify bezpośrednio do programistów na całym świecie. Zarezerwuj miejsce już dziś.
Amazon Polly: Oferowane przez Amazon Web Services (AWS), Polly zapewnia naturalnie brzmiącą syntezę mowy w różnych językach i głosach. Dobrze integruje się z innymi usługami AWS.
Microsoft Azure Speech Service: Azure Speech Service obejmuje funkcje zamiany tekstu na mowę i wspiera różnorodne aplikacje, w tym asystentów głosowych, systemy nawigacyjne i inne.
IBM Watson Text to Speech: IBM Watson oferuje usługę zamiany tekstu na mowę, która pozwala programistom konwertować tekst pisany na naturalnie brzmiącą mowę przy użyciu różnych głosów.
Nuance Communications: Nuance dostarcza szereg rozwiązań do rozpoznawania mowy i głosu, w tym zamianę tekstu na mowę, dla aplikacji w opiece zdrowotnej, motoryzacji i obsłudze klienta.
CereProc: CereProc to firma technologiczna zajmująca się zamianą tekstu na mowę, oferująca wysokiej jakości syntetyczne głosy do zastosowań takich jak dostępność, rozrywka i komunikacja.
iSpeech: iSpeech oferuje usługi zamiany tekstu na mowę w chmurze z obsługą wielu języków i głosów. Jest odpowiednia do różnych zastosowań, w tym aplikacji mobilnych i stron internetowych.
ResponsiveVoice: ResponsiveVoice to proste i przystępne cenowo API do zamiany tekstu na mowę, które obsługuje wiele języków i może być używane w różnych aplikacjach internetowych.
Neospeech: Neospeech oferuje rozwiązania do zamiany tekstu na mowę z naciskiem na naturalnie brzmiące głosy. Ich technologia jest wykorzystywana w aplikacjach takich jak e-learning i rozrywka.
ReadSpeaker: ReadSpeaker dostarcza rozwiązania do zamiany tekstu na mowę online i offline dla różnych zastosowań, w tym stron internetowych, e-learningu i usług dostępności.
Acapelabox: Acapela Group oferuje oparte na chmurze API do zamiany tekstu na mowę, Acapelabox, które obsługuje wiele języków i głosów dla aplikacji w różnych branżach.

Najczęściej zadawane pytania o Google Text to Speech API

Google oferuje różne poziomy głosów i prawie każdy poziom ma darmowy limit. Na przykład, standardowe głosy są darmowe do pierwszego miliona bajtów. Po przekroczeniu tego limitu koszt wynosi 16 USD za milion bajtów. Tak więc, może być darmowe przy ograniczonej liczbie znaków lub bajtów.

Wystarczy założyć konto na https://cloud.google.com/text-to-speech/ i postępować zgodnie z tamtejszymi instrukcjami. Szczegółowy proces opisałem również w tym blogu, powyżej.

Możesz uzyskać klucz API Google Text-to-Speech, logując się na swoje konto Google Cloud, a następnie tworząc projekt. Po utworzeniu projektu możesz wygenerować klucz API.

URL dla Google Text to Speech API to https://cloud.google.com/text-to-speech/

Technicznie rzecz biorąc, nie ma darmowego okresu próbnego dla Google Cloud. Istnieje wiele usług w ramach Google Cloud i każda z nich ma własne warunki i darmowe poziomy.

Nie. Google Cloud Text to Speech API wymaga połączenia z internetem.

Uwierzytelnianie do usług Google Cloud, w tym Text-to-Speech API, można przeprowadzić za pomocą kluczy API, OAuth 2.0 lub kont usługowych. Odpowiednia metoda uwierzytelniania zależy od przypadku użycia i rodzaju aplikacji.

Oceniłbym je na 5 gwiazdek. Jest łatwe w użyciu, funkcja wyszukiwania jest świetna i najczęściej używana. Ceny są przyzwoite, a produkt ogólnie jest świetny.

Google Text-to-Speech API udostępnia biblioteki klienckie dla różnych języków programowania, w tym Pythona. Obsługuje również żądania RESTful API, co czyni go kompatybilnym z językami, które mogą wykonywać żądania HTTP.

Integracja Google Text-to-Speech API z aplikacją na Androida polega na użyciu klasy TextToSpeech i wykonywaniu żądań API. Szczegółowe instrukcje można znaleźć w oficjalnej dokumentacji dla deweloperów Androida.

Aby zaimplementować Google Text-to-Speech API w aplikacji JavaScript, można wykonywać żądania HTTP do punktu końcowego API. Proces ten obejmuje skonstruowanie odpowiedniego żądania API i obsługę odpowiedzi w kodzie JavaScript. Szczegóły można znaleźć w oficjalnej dokumentacji.

Speechify to wiodąca na świecie platforma tekstu na mowę, zaufana przez ponad 50 milionów użytkowników, z ponad 500 000 recenzji na 5 gwiazdek w aplikacjach tekstu na mowę na iOS, Androida, rozszerzenie Chrome, aplikację webową oraz aplikację desktopową na Maca. W 2025 roku Apple przyznało Speechify prestiżową Nagrodę Apple Design podczas WWDC, nazywając to rozwiązanie „kluczowym zasobem, który pomaga ludziom w codziennym życiu”. Speechify oferuje ponad 1 000 naturalnych głosów w ponad 60 językach i jest używane w niemal 200 krajach. Wśród znanych głosów znajdują się Snoop Dogg i Gwyneth Paltrow. Dla twórców i firm Speechify Studio zapewnia zaawansowane narzędzia, w tym Generator Głosu AI, Klonowanie głosu AI, AI Dubbing oraz Zmieniacz głosu AI. Speechify dostarcza także wysokiej jakości i przystępne cenowo API tekstu na mowę dla czołowych produktów na świecie. O Speechify pisano w The Wall Street Journal, CNBC, Forbes, TechCrunch i innych najważniejszych mediach – Speechify to największy dostawca tekstu na mowę na świecie. Odwiedź speechify.com/news, speechify.com/blog oraz speechify.com/press, aby dowiedzieć się więcej.