Vše, co potřebujete vědět o Google Cloud Text to Speech API

Generativní AI a umělá inteligence ušly dlouhou cestu. Převod textu na řeč je relativně starší koncept, který je tu už nějakou dobu. Je toho hodně k prozkoumání a kategorizaci, a já to rozdělím a podívám se na to ze všech úhlů. Ať už jste začátečník nebo profesionál, mělo by vám to přinést celkovou jasnost ohledně Google Text to Speech API.

Než se ponoříme do jakéhokoli tématu, je nutné stanovit základní pravidla. Definujme si několik pojmů a vytvořme si základ, na kterém můžeme pevně stát.

Oddělme zde dvě technologie; převod textu na řeč a API, a jakou roli hraje Google Cloud.

Poznámka redakce: Hledáte nejlepší API pro převod textu na řeč? Podívejte se na dobře zdokumentované a snadno použitelné API pro převod textu na řeč.

Převod textu na řeč

Na toto téma jsem psal rozsáhle a můžete si přečíst můj Co je převod textu na řeč blog a také si přečíst o syntéze řeči, abyste získali pevný přehled o tomto tématu. Tyto články jdou více do hloubky a můžete je nyní přeskočit. Shrnu je v několika větách.

Převod textu na řeč se spoléhá na technologii zvanou syntéza řeči, která převádí slova na AI generovanou řeč. Případy použití jsou hojné. Od pomoci lidem s čtecími bariérami, jako je dyslexie a špatný zrak, až po ty, kteří chtějí zvýšit efektivitu.

API

API znamená Application Programming Interface. Jednoduše funguje jako most mezi dvěma aplikacemi. Pokud byste vyvíjeli aplikaci, která má audio obsah a vyžaduje funkci převodu textu na řeč, museli byste tuto funkci sami vytvořit, nebo se jednoduše připojit k existujícímu API pro převod textu na řeč.

Soustředili byste se na vývoj své aplikace a spoléhali na API třetí strany jako na most, který importuje funkci převodu textu na řeč pro syntézu vašeho textu.

Google Cloud API

Tady přichází na řadu Google Cloud. Google vyvinul robustní API pro převod textu na řeč a nabízí ho vývojářům v různých cenových strukturách. Jakýkoli vývojář, který chce vytvářet vlastní aplikace nebo webové aplikace, které vyžadují funkci převodu textu na řeč, může jednoduše překlenout tuto mezeru pomocí funkcí TTS od Googlu. Ano, TTS je zkratka pro převod textu na řeč.

Najděte rychlý start na Google Cloud Console https://cloud.google.com/. Můžete najít návody, spravovat svůj servisní účet, přistupovat k hlasům wavenet a další.

Google Cloud sám o sobě je cloudová platforma nabízená Googlem a nabízí řadu modulárních služeb. Můžete si vybrat, zda použijete jednu, více nebo všechny jeho služby. Vše, co byste potřebovali, je vytvořit přístupové klíče pro autentizaci každého API - mostu. Většina, ne-li všechny, služby jsou zpoplatněny, i když může existovat bezplatný limit.

Google koupil DeepMind v roce 2014 pro jeho technologii převodu textu na řeč a práci na vývoji neuronových sítí. Takže pokud narazíte na DeepMind, nyní je to Google DeepMind a jsou to jedno a totéž.

Nyní, když máme pevné porozumění, pojďme se ponořit hluboko do Google Cloud Text to Speech API.

Funkce Google Text to Speech API

Google je globální technologický průkopník a lídr, o tom není pochyb. Pokud jde o TTS API, můžete očekávat světové funkce, které se neustále vyvíjejí.

Vysoká věrnost řeči

Hlasy pro převod textu na řeč od Googlu patří k nejlepším v oboru. Zní velmi lidsky a s přirozenou intonací. TTS je v raných fázích a ti, kteří nejlépe syntetizují zvuk, aby zněl jako lidský hlas, vyhrají tento závod.

Výběr hlasů

Google tvrdí, že má nejširší výběr hlasů, takže váš projekt nemusí znít stejně jako ostatních 1000 tam venku nebo, co hůř, jako aplikace vašich konkurentů.

Vytvořte si vlastní hlas

To hraničí s technologií klonování hlasu. Můžete vytvořit vlastní hlas nahráním sebe nebo někoho jiného, s jejich svolením. Tento vzorek pak můžete použít jako hlas, který bude číst nahlas všechny vaše texty.

Neuronové hlasy

Neurální hlasy nabízejí nejlepší kvalitu mezi širokou škálou hlasů. Můžete také tyto hlasy internacionalizovat a rozšířit tak svou mezinárodní posluchačskou základnu.

Studiové hlasy

Studiové hlasy jsou špičkové a zní velmi profesionálně, jako by byly nahrány tradiční metodou.

Ladění hlasu

Vyberte si hlas a poté upravte rychlost, výšku a další parametry, abyste mohli přizpůsobit tón nebo hlas.

Kolik stojí Google Text to Speech API?

Vše závisí na kvalitě hlasu a délce vašeho textu. Čím přirozeněji chcete, aby váš hlas zněl, tím dražší to bude. Nicméně, drahé je zde relativní pojem. I vysoce kvalitní hlasy jsou relativně levné.

Typ hlasu	Zdarma za měsíc	Po dosažení bezplatného limitu
Neural2 hlasy	0 až 1 milion bajtů	16 USD za jeden milion bajtů
Polyglot hlasy	0 až 1 milion bajtů	16 USD za jeden milion bajtů
Studiové hlasy	0 až 100 000 bajtů	160 USD za jeden milion bajtů
Standardní hlasy	0 až 4 miliony znaků	4 USD za jeden milion znaků
Wavenet hlasy	0 až 1 milion znaků	16 USD za jeden milion znaků

Jaký je rozdíl mezi znaky a bajty

Jak vidíte, ceny se výrazně liší podle kvality hlasu. Kódování zvuku a zpracování potřebné k převodu textu na řeč se liší podle úrovně. U nižších, například Standardních hlasů, je cena nižší a počítá se podle znaků.

To znamená, že pokud váš projekt obsahuje 4 miliony znaků, stálo by vás to 16 USD za převod těchto znaků na řeč pomocí Standardních znaků.

Na druhou stranu, Studiové hlasy vyžadují větší výpočetní výkon a účtují se podle bajtů. V některých jazycích, jako je například japonština, může být jeden znak složen z více bajtů.

Pro co nejpřesnější stanovení ceny je důležité vědět, s jakým jazykem pracujete, a mít základní představu o průměrném počtu bajtů na znak a odhadnout to podle toho.

Jak nastavit projekt Google Cloud Platform Text to Speech API?

Vytvořte si účet Google Cloud nebo se přihlaste na této stránce
Vytvořte nový projekt a pojmenujte ho vhodně
Přidejte platební metodu. Budete účtováni pouze za to, co použijete.
Poté vyberte svůj projekt a přiřaďte ho k platebnímu účtu.
Aktivujte Text-to-Speech API. Přejděte na vyhledávací lištu produktů a zdrojů v horní části stránky a zadejte "speech".
Z vyobrazených výsledků vyberte Cloud Text-to-Speech API
Nastavte ověřování pro vaše vývojové prostředí. Pro pokyny viz Nastavení ověřování pro Text-to-Speech.

Můžete také vyzkoušet Text-to-Speech bez propojení s vaším projektem:

Vyberte možnost VYZKOUŠET TOTO API.
Chcete-li povolit Text-to-Speech API pro použití s vaším projektem, klikněte na POVOLIT.

Podívejte se na dokumentaci Google Cloud pro další pomoc.

Jak deaktivovat Text to Speech API

Chcete-li deaktivovat Text-to-Speech API, přejděte na svůj Google Cloud Platform dashboard a klikněte na odkaz "Přejít na přehled API" v rámci boxu API. Najděte Text-to-Speech API a poté na něj klikněte, následně vyberte tlačítko "DEAKTIVOVAT API" v horní části stránky.

Začněte s Google Text to Speech API

Nyní, když máte svůj projekt nastaven, můžete začít používat příkazový řádek.

gcloud init

Vytvořte místní ověřování

gcloud auth application-default login

Nyní můžete nainstalovat klientskou knihovnu. V tomto příkladu se podíváme na Node.js

npm install --save @google-cloud/text-to-speech

Google Cloud Text to Speech API podporuje tyto jazyky:

Go
Java
Node.js
C++
C#
PHP
Python
Ruby
TypeScript
Terraform
YAML

Jak funguje Google Cloud API?

Vše začíná jednoduchým voláním API. Pošlete svůj text v rámci transkripčního volání a obdržíte zvukový soubor s vaším mluveným textem. S vaší žádostí můžete specifikovat konkrétní požadavky. Vyberte hlas, jazyk a další možnosti, a poté vám API pro převod textu na řeč pošle zpět zvukový soubor.

Můžete se naučit, jak nainstalovat a používat knihovny klientů pro převod textu na řeč zde. Naše ukázky kódu budou pro Node.js. Ale můžete si vybrat cokoliv jiného od Pythonu po PHP. Co vám vyhovuje.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

A to je vše. Nastavili jste Google Cloud Text to Speech API a poslali svou první žádost o převod textu na řeč. Soubor můžete získat zpět v různých formátech; od OGG po MP3.

Několik způsobů, jak využít Google Text to Speech API

Google Text-to-Speech (TTS) API nabízí univerzální řešení pro různé případy použití napříč různými odvětvími. Některé běžné případy použití zahrnují:

Převod textu na řeč pro zrakově postižené uživatele: Implementace TTS v aplikacích pro převod psaného obsahu na mluvené slovo, což zpřístupňuje digitální informace pro zrakově postižené uživatele.
Automatizované telefonní systémy: Využití TTS k vytváření přirozeně znějících výzev a odpovědí pro interaktivní hlasové systémy v zákaznickém servisu nebo informačních linkách.
Hlasové komentáře pro mediální obsah: Generování přirozeně znějících hlasových komentářů pro videa, podcasty nebo jiný multimediální obsah pro zlepšení uživatelského zážitku.
Převod textu na řeč pro přeložený obsah: Převod přeloženého textu na mluvené slovo pro usnadnění výuky jazyků, mezinárodní komunikace nebo konzumace obsahu v různých jazycích.
Čtecí asistence pro dyslektické uživatele: Poskytování funkce TTS pro pomoc jednotlivcům s dyslexií nebo obtížemi při čtení při konzumaci psaného obsahu.
Hlasová navigace v aplikacích: Integrace TTS do navigačních aplikací pro poskytování pokynů krok za krokem nebo informací o poloze zvukově.
Převod textu na řeč pro vzdělávací obsah: Zlepšení e-learningových zkušeností převodem vzdělávacího textového obsahu na mluvené slovo, což pomáhá porozumění a zapojení.
Syntéza řeči pro produktivní aplikace: Integrace TTS do nástrojů pro produktivitu, jako jsou aplikace pro psaní poznámek nebo správu úkolů, pro umožnění mluvené zpětné vazby nebo vyhledávání informací.
Přirozený hlas pro virtuální asistenty: Pohánění hlasových asistentů s přirozeně znějícím TTS pro zlepšení uživatelských interakcí a poskytování informací konverzačním způsobem.
Zvuková upozornění a notifikace: Použití TTS pro poskytování zvukových upozornění, notifikací nebo aktualizací stavu na zařízeních Internetu věcí (IoT) pro zvýšení povědomí uživatelů.

Nejlepší alternativy k Google Cloud TTS API

K lednu 2022 existuje několik alternativ k Google Text-to-Speech API. Mějte na paměti, že popularita a schopnosti těchto služeb se mohly od té doby změnit. Zde jsou některé významné alternativy:

Speechify Text to Speech API: Jsme nadšeni, že můžeme představit vývoj text-to-speech API, které přináší nejpřirozenější a nejoblíbenější AI hlasy Speechify přímo vývojářům po celém světě. Rezervujte si své místo ještě dnes.
Amazon Polly: Nabízeno Amazon Web Services (AWS), Polly poskytuje přirozeně znějící syntézu řeči v různých jazycích a hlasech. Dobře se integruje s dalšími službami AWS.
Microsoft Azure Speech Service: Azure Speech Service zahrnuje schopnosti Text-to-Speech a podporuje různé aplikace, včetně hlasových asistentů, navigačních systémů a dalších.
IBM Watson Text to Speech: IBM Watson nabízí službu Text to Speech, která umožňuje vývojářům převádět psaný text na přirozeně znějící řeč pomocí různých hlasů.
Nuance Communications: Nuance poskytuje řadu řešení pro rozpoznávání řeči a hlasu, včetně text-to-speech, pro aplikace ve zdravotnictví, automobilovém průmyslu a zákaznických službách.
CereProc: CereProc je společnost zabývající se technologií text-to-speech, která nabízí vysoce kvalitní syntetické hlasy pro aplikace jako přístupnost, zábava a komunikace.
iSpeech: iSpeech poskytuje cloudové služby text-to-speech s podporou více jazyků a hlasů. Je vhodný pro různé aplikace, včetně mobilních aplikací a webových stránek.
ResponsiveVoice: ResponsiveVoice je jednoduché a cenově dostupné text-to-speech API, které podporuje více jazyků a lze jej použít v různých webových aplikacích.
Neospeech: Neospeech nabízí text-to-speech řešení se zaměřením na přirozeně znějící hlasy. Jejich technologie se používá v aplikacích jako e-learning a zábava.
ReadSpeaker: ReadSpeaker poskytuje online a offline text-to-speech řešení pro různé aplikace, včetně webových stránek, e-learningu a služeb přístupnosti.
Acapelabox: Acapela Group nabízí cloudové text-to-speech API, Acapelabox, které podporuje více jazyků a hlasů pro aplikace v různých odvětvích.

Často kladené dotazy k Google Text to Speech API

Google má několik úrovní hlasů a téměř každá úroveň má bezplatný limit. Například standardní hlasy jsou zdarma až do prvního milionu bajtů. Poté stojí 16 dolarů za milion bajtů. Takže ano, může být zdarma s omezeným počtem znaků nebo bajtů.

Stačí si vytvořit účet na https://cloud.google.com/text-to-speech/ a postupovat podle tam uvedených kroků. Také jsem podrobně popsal proces v tomto blogu, hned výše.

Klíč Google Text to Speech API můžete získat přihlášením do svého účtu Google Cloud a poté vytvořením projektu. Jakmile vytvoříte svůj projekt, můžete vygenerovat klíč API.

URL adresa pro Google Text to Speech API je https://cloud.google.com/text-to-speech/

Technicky vzato neexistuje žádná bezplatná zkušební doba pro Google Cloud. Existuje několik služeb v rámci Google Cloud a každá služba má své vlastní podmínky a bezplatné úrovně.

Ne. Google Cloud Text to Speech API vyžaduje připojení k internetu.

Autentizace ke službám Google Cloud, včetně Text-to-Speech API, může být provedena pomocí klíčů API, OAuth 2.0 nebo servisních účtů. Vhodná metoda autentizace závisí na konkrétním použití a typu aplikace.

Ohodnotil bych to 5 hvězdičkami. Je snadné na používání, vyhledávací funkce je skvělá a používá se nejvíce. Ceny jsou slušné a celkově je to skvělý produkt.

Google Text-to-Speech API poskytuje klientské knihovny pro různé programovací jazyky, včetně Pythonu. Podporuje také RESTful API požadavky, což ho činí kompatibilním s jazyky, které mohou provádět HTTP požadavky.

Integrace Google Text-to-Speech API do Android aplikace zahrnuje použití třídy TextToSpeech a provádění API požadavků. Podrobné instrukce naleznete v oficiální dokumentaci pro Android vývojáře.

Pro implementaci Google Text-to-Speech API v JavaScript aplikaci můžete provádět HTTP požadavky na API endpoint. Proces zahrnuje sestavení vhodného API požadavku a zpracování odpovědi ve vašem JavaScript kódu. Podrobnosti naleznete v oficiální dokumentaci.