Generativní AI a umělá inteligence urazily velký kus cesty. Převod textu na řeč je poměrně starý koncept, který existuje už dlouho. Má řadu podob i využití, a proto se na něj podíváme z různých úhlů. Ať už jste začátečník, nebo profík, tenhle průvodce vám pomůže lépe porozumět Google Text to Speech API.
Než se do tématu pustíme, musíme si nejdřív vyjasnit základní pojmy. Definujeme si je a postavíme si základy, na kterých budeme dál stavět.
Oddělíme zde dvě technologie: převod textu na řeč a API, a vysvětlíme roli Google Cloudu.
Poznámka redakce: Hledáte špičkové API pro převod textu na řeč? Podívejte se na snadno použitelné a dobře zdokumentované API pro převod textu na řeč od Speechify.
Převod textu na řeč
Psali jsme o tématu rozsáhleji, přečtěte si můj blog Co je převod textu na řeč a také článek o syntéze řeči. Tyto články jdou víc do hloubky a zatím je klidně přeskočte. Tady vše shrnu v několika větách.
Převod textu na řeč využívá technologii jménem syntéza řeči k převedení slov na umělou řeč pomocí AI. Využití je široké: pomáhá osobám s dyslexií, oslabeným zrakem i těm, kdo chtějí větší efektivitu.
API
API znamená Application Programming Interface, česky rozhraní pro programování aplikací. Funguje jako most mezi dvěma aplikacemi. Pokud vyvíjíte aplikaci s audio obsahem a chcete funkci převodu textu na řeč, můžete tuto funkci buď vyvinout sami, nebo ji jednoduše napojit na existující API převodu textu na řeč.
Můžete se tak soustředit na vývoj samotné aplikace a spolehnout se na třetí stranu, která převod textu na řeč zajistí.
Google Cloud API
Tady nastupuje Google Cloud. Google vyvinul robustní TTS API a nabízí ho vývojářům v různých cenových úrovních. Každý vývojář, který chce stavět vlastní (web)aplikace s funkcí převodu textu na řeč, si může práci výrazně usnadnit pomocí Google TTS služeb. TTS znamená text to speech.
Rychlý začátek najdete v Google Cloud Console https://cloud.google.com/. Najdete tam návody, správu svého účtu, wavenet hlasy a další.
Google Cloud je cloudová platforma od Googlu s řadou modulárních služeb. Můžete využít libovolnou z nich, stačí vytvořit přístupové klíče pro ověření API. Většina služeb je zpoplatněná, ale některé mají bezplatné limity.
Google koupil firmu DeepMind v roce 2014 pro její technologii převodu textu na řeč a vývoj neuronových sítí. Pokud tedy narazíte na DeepMind, dnes je to Google DeepMind a jsou součástí Googlu.
Teď když máme pevný základ, pojďme se ponořit do Google Cloud Text to Speech API.
Funkce Google Text to Speech API
Google je světový technologický lídr. U jeho TTS API očekávejte špičkové funkce, které se neustále vyvíjejí.
Vysoká věrnost hlasu
Hlasy v Google převodu textu na řeč patří mezi nejlepší v oboru. Zní velmi přirozeně a s realistickou intonací. TTS je stále v začátcích a ten, kdo dokáže nejvěrněji syntetizovat lidskou řeč, v této oblasti vede.
Výběr hlasů
Google nabízí jeden z nejširších výběrů hlasů na trhu, takže váš projekt může znít unikátně a odlišně od konkurence i ostatních aplikací.
Vytvoření vlastního hlasu
Toto je na pomezí technologie klonování hlasu. Můžete si vytvořit vlastní hlas nahráním vzorku (se souhlasem dané osoby) a poté jej využívat pro převod textu na řeč.
Neuronové hlasy
Neuronové hlasy nabízí nejvyšší kvalitu ze všech dostupných variant. Snadno je lze přizpůsobit lokalizaci a oslovit zahraniční publikum.
Studio hlasy
Studio hlasy zní velmi profesionálně, jako by byly nahrány klasicky ve studiu.
Ladění hlasu
Vyberte hlas a nastavte rychlost, výšku a další parametry podle potřeb vašeho projektu.
Kolik stojí Google Text to Speech API?
Cena závisí na kvalitě hlasu a délce textu. Čím přirozeněji má hlas znít, tím je dražší, ačkoli i nejvyšší kvalita je pořád cenově dostupná.
| Typ hlasu | Zdarma měsíčně | Po překročení limitu zdarma |
| Neural2 hlasy | 0–1 milion bajtů | 16 $ za jeden milion bajtů |
| Polyglot hlasy | 0–1 milion bajtů | 16 $ za milion bajtů |
| Studio hlasy | 0–100 000 bajtů | 160 $ za milion bajtů |
| Standardní hlasy | 0–4 miliony znaků | 4 $ za milion znaků |
| Wavenet hlasy | 0–1 milion znaků | 16 $ za milion znaků |
Jaký je rozdíl mezi znaky a bajty
Vidíte, že cena se liší podle kvality hlasu. Kódování a zpracování audia závisí na cenové úrovni. Například standardní hlasy se počítají po znacích a mají nižší cenu.
To znamená, že pokud má váš projekt 4 miliony znaků, zaplatíte 16 $ za převod těchto znaků na řeč pomocí standardních hlasů.
Studio hlasy však vyžadují vyšší výkon a účtují se podle bajtů. Například v japonštině může být jeden znak složen z více bajtů.
Pro přesné stanovení ceny je proto důležité znát jazyk projektu a průměrný počet bajtů na znak.
Jak nastavit svůj projekt Google Cloud Platform Text to Speech API?
- Vytvořte si účet Google Cloud nebo se přihlaste zde
- Vytvořte nový projekt a pojmenujte ho
- Přidejte platební metodu. Platíte jen za své využití.
- Pak zvolte svůj projekt a propojte ho s platebním účtem.
- Aktivujte Text-to-Speech API. Nahoře do vyhledávání zadejte “speech”.
- Ve výsledcích zvolte Cloud Text-to-Speech API
- Nastavte ověření vývojového prostředí. Návody najdete v dokumentaci (Set up authentication for Text-to-Speech).
API můžete vyzkoušet i bez napojení na projekt:
- Vyberte možnost TRY THIS API.
- Chcete-li API využít ve svých projektech, klikněte na ENABLE.
Podívejte se na dokumentaci Google Cloud pro více informací.
Jak deaktivovat Text to Speech API
Chcete-li vypnout Text-to-Speech API, přejděte na Google Cloud Platform dashboard a klikněte na „Go to APIs overview“ v boxu API. Najděte Text-to-Speech API, klikněte na něj a nahoře stiskněte „DISABLE API“.
Začněte s Google Text to Speech API
Teď když máte projekt nastavený, můžete pro první kroky použít příkazový řádek.
gcloud initVytvořte si místní autentizaci
gcloud auth application-default loginTeď můžete nainstalovat klientskou knihovnu. V příkladu použijeme Node.js
npm install --save @google-cloud/text-to-speechGoogle Cloud Text to Speech API podporuje tyto jazyky:
- Go
- Java
- Node.js
- C++
- C#
- PHP
- Python
- Ruby
- TypeScript
- Terraform
- YAML
Jak funguje Google Cloud API?
Vše začíná jednoduchým API voláním. Pošlete text v dotazu a dostanete zpět audio soubor s přečteným textem. V požadavku můžete zvolit hlas, jazyk a další parametry. Text to Speech API vám zašle výsledek jako zvukový soubor.
Jak instalovat a používat klientské knihovny pro převod textu na řeč se dozvíte zde. V ukázkách je Node.js, ale můžete použít i Python, PHP a další.
const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');
const client = new textToSpeech.TextToSpeechClient();
/**
* TODO(developer): Uncomment the following lines before running the sample.
*/
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';
const request = {
input: {text: text},
voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);A to je vše. Nastavili jste Google Cloud Text to Speech API a poslali svůj první požadavek na převod textu. Výstup může být v několika formátech – od OGG až po MP3.
Možnosti využití Google Text to Speech API
Google Text to Speech (TTS) API je univerzální řešení s mnoha využitími napříč odvětvími. Nejčastější příklady použití zahrnují:
- Převod textu na řeč pro zrakově postižené: Nasazení TTS v aplikacích pro převod textu na mluvenou podobu, což zpřístupní obsah zrakově postiženým uživatelům.
- Automatizované telefonní systémy: TTS pro tvorbu přirozeně znějících hlášek či odpovědí na zákaznických linkách nebo infolinkách.
- Hlasové komentáře k médiím: Generování přirozených voiceoverů pro videa, podcasty či další multimédia.
- Převod textu na řeč pro překlady: Převod přeložených textů na řeč pro studium jazyků nebo mezinárodní komunikaci.
- Čtení pro dyslektiky: Funkce TTS pomáhá lidem s dyslexií nebo potížemi při čtení.
- Navigace hlasem v aplikacích: TTS v navigacích pro hlasové pokyny nebo oznámení.
- Převod textu na řeč pro vzdělávací obsah: Vylepšení e-learningu konverzí výukového textu na řeč.
- Syntéza řeči v produktivitě: Nasazení TTS v nástrojích pro poznámky nebo úkoly pro zpětnou vazbu či hlasové čtení informací.
- Hlas pro virtuální asistenty: Přirozený hlas asistentů pro lepší interakci a komunikaci.
- Zvuková upozornění a notifikace: Zpřístupnění informací pomocí hlasových upozornění na IoT zařízeních.
Nejlepší alternativy k Google Cloud TTS API
K lednu 2022 bylo k dispozici několik alternativ k Google Text to Speech API. Jejich obliba i schopnosti se od té doby mohly změnit. Tady je pár významných alternativ:
- Speechify Text to Speech API: Speechify Text to Speech API nabízí přes 1 000 realistických a emočních AI hlasů ve více než 60 jazycích a dialektech. Zarezervujte si své místo ještě dnes.
- Amazon Polly: Amazon Polly (AWS) nabízí přirozeně znějící řeč v mnoha jazycích a variantách a dobře se integruje do prostředí AWS.
- Microsoft Azure Speech Service: Azure Speech Service zahrnuje TTS a podporuje různá využití – asistenty, navigace a další.
- IBM Watson Text to Speech: IBM Watson umožňuje převod textu na řeč s různými hlasy.
- Nuance Communications: Nuance nabízí široké spektrum řečových a hlasových řešení včetně text-to-speech – uplatnění najde v medicíně, automotive i zákaznických službách.
- CereProc: CereProc je firma text-to-speech nabízející syntetické hlasy pro přístupnost, zábavu i komunikaci.
- iSpeech: iSpeech poskytuje cloudové TTS služby s podporou mnoha jazyků a hlasů. Vhodné pro mobily i weby.
- ResponsiveVoice: ResponsiveVoice je jednoduché a cenově dostupné API pro převod textu na řeč s podporou mnoha jazyků pro webové aplikace.
- Neospeech: Neospeech nabízí text-to-speech s důrazem na přirozené hlasy – uplatnění při e-learningu i zábavě.
- ReadSpeaker: ReadSpeaker poskytuje online i offline TTS řešení – pro weby, vzdělávání nebo přístupnost.
- Acapelabox: Acapela Group nabízí cloudové API převodu textu na řeč (Acapelabox) pro různé obory.
FAQ
Google má různé úrovně hlasů a téměř každá má určitý bezplatný limit. Například standardní hlasy jsou zdarma do 1 milionu bajtů, pak 16 $ za milion bajtů. Takže ano, v omezeném rozsahu je zdarma.
Stačí si vytvořit účet na https://cloud.google.com/text-to-speech/ a řídit se tamními kroky. Podrobný návod najdete i v tomto blogu výše.
API klíč získáte po přihlášení do Google Cloud účtu a vytvoření projektu. Pak můžete vygenerovat API klíč.
URL Google Text to Speech API je https://cloud.google.com/text-to-speech/
Technicky vzato Google Cloud nemá jednotnou zkušební dobu. Každá služba má vlastní nabídky a bezplatné limity.
Ne. Google Cloud Text to Speech API vyžaduje připojení k internetu.
Ověření služeb Google Cloud včetně Text to Speech API lze řešit pomocí API klíčů, OAuth 2.0 nebo služebních účtů. Záleží na aplikaci a potřebách.
Dávám 5 hvězd. Jednoduché použití, skvělé vyhledávání, rozumná cena, celkově výborný produkt.
Google Text to Speech API nabízí knihovny pro řadu jazyků, včetně Pythonu. Podporuje REST, takže lze použít i jiné jazyky schopné HTTP požadavků.
Pro integraci použijte třídu TextToSpeech a API požadavky. Detailní návod najdete v oficiální dokumentaci pro Android vývojáře.
V JavaScript aplikaci implementujete Google Text to Speech API pomocí HTTP požadavků na API endpoint. V žádosti nastavíte potřebné parametry a odpověď zpracujete v kódu. Více viz oficiální dokumentace.

