გენერაციული AI და ხელოვნური ინტელექტი ძალიან წინ წავიდა. ტექსტის ხმაზე წაკითხვა საკმაოდ ძველი კონცეფციაა და უკვე დიდი ხანია გამოიყენება. განსახილველი თემაც ბევრია და სრულიად სხვადასხვა კუთხით შეგვიძლია შევხედოთ. იქნება ეს ყველაფერი თქვენთვის ახალი თუ უკვე კარგად იცნობთ თემას — იხილავთ Google Text to Speech API-ზე სრულ სურათს.
სანამ მთავარ თემაზე გადავიდეთ, აუცილებელია ძირითადი ცნებები გავარკვიოთ. განვსაზღვროთ რამდენიმე ტერმინი და საფუძველი, რაზეც დანარჩენს ავაშენებთ.
चलდა, დავყოთ ეს ორი ტექნოლოგია: ტექსტის წაკითხვა და API, და ვნახოთ, რა როლი აქვს აქ Google Cloud-ს.
რედაქტორის შენიშვნა: გინდათ წამყვანი ტექსტის წაკითხვის API? სცადეთ Speechify-ის მარტივად გამოსაყენებელი და კარგად დოკუმენტირებული ტექსტის წაკითხვის API.
ტექსტის წაკითხვა ხმაზე
ამ თემაზე ბევრჯერ დამიწერია და შეგიძლიათ წაიკითხოთ ჩემი რა არის ტექსტის ხმაზე წაკითხვა ბლოგი და ასევე გაეცნოთ საუბრის სინთეზს, რომ უკეთ გაერკვეთ საკითხში. დეტალებზე შეგიძლიათ შემდეგკროულად ჩახვიდეთ. ახლა კი რამდენიმე წინადადებით შევაჯამებ.
ტექსტის ხმაზე წაკითხვა ეყრდნობა ტექნოლოგიას სახელად საუბრის სინთეზი, რომელიც სიტყვებს AI-ს გენერირებულ ხმად აქცევს. ამ ტექნოლოგიას უამრავი გამოყენება აქვს — დისლექსიის, მხედველობის პრობლემების მქონე ადამიანებისთვის, ან უბრალოდ მათთვის, ვისაც ეფექტურობა უყვარს.
API
API ნიშნავს აპლიკაციების პროგრამირების ინტერფეისს. მარტივად რომ ვთქვათ, ეს არის ხიდი ორ აპლიკაციას შორის. მაგალითად, თუ ქმნით აპს, რომელსაც სჭირდება ტექსტის ხმაზე წაკითხვის ფუნქცია, ან თავად უნდა დაწეროთ ეს შესაძლებლობა, ან დაუკავშირდეთ უკვე არსებულ ტექსტის წაკითხვის სერვისს ან ტექსტის წაკითხვის API-ს.
თქვენ მთელ ყურადღებას აპის განვითარებაზე გაამახვილებთ და დანარჩენს გადააბარებთ მესამე მხარის API-ს — რომ ტექსტის ხმაზე წაკითხვის ფუნქცია მარტივად ჩააშენოთ აპში.
Google Cloud API
აქ შემოდის სცენაზე Google Cloud. Google-მა შექმნა მძლავრი ტექსტის ხმაზე წაკითხვის API და მისთვის სხვადასხვა ტარიფი აქვს. ყველა დეველოპერი, რომელსაც სურს საკუთარი ან ვებ აპის გაკეთება და ტექსტის ხმაზე წაკითხვის საჭიროება აქვს, ამ სპეციალური ხიდით, Google-ის TTS საშუალებით, მარტივად ისარგებლებს. დიახ, TTS ნიშნავს ტექსტის ხმაზე წაკითხვას.
სწრაფი დასაწყისი ნახეთ Google Cloud Console-ზე https://cloud.google.com/. აქ იპოვით გაკვეთილებს, მართავთ სერვისის ანგარიშს, ნახავთ wavenet ხმებს და სხვა.
Google Cloud — ეს არის ღრუბლოვანი პლატფორმა Google-ისგან, რომელიც სხვადასხვა მოდულურ სერვისს გთავაზობთ. შეგიძლიათ, ერთი, რამდენიმე ან ყველა გამოიყენოთ. თითოეული API-სთვის საჭიროა წვდომის გასაღების შექმნა — ეს თქვენი ხიდია. თითქმის ყველა სერვისი ფასიანია, თუმცა ზოგს უფასო ლიმიტიც მოყვება.
Google-მა 2014 წელს შეიძინა DeepMind თავისი ტექსტის ხმაზე წაკითხვის ტექნოლოგიის და ნერვული ქსელების განვითარების გამო. ასე რომ, თუ სადმე შეგხვდებათ DeepMind, ეს უკვე Google DeepMind-ია და ერთ სისტემად ითვლება.
ახლა, როცა ძირითადი სურათი გასაგებია, დეტალურად განვიხილოთ Google Cloud Text to Speech API.
Google Text to Speech API-ს ფუნქციები
Google გლობალური ტექნოლოგიური ლიდერია — ეს თითქმის არავის აეჭვებს. TTS API-ში ხელმისაწვდომია უმაღლესი დონის ფუნქციონალი, რომელიც მუდმივად ვითარდება.
მაღალი ხარისხის ხმა
Google-ის ტექსტის ხმაზე წაკითხვის ხმები ინდუსტრიაში ერთ-ერთ საუკეთესოა. ძალიან ადამიანურად და ბუნებრივი ინტონაციით ჟღერს. TTS ჯერ კიდევ განვითარების დასაწყის ეტაპზეა და ვინც ხმას ყველაზე მეტად მი aproximaლებს ადამიანურს, ის მოიგებს.
ხმების ფართო არჩევანი
Google-ის მიხედვით, ხმების არჩევანი ერთ-ერთი ყველაზე ფართოა, შესაბამისად თქვენი პროექტი ათას სხვას აღარ დაემსგავსება და კონკურენტის აპთან შედარებით დაბალ დონედ არ დარჩება.
შექმენით საკუთარი ხმა
ეს ეხება ხმის კლონირების ტექნოლოგიას. შეგიძლიათ თქვენი ან სხვისი (ნებართვით) ხმის ჩაწერა, რომ მთელი ტექსტი ამ კონკრეტული ხმით მოუსმინოთ.
ნეირონული ხმები
ნეირონული ხმები ყველაზე მაღალი ხარისხის ხმას უზრუნველყოფს მთელ ასორტიმენტში. ასევე შეგიძლიათ გამოიყენოთ მრავალენოვანი ხმები, რომ საერთაშორისო აუდიტორია მოიზიდოთ.
სტუდიური ხმები
სტუდიური ხმები უფრო მაღალი კლასისაა და პროფესიონალურად ჟღერს, თითქოს კლასიკურად, სტუდიაშია ჩაწერილი.
ხმის მორგება
აირჩიეთ ხმა და შეცვალეთ ტემპი, ტონალობა და სხვა პარამეტრები — ასე მარტივად მოირგებთ ხმას თქვენს საჭიროებებზე.
რამდენი ღირს Google Text to Speech API?
ფასი დამოკიდებულია ხმის ხარისხზე და ტექსტის მოცულობაზე. რაც უფრო ბუნებრივად ჟღერს ხმა, მით მეტი ღირს. თუმცა, ამ შემთხვევაში „ძვირი“ შედარებითია — მაღალი ხარისხის ხმები მაინც საკმაოდ ხელმისაწვდომია.
| ხმის ტიპი | უფასო თვეში | უფასოს შემდეგ |
| Neural2 ხმები | 0-1 მილიონი ბაიტი | $16 ერთ მილიონ ბაიტზე |
| Polyglot ხმები | 0-1 მილიონი ბაიტი | $16 ერთ მილიონ ბაიტზე |
| სტუდიური ხმები | 0-100,000 ბაიტი | $160 ერთ მილიონ ბაიტზე |
| სტანდარტული ხმები | 0-4 მილიონი სიმბოლო | $4 ერთ მილიონ სიმბოლოზე |
| Wavenet ხმები | 0-1 მილიონი სიმბოლო | $16 ერთ მილიონ სიმბოლოზე |
რა განსხვავებაა სიმბოლოსა და ბაიტს შორის?
როგორც ხედავთ, ფასები მნიშვნელოვნად იცვლება ხმის ხარისხის მიხედვით. ტექსტის ხმად გარდაქმნისთვის საჭირო კოდირება და დამუშავება თითოეულ საფეხურზე განსხვავებულია. უფრო დაბალ საფეხურზე, მაგალითად სტანდარტული ხმების შემთხვევაში, ითვლება სიმბოლოები და ღირებულებაც ნაკლებია.
ანუ, თუ თქვენს პროექტში 4 მილიონი სიმბოლოა, სტანდარტული ხმებით მათ ხმად გადაყვანა მხოლოდ $16 დაგიჯდებათ.
სტუდიური ხმები უფრო მეტ რესურსს მოითხოვს და ფასდება ბაიტებით. ზოგ ენაში, მაგალითად იაპონურში, ერთი სიმბოლო შეიძლება რამდენიმე ბაიტისგან შედგებოდეს.
ყველაზე ზუსტი ფასებისთვის მნიშვნელოვანია იცოდეთ, რომელი ენით მუშაობთ და საშუალოდ რამდენი ბაიტია ერთ სიმბოლოში, რომ სწორად შეაფასოთ ხარჯები.
როგორ დავაპროექტოთ Google Cloud Text to Speech API?
- შექმენით Google Cloud ანგარიში ან შედით ამ გვერდზე
- შექმენით ახალი პროექტი და შეურჩიეთ შესაბამისი სახელი
- დაამატეთ ანგარიშსწორების მეთოდი. გადაიხდით მხოლოდ იმას, რასაც გამოიყენებთ.
- შემდეგ აირჩიეთ პროექტი და მიაბით ბილინგ-ანგარიშს.
- გააქტიურეთ Text-to-Speech API. გვერდის ზედა ნაწილში მოძებნეთ "speech".
- რჩეულებიდან აირჩიეთ Cloud Text-to-Speech API
- დააყენეთ ავთენტიფიკაცია გარემოსთვის. მითითებები იხილეთ Text-to-Speech ავთენტიფიკაციის დაყენების ნაბიჯებში.
ასევე შეგიძლიათ სცადოთ Text-to-Speech პროექტის შექმნის გარეშე:
- აირჩიეთ TRY THIS API ვარიანტი.
- თქვენი პროექტისთვის ჩართეთ Text-to-Speech API, დააწკაპუნეთ ENABLE-ს.
დამატებითი დახმარებისთვის იხილეთ Google Cloud დოკუმენტაცია.
როგორ გამოირთოს Text to Speech API
Text-to-Speech API-ის გამოსართავად გადადით Google Cloud Platform-ის დეშბორდზე, APIs ბლოკში დააჭირეთ "Go to APIs overview" ბმულს, მოძებნეთ Text-to-Speech API, გახსენით და შემდეგ ზედა ნაწილში დააწკაპუნეთ "DISABLE API" ღილაკს.
დაიწყეთ მუშაობა Google Text to Speech API-ით
ახლა, როცა პროექტი მზად გაქვთ, შეგიძლიათ დაიწყოთ ბრძანების ხაზიდან.
gcloud initშექმენით ლოკალური ავტორიზაცია
gcloud auth application-default loginახლა შეგიძლიათ დააყენოთ კლიენტის ბიბლიოთეკა. მაგალითად — Node.js
npm install --save @google-cloud/text-to-speechGoogle Cloud Text to Speech API-ს მხარს უჭერს შემდეგ ენებს:
- Go
- Java
- Node.js
- C++
- C#
- PHP
- Python
- Ruby
- TypeScript
- Terraform
- YAML
როგორ მუშაობს Google Cloud API?
ყველაფერი იწყება უბრალო API-კოლით. გზავნით თქვენს ტექსტს და პასუხად იღებთ აუდიო ფაილს. შეგიძლიათ აირჩიოთ ხმა, ენა და სხვა პარამეტრები, და ამის შემდეგ ტექსტის წაკითხვის API გაძლევთ მზად აუდიო ფაილს.
იხილეთ ინსტალაციისა და გამოყენების გზამკვლევი ტექსტის წაკითხვის კლიენტისთვის აქ. ჩვენ ნიმუშებს გაგიზიარებთ Node.js-ზე, თუმცა შეგიძლიათ გამოიყენოთ Python, PHP და სხვა თავსებადი ენებიც.
const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');
const client = new textToSpeech.TextToSpeechClient();
/**
* TODO(developer): Uncomment the following lines before running the sample.
*/
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';
const request = {
input: {text: text},
voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);და ეგაა. დააყენეთ Google Cloud Text to Speech API და უკვე შეგიძლიათ პირველი მოთხოვნის გაგზავნა ტექსტის ხმად გადასაყვანად. ფაილი სხვადასხვა ფორმატში შეინახეთ, მაგალითად OGG ან MP3.
რამდენიმე გზით გამოიყენეთ Google Text to Speech API
Google Text to Speech (TTS) API-ს მრავალფეროვანი გამოყენება აქვს სხვადასხვა ინდუსტრიაში. რამდენიმე მაგალითს ჩამოვთვლი:
- ტექსტის წაკითხვა მხედველობადაქვეითებულებისთვის: აპებში ტექსტის ხმად გადაყვანა, რომ ხედვადაქვეითებულმა მომხმარებლებმა ინფორმაციის მიღება შეძლონ.
- ავტომატური სატელეფონო სისტემები: ბუნებრივი ხმით პასუხები და შეტყობინებები ზარებისა და ცხელ ხაზების სისტემებისთვის.
- მედია-კონტენტისთვის ხმის გაჟღერება: ვიდეოს, პოდკასტებისა და სხვა მასალებისთვის ხარისხიანი ხმა მომხმარებლის გამოცდილების გასაუმჯობესებლად.
- ტექსტის წაკითხვა თარგმნილ მასალაში: თარგმნილი ტექსტის ხმაზე გაჟღერება, რაც ენის სწავლასა და საერთაშორისო კომუნიკაციას ამარტივებს.
- დაკითხვის დახმარება დისლექსიის მქონეთათვის: TTS ფუნქციონალი ეხმარება დისლექსიის მქონე ან generally კითხვაში შეზღუდულ ადამიანებს.
- აპლიკაციებში ხმოვანი ნავიგაცია: ნავიგაციურ აპში ხმის შეტყობინებები ან ადგილმდებარეობის ხმოვანი გამოხმაურება.
- ტექსტის წაკითხვა განათლებაში: სასწავლო მასალის ხმაზე გაჟღერებით აღქმის გამარტივება და კონცენტრაციის გაზრდა.
- საუბრის სინთეზი პროდუქტიულობის აპებში: TTS შენიშვნებისა და დავალებების აპებში, რომ ინფორმაცია ყურითაც მიიღოთ.
- ბუნებრივი ხმა ვირტუალური ასისტენტებისთვის: ვირტუალური ასისტენტებისთვის ბუნებრივი TTS უფრო ცოცხალი ინტერაქციისთვის.
- ხმის შეტყობინებები და გაფრთხილებები: TTS აუდიო შეტყობინებებისთვის და სტატუსის გასახმიანებლად IoT მოწყობილობებზე.
საუკეთესო ალტერნატივები Google Cloud TTS API-სთვის
2022 წლის მონაცემებით, არსებობს რამდენიმე ალტერნატივა Google ტექსტის წაკითხვის API-სთვის. მათი პოპულარობა ან ფუნქციონალი დღეს შეიძლება შეცვლილი იყოს. აი, რამდენიმე გამოკვეთილი ალტერნატივა:
- Speechify Text to Speech API: Speechify Text to Speech API გთავაზობთ 1,000+ ბუნებრივ და ემოციურ AI ხმას 60+ ენასა და დიალექტზე. დაიჯავშნეთ თქვენი ადგილი.
- Amazon Polly: Amazon Web Services (AWS) გთავაზობთ Polly-ს ბუნებრივი ხმებით, მრავალ ენასა და ხმაზე. მარტივად ინტეგრირდება AWS-ის სხვა სერვისებთან.
- Microsoft Azure Speech Service: Azure-ს აქვს მხარდაჭერა როგორც ტექსტის წაკითხვაზე, ისე ხმის ასისტენტებზე, ნავიგაციაზე და სხვა სცენარებზე.
- IBM Watson Text to Speech: IBM Watson გთავაზობთ ტექსტის ხმად გარდაქმნის სერვისს სხვადასხვა ხმით.
- Nuance Communications: Nuance-ს აქვს ხმის ამოცნობის და ტექსტის წაკითხვის გადაწყვეტები ჯანმრთელობის სფეროსა და ავტოინდუსტრიაში.
- CereProc: CereProc არის ტექსტის წაკითხვის ტექნოლოგიის კომპანია, რომელიც გთავაზობთ მაღალი ხარისხის ხმებს ხელმისაწვდომობისთვის, გართობისთვის და კომუნიკაციისთვის.
- iSpeech: iSpeech უზრუნველყოფს ტექსტის წაკითხვის ღრუბლოვან სერვისს მრავალ ენაზე. გამოდგება მობილურ აპებსა და ვებ-საიტებზე.
- ResponsiveVoice: ResponsiveVoice არის ხელმისაწვდომი და მრავალენოვანი ტექსტის წაკითხვის API ვებ-აპებისთვის.
- Neospeech: Neospeech გთავაზობთ ტექსტის წაკითხვის ტექნოლოგიას ბუნებრივი ხმის აქცენტით, რომელიც ძირითადად სწავლასა და გართობაში გამოიყენება.
- ReadSpeaker: ReadSpeaker უზრუნველყოფს ონლაინ და ოფლაინის ტექსტის წაკითხვის მომსახურებას ვებ-გვერდებზე, განათლებასა და ხელმისაწვდომობის გადაწყვეტილებებში.
- Acapelabox: Acapela Group გთავაზობთ ღრუბლოვან ტექსტის წაკითხვის API-ს მრავალ ენასა და ხმაზე, მრეწველობაში გამოსაყენებლად.
ხშირი კითხვები
Google-ს აქვს ხმების რამდენიმე საფეხური და თითქმის ყველა მათგანს უფასო ლიმიტი მოჰყვება. მაგალითად, სტანდარტული ხმისთვის პირველი მილიონი ბაიტი უფასოა, შემდეგ კი $16 მილიონ ბაიტზე. ასე რომ, შეგიძლიათ გარკვეული მოცულობით უფასოდაც გამოიყენოთ — სიმბოლოების ან ბაიტების ლიმიტის ფარგლებში.
უბრალოდ შექმენით ანგარიში https://cloud.google.com/text-to-speech/ და მიჰყევით ნაბიჯებს. ამავე ბლოგის ზედა ნაწილში დეტალურადაც მაქვს აღწერილი.
Google Text to Speech API-ის გასაღების მისაღებად შედით Google Cloud-ზე და შექმენით პროექტი. შემდეგ უკვე შეგიძლიათ გენერირება API გასაღების თქვენი პროექტისთვის.
Google Text to Speech API-ის URL-ია https://cloud.google.com/text-to-speech/
ტექნიკურად Google Cloud-ს统一 უფასო საცდელი პერიოდი არ აქვს. სერვისები იყოფა სხვადასხვა პირობებითა და უფასო ლიმიტებით.
არა, ვერ გამოიყენებთ. Google Cloud Text to Speech API-სთვის ინტერნეტკავშირი აუცილებელია.
Google Cloud-ზე, მათ შორის Text to Speech API-ზე, ავტორიზაცია შეგიძლიათ API გასაღებით, OAuth 2.0-ით ან სერვისის ანგარიშით. არჩევანი თქვენს აპსა და მომხმარებლებზეა დამოკიდებული.
5 ვარსკვლავს მივცემდი. მარტივი გამოსაყენებელია, ძიება შესანიშნავად მუშაობს, ტარიფები მისაღებია — მთლიანობაში ძალიან კარგი პროდუქტია.
Google Text to Speech API-ს აქვს კლიენტის ბიბლიოთეკები სხვადასხვა ენაზე, მათ შორის Python-ზე. ასევე არსებობს RESTful API, ასე რომ ნებისმიერ ენაზე შეგიძლიათ გაუშვათ მოთხოვნები.
Android აპში Google Text to Speech API-ის ჩასაშენებლად უნდა გამოიყენოთ TextToSpeech კლასი და API-ით გააგზავნოთ მოთხოვნები. დეტალური ინსტრუქციები იხილეთ ოფიციალურ დოკუმენტაციაში.
Google Text to Speech API-ს JavaScript აპში ჩასაშენებლად გაგზავნეთ HTTP მოთხოვნა API-ს endpoint-ზე. დეტალები დოკუმენტაციაშია აღწერილი.

