დღეს უამრავი ადამიანი ყოველდღიურად იყენებს ტექსტიდან მეტყველების სერვისებს და ვირტუალურ ასისტენტებს. თუმცა ბევრმა არ იცის, რომ მუშაობის პრინციპით ისინი ერთმანეთთან ძალიან ჰგავს. ტექნოლოგიის განვითარებასთან ერთად, ყოველდღიური აპებიც სულ უფრო ხარისხიანი ხდება.
იგივე ეხება TTS აპებს და ვირტუალურ ასისტენტებსაც. განსაკუთრებულ შედეგებს რამდენიმე კომპანია აჩვენებს, მათ შორის Google WaveNet ტექნოლოგიით.
რა არის Google WaveNet?
WaveNet ხელოვნური ნერვული ქსელია, რომელიც აუდიოს გენერირებს. მას ლონდონური ხელოვნური ინტელექტის კომპანია DeepMind ავითარებს. ტექნოლოგიის დანერგვამ Google Cloud-ში დიდი ცვლილება შეიტანა და ყველაფერი ახალ დონეზე აიყვანა.
ერთ-ერთი მთავარი უპირატესობა, რაც Google-ის DeepMind-მა წინა ტექსტიდან მეტყველების სისტემებთან შედარებით შემოიტანა, არის უფრო ბუნებრივი ხმა. მის 2016 წელს წარდგენამდე TTS სისტემებს რეალისტური ჟღერადობა არ ჰქონდა.
WaveNet ტექსტიდან მეტყველება ბევრად უსწრებს ძველ ტექნოლოგიას. მთავარი იდეაა, რომ ეს პროგრამა იყენებს აუდიო ფაილებს, მაგ. WAV-ს, როგორც შეყვანას და სარგებლობს Google API-ით და API key-ით.
დღეს ამ ტექნოლოგიაზე წვდომისთვის ბევრი გზა გვაქვს კომპლექსური ალგორითმების წყალობით. უამრავი კომპანია ცდილობს საუკეთესო პროდუქტის შექმნას, რაც მომხმარებელს მეტ არჩევანს აძლევს და საჭიროებებზე მორგებული პროგრამის პოვნას ამარტივებს.
როგორ მუშაობს WaveNet
WaveNet არის FNN-ის, ანუ feedforward ნერვული ქსელის ვარიანტი, რომელიც ცნობილია როგორც ღრმა კონვოლუციური ნერვული ქსელი. CNN იღებს აუდიო სიგნალს და შედეგს თითო ნიმუშის მიხედვით ქმნის.
საბაზისო პრინციპი ძველს ჰგავს: მანქანური სწავლება, ენის დამუშავება, ღრმა სწავლება და ხელოვნური ინტელექტი. ადრე TTS აპები ქმნიდა ფონემების ბაზას და ხმაში საუკეთესოს ან მიახლოებულ ვარიანტს ირჩევდა.
მაგრამ ამ თავსატეხის აწყობა მარტივი არ არის. პროგრამამ უნდა იცოდეს ენის რიტმი, დინამიკა და ინტონაცია, თორემ ხმა არაბუნებრივი გამოვა.
უმეტეს TTS პროგრამასავით, WaveNet იყენებს რეალურ აუდიო ტალღებს – მაგალითად, პარამეტრიკულ ან კონკატენატიურ მოდელებს. ასე შეუძლია გამოიკვლიოს ენისა და ჟღერადობის წესები და დროში მათი ცვლილება.
ეს საშუალებას აძლევს პროგრამას სინჯების მიხედვით ადამიანის ხმას მაქსიმალურად მიმსგავსებული ნიმუშების გენერირებას. შთამბეჭდავია, რომ პროგრამა შედეგს უკვე არსებული აუდიო მონაცემებზე დაყრდნობით აყალიბებს.
რას ნიშნავს ეს ყოველდღიურ ცხოვრებაში: მაგალითად, თუ იტალიურად საუბრობთ, პროგრამა იტალიურ ტექსტსაც სწორად გაახმოვანებს. ეს დიდი წინგადადგმული ნაბიჯი იყო და გზა გაუხსნა სხვა ტექსტიდან მეტყველების API-ებს.
WaveNet-ის გამოყენების მაგალითები
როდესაც Google-მა პროგრამა პირველად წარადგინა, რეალურ შემთხვევებში მეტად მაღალი გამოთვლითი რესურსი სჭირდებოდა. წლების შემდეგ ეს შეიცვალა. ეს API პირველად Google ასისტენტის ხმებისთვის გამოიყენეს სხვადასხვა პლატფორმაზე.
WaveNet ასევე უნიკალური TTS პროგრამაა. ხმა გაცილებით ბუნებრივია და სასიამოვნოდ ისმინება. შეგიძლიათ მოუსმინოთ სიახლეებს, პოდკასტების ტექსტებს თუ სხვა სახის შინაარსს.
ეს მხოლოდ დასაწყისია. ამ მიდგომის იდეამ მეტყველების შეფერხების მქონე ადამიანებსაც შეიძლება თითქოს „დააბრუნოს ხმა“. ხმის სინთეზი ნიშნავს ხმის იმიტაციას და უზარმაზარი პოტენციალი აქვს. თეორიულად, მომხმარებელს შეუძლია საკუთარი ხმის ნიმუში შეიტანოს TTS პროგრამაში და მიიღოს ინდივიდუალური ხმა.
ჯერ კიდევ ზუსტად არ ვიცით, რა გველის TTS ტექნოლოგიების განვითარებაში, მაგრამ აშკარაა, რომ მომავალი ძალიან საინტერესო იქნება. ბევრმა კომპანიამ დაიწყო საკუთარი ტექსტიდან მეტყველების გადაწყვეტის შექმნა.
თუ ყველა ერთ მიზანს ემსახურებს, საბოლოო შედეგი ბევრად შთამბეჭდავი დადგება.
Speechify – ხმის სინთეზი
აუცილებლად სცადეთ Speechify. ეს არის ტექსტიდან მეტყველების აპლიკაცია, რომელიც თითქმის ყველა მოწყობილობაზე მუშაობს: iOS, Android, Mac და ასევე Google Chrome-ის გაფართოებად.
Speechify ნებისმიერ ტექსტს წაიკითხავს. ვგულისხმობთ PDF-ებს, დოკუმენტებს, იმეილებს თუ თქვენს მოწყობილობაზე არსებულ სხვა ფაილებს. აპის მთავარი უპირატესობა მოქნილობა და მორგებადობაა.
შეგიძლიათ დაარეგულიროთ საკითხავი სიჩქარე, აირჩიოთ სხვადასხვა ხმა, მოირგოთ ტემბრი და სხვა პარამეტრები. Speechify შეიცავს OCR ფუნქციასაც: შეგიძლიათ გადაუღოთ ფოტო წიგნს და აპი თვითონ წაგიკითხავთ.
აპი სპეციალურად არის გათვლილი ადამიანებზე, ვისაც აქვს დისლექსია, ყურადღების დეფიციტი, სწავლობს ენას ან უბრალოდ სურს კითხვა უფრო პროდუქტიული გახადოს. ეს უნივერსალური აპლიკაციაა, რომელიც მთლიანად ცვლის ჩვენს დამოკიდებულებას კითხვასთან.
Speechify ძალიან მარტივია გამოსაყენებლად – გრძელი და დამაბნეველი ინსტრუქციები არ სჭირდება.
FAQ
რისთვის გამოიყენება WaveNet?
ესაა ღრმა ნერვული ქსელი, რომელიც აუდიოს ქმნის. ტექსტიდან მეტყველების სინთეზია, რომელიც რეალისტურ WaveNet ხმებს გვთავაზობს, ტრენინგისთვის კი ნამდვილად ჩაწერილი ხმა სჭირდება. სწორედ ამიტომ მიიჩნევა Google Cloud TTS-ზე ერთი ნაბიჯით წინ.
დღეს პროგრამა Google ასისტენტის ხმების შესაქმნელად გამოიყენება.
რას წარმოადგენს WaveNet მოდელი?
მოდელი დაფუძნებულია PixelCNN არქიტექტურაზე. ბუნებრივი ჟღერადობის აუდიოს შესაქმნელად გამოიყენება გაფართოებული მიზეზობრივი კონვულსიები.
დილატირებული CNN-ები ტრენინგს ამარტივებს და ათას ფენამდე წარსულ სიგნალს ითვალისწინებს. შეუძლია რეალურ დროზე 20-ჯერ სწრაფად მუშაობა.
რა განსხვავებაა WaveNet-სა და კონვოლუციურ ნერვულ ქსელებს შორის?
პროგრამა დაფუძნებულია ღრმა კონვოლუციურ ნერვულ ქსელზე (CNN). WaveNet უბრალოდ CNN-ის ერთ-ერთი გამოყენებაა. მსგავს ტექნოლოგიას იყენებენ Microsoft, Amazon (SSML-თან ერთად) და მიღებული ხმის ხარისხიც საკმაოდ მაღალია.
თუ საუკეთესოს ეძებთ, სცადეთ Speechify. სხვა პლატფორმებიც განსხვავებულ სარგებელს გვთავაზობს, მაგრამ Speechify მარტივია და ტექსტს ხმად უსწრაფესად გარდაქმნის.

