მეტყველების სინთეზი, ანუ ტექსტიდან ხმაში (TTS) გადაყვანა, არის ტექნოლოგია, რომელიც დაწერილ ტექსტს სიტყვებად აქცევს. ამ მეთოდს იყენებენ შეზღუდული შესაძლებლობის მქონე ადამიანებისთვის, ენის შესასწავლად, ნავიგაციაში და სხვა ამოცანებისთვის. ღია კოდის გავრცელებამ მრავალი ტექსტიდან ხმაში სინთეზის სისტემა წარმოშვა. ეს სტატია დეტალურად გაგაცნობთ ღია კოდის ხმოვანი სინთეზატორების სამყაროს.
გახსოვდეთ, რომ ყველა მეტყველების სინთეზის ხელსაწყო არ არის ღია კოდის. მაგალითად, Google Text-to-Speech (TTS) მუშაობს ძლიერ API-ით, მაგრამ ღია კოდი არაა. ანალოგიურად, Amazon Polly-საც ძალიან რეალისტური ხმები აქვს, თუმცა ღია კოდი არც ის არის.
მეორეს მხრივ, Coqui AI — ხარისხიანი TTS ხელსაწყო — ღია კოდია და ხელმისაწვდომია GitHub-ზე. პროგრამა Mozilla-ს TTS პროექტის გაგრძელებაა და უზრუნველყოფს მოსახერხებელ CLI-ს მეტყველების სინთეზისთვის. Coqui AI იყენებს Tacotron2-ს და ღრმა სწავლის მეთოდებს ახალი ხმების გენერირებისთვის.
Microsoft-ის Speech Platform-ს, მათ შორის ტექსტიდან ხმაში ფუნქციასაც, ღია კოდი არ აქვს. სამაგიეროდ, SAPI5 API ხელმისაწვდომია დეველოპერებისთვის Windows-ზე.
ამის პარალელურად, ღია კოდის სფეროში მეტყველების ამოცნობის ხელსაწყოებიც არსებობს, თუმცა ნაკლებად მრავალრიცხოვანია. კარგი მაგალითია CMU Sphinx, რომელიც Carnegie Mellon-ში შეიქმნა ხმოვანი ამოცნობისთვის.
ხარისხიანი ღია კოდის ხმოვანი სინთეზისთვის გამორჩეული პროგრამებია:
- eSpeak: მცირე ზომის ღია კოდის მეტყველების სინთეზატორი ინგლისურისთვის და სხვა ენებისთვის. მუშაობს Windows-ზე, Linux-ზე და კარგია პატარა რობოტებისთვის.
- Mycroft: ღია კოდის ხმოვანი ასისტენტი, რომელიც იყენებს მანქანურ სწავლებას ტექსტიდან ხმაში სინთეზისა და ამოცნობისთვის.
- MaryTTS: მოქნილი, მრავალენოვანი ღია კოდის TTS პლატფორმა, დაწერილია Java-ში.
- Mozilla TTS: ღრმა სწავლებაზე დაფუძნებული TTS, Common Voice პროექტის ნაწილია და ხმოვან აპებს ამარაგებს.
- Festival Speech Synthesis System: შექმნილია CSTR-ის მიერ (UK) და უზრუნველყოფს ჩარჩოს მეტყველების სინთეზისთვის და მრავალ ხმოვან მოდელს.
- Flite (Festival-lite): მსუბუქი მეტყველების სისტემა Festival-ის ბაზაზე, ჩაშენებული სისტემებისა და მაღალი დატვირთვის სერვერებისთვის.
- HTS: HMM-ზე დაფუძნებული სინთეზის სისტემა სალაპარაკო ტექსტისთვის, ფართოდ გამოყენებული მაღალი ხმის ხარისხისთვის.
- Docker: Docker თვითონ TTS ხელსაწყო არაა, მაგრამ ბევრი, მაგალითად Coqui, სრულად ეყრდნობა მას და მარტივად გადადის სხვადასხვა პლატფორმაზე.
თითოეულ ხელსაწყოს თავისი პლუსი და მინუსი აქვს. ღია კოდის ხმოვანი სინთეზატორები უფასოა, მარტივად დაჭრილ-მორგებადია და მხარდაჭერას საზოგადოება უზრუნველყოფს. ხშირად მოყვება წინასწარ გაწვრთნილი მოდელები, რაც დეველოპერებს საშუალებას აძლევს მარტივად გამოიყენონ მანქანური სწავლება. თუმცა ინსტალაციას ტექნიკური ცოდნა სჭრდება, ზოგიერთს კი კომერციულ ალტერნატივებთან შედარებით ხმის ხარისხი ან ენობრივი მხარდაჭერა აკლია.
ღია კოდი კვლავ ცვლის ტექნოლოგიების სამყაროს. ხმოვანი სინთეზატორები და ტექსტიდან ხმაში სისტემები განუწყვეტლივ ვითარდება. მათ დიდი პოტენციალი აქვთ რეალურ აპებში და მომავალ ტექნოლოგიებში, მათ შორის AI-სა და მეტყველების ამოცნობაში.

