ტექსტიდან ხმაზე ტექნოლოგია დიდ პროგრესს განიცდის, განსაკუთრებით ბოლო წლებში. ხელოვნური ინტელექტის წინსვლამ შესაძლებელი გახადა ადამიანის ხმას максимально მიახლოებული ტექსტის კითხვა.
Microsoft-ის VALL-E არის უახლესი ტექსტის ხმაზე გადამყვანი, რომელიც ხმას შეიძლება ზოგჯერ თითქმის სრულად დაამსგავსოს ადამიანს. ეს არის ნერვული კოდეკის ენობრივი მოდელი ნულისგან შემსწავლელი მანქანური სწავლების გამოყენებით.
თუ ეს წინადადება რთულად გეჩვენებათ, ნუ ინერვიულებთ. სტატიაში ქვემოთ VALL-E-ს უკან მდგარ რთულ მექანიზმებს მარტივად აგიხსნით.
Microsoft VALL-E-ის ახსნა
ხელოვნური ინტელექტის მოდელები ელვის სისწრაფით ვითარდება. დღეს თითქმის ყველამ იცის OpenAI-ის ChatGPT, რომელიც თითქმის ადამიანურ AI-ს ჰგავს. ალბათ უკვე ნანახიც გაქვთ AI-ით შექმნილი ხელოვნება DALL-E-ში.
ასევე, Microsoft და სხვა გლობალური კომპანიები ხელოვნური ინტელექტის სფეროში წამყვან მოთამაშეებს შორის არიან.
Microsoft-ის მკვლევრები ბოლო დროს ტექსტიდან ხმაზე სისტემების დახვეწაზე მუშაობენ. VALL-E სწორედ ამ შრომის შედეგია.
ახალ AI-ს შეუძლია რადიკალურად შეცვალოს TTS-სივრცე, რადგან მხოლოდ სამწამიანი აუდიოსგან ადამიანის ხმის ზუსტად გამეორება შეუძლია. ასე სწრაფად ითვისებს კონკრეტული გამომსვლელის ხმოვან ნიუანსებს.
საბაზისო ნიმუშის მიღების შემდეგ AI იმიტირებს ადამიანურ ხმას და ემოციურ ტონსაც. ამასთან, VALL-E ინარჩუნებს ფონურ ხმებსაც.
მარტივად რომ ვთქვათ, VALL-E კარგად ჰგავს გამომსვლელს. ამის მოსმენას GitHub-ზე შეძლებთ, სადაც Microsoft-მა აუდიონიმუშები გააზიარა.
ასეთი ტექნოლოგიის გამოყენება მრავალ სფეროშია შესაძლებელი, მაგალითად, პოდკასტებისა და აუდიოწიგნების შექმნა. პერსპექტივა კიდევ უფრო ფართოვდება, როცა VALL-E შეერწყმება გენერაციულ მოდელებს, მაგალითად GPT-3-ს.
მაგრამ მსგავსი ტექნოლოგიის ბოროტად გამოყენებაც საკმაოდ რეალურია.
VALL-E იმდენად ჰგავს ნამდვილ ადამიანს, რომ ადვილად შეიძლება აღმოჩნდეს თაღლითების ხელში, მაგალითად, ნებართვის გარეშე შექმნილ მავნე დიფეიკებში. ასეთ რისკებზე Microsoft-მა სპეციალური ეთიკური განცხადებაც გაავრცელა.
განცხადებაში კომპანია ემხრობა ისეთი მოდელების გამოყენებას, რომლებიც თავდაპირველი აუდიოს ავტორის თანხმობას უზრუნველყოფენ.
VALL-E-ს გამოყენებასთან დაკავშირებული დებატები უფრო მომავალის თემაა. ახლა უფრო საინტერესო კითხვა ის არის:
როგორ ახერხებს AI ასეთი რთული გამეორების შესრულებას მხოლოდ სამწამიანი აუდიოს საფუძველზე?
პასუხი, როგორც მოსალოდნელია, საკმაოდ რთულია.
VALL-E-მ გაიარა ათასობით საათი ინგლისურ აუდიოზე ტრენინგი. ეს აძლევს საშუალებას ბუნებრივი ინგლისურის ძალიან კარგად იმიტირებას. მაგრამ VALL-E არ არის ჩვეულებრივი ტექსტიდან ხმაზე სისტემა – ის ბოლო თაობის მანქანურ სწავლებას ეყრდნობა.
უკვე ვახსენეთ მისი სრული სახელწოდება: ნულისგან ნერვული კოდეკის ენობრივი მოდელი. ახლა უფრო დეტალურად გავარჩიოთ, რას ნიშნავს ეს.
ნულისგან ნერვული კოდეკის ენობრივი მოდელის ახსნა
დავიწყოთ მარტივი ტერმინით — „ნულისგან“ ნიშნავს სპეციალურ TTS-ტექნოლოგიას, როცა AI-ს შეუძლია წაიკითხოს ტექსტი, რომელსაც ადრე არასოდეს შეხვედრია.
კიდევ უფრო შთამბეჭდავია, რომ ნულისგან სწავლას დამატებითი მომზადება აღარ სჭირდება. დაახლოებით ისე, როგორც ადამიანი კითხულობს უცხო ტექსტს თავისთვის ნაცნობ ენაზე.
ახლა მივადექით რთულ ნაწილს — „ნერვული კოდეკის ენობრივი მოდელი“ ცალკე ახსნას მოითხოვს.
TTS სისტემები ტექსტურ შეტყობინებებში აუდიოკოდეკებს იყენებენ ტალღების შესაქმნელად. კოდეკი ეხმარება AI-ს ასოებისა და სიტყვების შესაბამის ხმებად გადაქცევაში. ნერვული კოდეკი ამ ყველაფერს ნერვული ქსელით ახორციელებს.
აქ ჩნდება კიდევ ერთი კითხვა: რა არის ნერვული ქსელი?
მოკლედ ასე ვიტყვით: ნერვული ქსელი ცდილობს ადამიანის ტვინის მუშაობის მოდელირებას. ის შედგება კვანძებისგან — ხელოვნური ნეირონებისგან, რომლებიც ფენებადაა დალაგებული.
ეს რთული სტრუქტურა შესაძლებელს ხდის ღრმა სწავლას და აძლევს მანქანას ახალ ნიმუშებზე ადაპტირების უნარს.
ნერვული კოდეკი ამარაგებს ენობრივ მოდელს, რომელიც ამ ტექსტი-ხმაზე დავალების სხვა ნაწილის წარმოადგენს.
ენობრივი მოდელი dataset-ზე მუშაობის შედეგად „იგებს“ ტექსტის მნიშვნელობას ცოცხალ ენაზე. ასე ითვისებს მანქანა წერილობით ტექსტს.
VALL-E-ს შემთხვევაში ენობრივი მოდელის საბაზისო მასალად გამოიყენეს Facebook-ის Meta-ს მიერ შეგროვებული აუდიობიბლიოთეკა LibriLight.
მოუსმინე უახლეს ტექსტიდან ხმაზე ტექნოლოგიას Speechify-ით
VALL-E ჯერ საზოგადოებისთვის მიუწვდომელია, მაგრამ Speechify-ით მოისმენთ, როგორ ჟღერს განვითარებული ტექსტიდან ხმაზე სისტემა. Speechify კითხულობს ნებისმიერ ტექსტს ნებისმიერი წყაროდან.
Simply ჩააგდებთ წერილობით ტექსტს, ვებ-კონტენტს ან სკანირებულ გვერდს — Speechify მყისიერად წაიკითხავს. მისი მთავარი უპირატესობა ის არის, რომ ხმა მაქსიმალურად ადამიანურად ჟღერს. ტიპურ რობოტულ TTS-თან შედარებით, Speechify ბევრად ბუნებრივია.
გარდა ამისა, შეგიძლიათ მორგოთ კითხვა: აირჩიოთ ენა, წამკითხავი, სიჩქარე და მოისმინოთ ტექსტი ზუსტად თქვენნაირად.
თუ ეს ყველაფერი თქვენთვის საინტერესოა, შეგიძლიათ უფასოდ გამოსცადოთ Speechify უკვე დღეს.
ხშირად დასმული კითხვები
შეიძლება ადამიანებმა გამოიყენონ VALL-E?
VALL-E-ს ბოროტად გამოყენების ბევრი საფრთხე არსებობს. პირადობის ქურდობა განსაკუთრებით სერიოზული რისკია, ამიტომ Microsoft-მა მასზე საჯარო წვდომა ჯერჯერობით არ გახსნა.
რა არის Microsoft AI?
Microsoft AI კონკრეტული პროდუქტი არაა. ეს არის კომპანიის პროგრამა ხელოვნური ინტელექტის განვითარებისთვის – მოიცავს მონაცემთა სამეცნიერო გადაწყვეტებს, დიალოგურ AI-ს, რობოტიკას, მანქანურ სწავლებას და სხვა დარგებზე პროგრესს.
რა არის ხმით მართვადი ინტერფეისი?
ხმით მართვადი ინტერფეისი არის მომხმარებლის ინტერფეისი, რომელთანაც ხმით ურთიერთობთ. ის უკვე ყოველდღიურად გვხვდება სმარტ-დევაისებში – მაგალითად, Amazon Alexa, Apple Siri, Microsoft Cortana ან Google Assistant.
რა არის რობოტი?
„რობოტი“ ნიშნავს ავტომატურად მომუშავე ნებისმიერ მანქანას. ისინი შეიქმნა ადამიანის შრომის შესამსუბუქებლად. პოპულარულ მედიაში მას ხშირად ჰუმანოიდად წარმოვადგენთ, მაგრამ რეალურად რობოტების უმრავლესობა არ ჰგავს ადამიანს და შეიძლება საერთოდაც არ ჰქონდეს მატერიალური ფორმა. მაგალითად, თანამედროვე ვირტუალური ასისტენტებიც რობოტებად ითვლება.

