SpeechRecognition
Tikriausiai populiariausia Python kalbos atpažinimo biblioteka — SpeechRecognition palaiko įvairias speech-to-text API. Ji veikia kaip kelių didžiųjų (Google Cloud Speech, Microsoft Bing Voice Recognition, IBM Speech to Text) API apvalkalas.
Biblioteka labai universali – leidžia transkribuoti ir realaus laiko garsą, ir garso failus. Pradedantiesiems ši API suprantama, dokumentacija išsami — puikus atspirties taškas.
DeepSpeech
DeepSpeech – atvirojo kodo Mozilla kalbos atpažinimo biblioteka, paremta TensorFlow ir giliuoju mokymusi. Ji naudoja neuroninius tinklus, panašius į žmogaus smegenų veikimą, kad paverstų kalbą tekstu. DeepSpeech optimizuota tiek CPU, tiek GPU, tad efektyviai veikia net silpnesniuose įrenginiuose, pvz., Raspberry Pi.
Ji geba tvarkytis su įvairiais anglų kalbos akcentais, dialektais ir net kitomis kalbomis, pvz., kinų, todėl tinka tarptautiniam naudojimui.
Kaldi
Kaldi — ne tik kalbos atpažinimo įrankis, bet ir platus žmogiškos kalbos duomenų apdorojimo rinkinys. Kaldi populiarus tarp tyrėjų, palaiko tiesinę algebrą, baigtinių būsenų transduktorius. Puikus pasirinkimas bandantiems akustinį modeliavimą su HMM ar neuroniniais tinklais.
Kaldi labai modulinė – pažengę vartotojai gali pritaikyti atpažinimo variklį pagal savo poreikius.
AssemblyAI
AssemblyAI – ne tradicinė biblioteka, o API, teikianti galingas, giluminiu mokymusi grįstas kalbos į tekstą funkcijas. Ji siūlo realaus laiko transkripciją, kelių garsiakalbių atpažinimą, sentimentų analizę ir dar daugiau.
Puikus pasirinkimas norintiems greitai integruoti galingą atpažinimą – nereikia rūpintis dideliais duomenų rinkiniais ar sudėtingu ML.
CMU Sphinx (PocketSphinx)
CMU Sphinx, dar vadinama PocketSphinx, – viena seniausių atviro kodo kalbos atpažinimo sistemų. Dėl mažų skaičiavimo sąnaudų itin tinkama mobiliems ar įterptiems įrenginiams.
Nors tikslumu nusileidžia giluminio mokymosi modeliams, tačiau veikia be interneto ryšio ir lanksčiai prisitaiko įvairiose platformose (Windows, Linux, Android), tad nepakeičiama riboto ryšio programose.
Wav2Letter
Sukurta Facebook AI, Wav2Letter – dar viena atvirojo kodo biblioteka pilnoms ASR sistemoms kurti. Ji pagrįsta CNN architektūra, kurią galima treniruoti su GPU ir dideliais duomenų kiekiais.
Pagrindinis Wav2Letter privalumas – greitis ir didelis efektyvumas tiek treniruojant, tiek atpažįstant, todėl tinka turintiems galingus įrenginius.
Vosk
Vosk – nešiojama kalbos atpažinimo sistema, veikianti daugeliu kalbų ir palaikanti daugybę platformų: Android, iOS, Raspberry Pi. Atpažįsta tiek realaus laiko, tiek iš anksto įrašytą garsą, todėl tinka mobiliosioms programoms ar IoT įrenginiams.
Visos šios bibliotekos turi savų stiprybių, o tinkamiausia priklauso nuo projekto. Pvz., norint realaus laiko transkripcijos Windows programai, geriausi pasirinkimai – SpeechRecognition arba AssemblyAI. Jei reikia pažangių ML ar deep learning funkcijų, rinkitės DeepSpeech ar Wav2Letter.
Pradedantiesiems verta išbandyti GitHub esančias šių bibliotekų pamokas ir dokumentaciją – dažnai rasite žingsnis po žingsnio vadovų ir pavyzdžių, kurie padės pajudėti su jūsų kalbos atpažinimo projektais.
Nesvarbu, ar esate duomenų analitikas, informatikos studentas ar kūrėjas, norintis pridėti kalbos į tekstą funkciją savo programai, Python siūlo daug bibliotekų ir API, tinkančių įvairiems poreikiams ir įgūdžiams. Išbandykite vieną jų ir pradėkite paversti kalbą vertinga informacija jau šiandien!
Išbandykite Speechify tekstas-į-kalbą API
Speechify tekstas į kalbą API – galingas įrankis tekstui skaityti balsu, skirtas didinti prieinamumą ir patogumą įvairiose programose. Naudoja naujausią sintezę, siūlo natūralų balsą daugeliu kalbų – puikiai tinka kūrėjams, norintiems audio skaitymo funkcijų svetainėms, programoms ar e. mokymuisi.
Naudojant paprastą Speechify API galima lengvai integruoti ir pritaikyti – nuo pagalbos regėjimo negalią turintiems iki interaktyvių balso sistemų programose.
Dažniausiai užduodami klausimai
Dažniausiai Python kalbos atpažinimui geriausia laikoma SpeechRecognition. Ji palaiko įvairias STT API, įskaitant recognize_google, ir veikia su įvairiomis kalbomis bei platformomis.
gTTS (Google Text-to-Speech) – populiari Python biblioteka tekstui skaityti balsu anglų, prancūzų ir kitomis kalbomis, naudojanti Google patikimus algoritmus.
Taip, Python puikiai tinka kalbos atpažinimui – turi daug bibliotekų (SpeechRecognition, PyAudio), NLP įrankių ir aktyvią bendruomenę, todėl tinka kūrėjams ir tyrėjams.
Kalbos atpažinimui Python naudokite SpeechRecognition biblioteką: įdiekite per pip, importuokite ir naudokite recognize_google funkciją WAV garsui konvertuoti į tekstą naudojant Google kalbos modelius.

