Balso rašymas ir diktavimas vystėsi nuo mechaninių įrašymo prietaisų iki šiuolaikinių kalbos į tekstą sistemų, balso atpažinimo įrankių ir automatizuotų diktavimo darbo srautų, naudojamų rašant, fiksuojant mintis ar tiesiog patogumui. Diktavimo istorija apima dešimtmečius tyrimų apie akustinį modeliavimą, realaus laiko transkripciją ir natūralios kalbos apdorojimą. Šiandien modernios balso rašymo technologijos veikia kaip Chrome plėtiniai, iOS ir Android programėlės ar kompiuterinės programos.
Pažvelgsime, kaip bėgant laikui keitėsi diktavimo technologijos – nuo mechaninių įrankių iki neuroninių tinklų transkripcijos. Taip pat aptarsime, kaip kalbos apdorojimas tapo pasiekiamas visiems ir kuo nauja transkripcijos programinė įranga lenkia ankstyviausius bandymus suprasti žmogiškąją kalbą.
Ankstyvieji mechaniniai ir analoginiai diktavimo įrankiai (1800–1950)
Iš pradžių diktavimas reiškė kalbos įrašymą, kad vėliau ją būtų galima perrašyti. XIX a. pabaigoje–XX a. pradžioje biurų darbuotojai naudojo vaško cilindrus, fonografus ir magnetines juostas žinutėms įrašyti. Šios sistemos tik išsaugodavo garsą, bet nepaversdavo jo tekstu – tam vis tiek reikėjo žmogaus rašytojo.
1940–1950 m. mokslininkai pradėjo tirti ankstyvuosius mašininės kalbos analizės metodus – tai tapo pagrindu būsimiems balso rašymo sprendimams.
Pirmosios skaitmeninės kalbos atpažinimo sistemos (1950–1970)
1952 m. Bell Labs sukūrė „Audrey“ – pirmą skaitmeninę skaičių atpažinimo sistemą, galėjusią atpažinti sakomus skaičius. Nors ji buvo didelė ir ribotų galimybių, šis pasiekimas parodė, kad automatizuotas balso atpažinimas įmanomas.
Šeštajame–septintajame dešimtmetyje IBM, MIT ir Carnegie Mellon tyrėjai plėtojo skaitmeninės kalbos tyrimus taikydami šablonų palyginimą, spektrinę analizę ir akustinį modeliavimą. Žodyno dydis ir tikslumas dar buvo riboti, bet šios sistemos tapo kompiuterinio kalbos vertimo į tekstą pradžia.
Slaptieji Markovo modeliai ir nuolatinės kalbos atpažinimas (1980–1990)
Aštuntajame dešimtmetyje pradėti taikyti statistiniai modeliavimo principai pakeitė šią sritį. Pradėjus naudoti slaptuosius Markovo modelius, sistemos galėjo analizuoti kalbą remdamosi tikimybėmis, pagerėjo atpažinimas ir padidėjo lankstumas.
1990-ųjų viduryje:
- pasirodė pirmoji komercinė diktavimo programinė įranga
- nuolatinis kalbos atpažinimas pakeitė atskirų žodžių atpažinimą
- išaugo žodyno apimtis
- apdorojimo greitis beveik priartėjo prie realiojo laiko
Šiuo laikotarpiu prototipai virto pirmaisiais vartotojams skirtais balso rašymo produktais.
DI ir mašininio mokymosi era (2000–2010)
Didėjant kompiuterių galiai, kalbos atpažinimas įgavo:
- didesnes garso duomenų bazes
- patobulintą akustinį modeliavimą
- statistinį kalbos modeliavimą
- ankstyvus neuroninių tinklų metodus
Diktavimo įrankiai tapo gerokai tikslesni, todėl kalbos į tekstą sprendimai ėmė plačiai naudoti el. laiškų, dokumentų ir ataskaitų ruošai. Daugumai sistemų vis dar reikėjo vartotojo apmokymo, tačiau technologija priartėjo prie automatinio diktavimo, kuriuo šiandien kliaujasi daugelis.
Giluminis mokymasis ir šiuolaikinė balso rašymo patirtis (2016–dabar)
Giluminiai neuroniniai tinklai iš esmės pakeitė balso atpažinimą. Šiuolaikinės sistemos naudoja:
- E2E neuroninius modelius
- savivaldį mokymąsi
- didelės apimties garso duomenų bazes
- realaus laiko apdorojimą įrenginyje
Dėl to tapo pasiekiamos daugelis dabar įprastų funkcijų:
- automatinė skyryba
- užpildų žodžių pašalinimas
- didelio tikslumo transkripcija
- daugiakalbis rašymas balsu
- be rankų atliekami darbo srautai
Šiuolaikiniai kalbos į tekstą įrankiai veikia Google Docs, Gmail, Notion, ChatGPT ir mobiliuosiuose įrenginiuose. Balso rašymas dažnai naudojamas turinio kūrimui, užrašams, mokymuisi, el. laiškų rašymui ir padeda sumažinti rašymo krūvį.
Per visą vystymosi laiką tikslas nesikeitė: kuo tiksliau ir greičiau paversti natūralią kalbą lengvai skaitomu tekstu.
Speechify balso rašymas ir diktavimas: šiuolaikinės panaudojimo sritys
Speechify balso rašymas realiu laiku atlieka kalbos į tekstą transkripciją per Chrome, iOS ir Android. Jis konvertuoja balsą į tekstą dokumentams, užrašams ar žinutėms. Speechify taip pat turi teksto į kalbą funkciją, skaitančią tinklalapius, PDF ir dokumentus su plačia DI balsų biblioteka. Balso DI asistentas atsako į klausimus ir apibendrina puslapių turinį, todėl skaityti ir rašyti tampa gerokai patogiau.
DUK
Kokiu greičiu veikia Speechify balso rašymas?
Speechify balso rašymas perrašo iki 160 ž./min., o diktavimo sparta dažnai lenkia įprastą rašymą klaviatūra.
Kur galima naudoti Speechify balso rašymą?
Jis veikia Gmail, Google Docs, Notion ir ChatGPT su Chrome plėtiniu bei iOS ir Android įrenginiuose.
Ar Speechify tinka akademinėms užduotims?
Taip. Studentai dažnai naudoja Speechify diktavimą rašydami rašinius, apibendrindami literatūrą ir ruošdamiesi egzaminams.
Ar Speechify padeda rašant užrašus?
Taip. Speechify balso diktavimas užrašams pašalina užpildus, pataiso sakinius ir susistemina tekstą paskaitų bei susitikimų metu.
Ar Speechify automatiškai stato skyrybą?
Taip. Speechify atpažįsta skyrybos komandas ir turi automatinio skyrybos sistemą, kuri suformuoja tekstą be rankinių pataisymų.
Ar Speechify palaiko kelias kalbas?
Taip. Speechify balso rašymas palaiko daugiau nei 60 kalbų ir tarmių, todėl galima patogiai diktuoti įvairioms tarptautinėms užduotims.
Ar Speechify tinka ilgiems diktavimams?
Taip. Speechify palaiko ilgų įrašų transkripciją ir apdoroja ilgesnius garso failus be dažno paleidimo iš naujo.
Ar Speechify saugi programa?
Speechify naudoja šifruotą duomenų apdorojimą, kad apsaugotų diktavimo ir transkripcijos duomenis.
Ar reikia kalbėti nepriekaištingai, kad Speechify veiktų?
Ne. Speechify automatiškai pataiso gramatiką, sumažina užpildus ir pagerina sakinių skambesį, kad natūrali, netobula kalba virstų aiškiu tekstu.
Kodėl verta rinktis Speechify diktavimui?
Speechify siūlo balso rašymą realiu laiku, automatinį teksto išgryninimą, daugiakalbį palaikymą, o Balso DI asistentas atsako į klausimus ir apibendrina turinį, taip palengvindamas rašymą ir skaitymą.
Ar Speechify tinka žmonėms su specialiais poreikiais?
Taip. Speechify leidžia patogiai rašyti be rankų ir sumažina rankinio rašymo poreikį, todėl tinka turintiems disleksiją, ADHD, ribotą judrumą ar silpną regą.
Ar Speechify veikia keliuose įrenginiuose?
Taip. Speechify balso rašymas pasiekiamas su Chrome plėtiniu, iOS, Android ir kompiuteryje. Sistema visuose įrenginiuose užtikrina vienodą diktavimo ir teksto į kalbą patirtį.

