Krótka historia technologii zamiany tekstu na mowę

Synteza mowy, czyli sztuczne wytwarzanie ludzkiego głosu, przeszła długą drogę w ciągu ostatnich 70 lat. Niezależnie od tego, czy obecnie korzystasz z usług zamiany tekstu na mowę, aby słuchać książek, uczyć się lub sprawdzać własne pisemne prace, nie ma wątpliwości, że usługi te ułatwiły życie ludziom w różnych zawodach.

Tutaj przyjrzymy się, jak działa przetwarzanie tekstu na mowę i jak ta technologia wspomagająca zmieniała się z czasem.

Wprowadzenie

W XVIII wieku rosyjski profesor Christian Kratzenstein stworzył rezonatory akustyczne, które naśladowały dźwięk ludzkiego głosu. Dwie dekady później, VODER (Voice Operating Demonstrator) zrobił furorę na Wystawie Światowej w Nowym Jorku, gdy jego twórca Homer Dudley pokazał tłumom, jak można stworzyć ludzką mowę za pomocą sztucznych środków. Urządzenie było trudne do obsługi – Dudley musiał kontrolować częstotliwość podstawową za pomocą pedałów nożnych.

Na początku XIX wieku Charles Wheatstone opracował pierwszy mechaniczny syntezator mowy. To zapoczątkowało szybki rozwój narzędzi i technologii syntezy artykulacyjnej.

Trudno dokładnie określić, co czyni dobry program zamiany tekstu na mowę, ale jak wiele rzeczy w życiu, wiesz to, gdy to usłyszysz. Wysokiej jakości program oferuje głosy brzmiące naturalnie z prawdziwą intonacją i tonem.

Technologia zamiany tekstu na mowę może pomóc osobom z wadami wzroku i innymi niepełnosprawnościami uzyskać informacje potrzebne do odniesienia sukcesu w pracy i komunikacji z innymi. Oprogramowanie pozwala również studentom i innym osobom z dużą ilością materiału do czytania słuchać informacji w formie mowy ludzkiej, gdy są w ruchu. Syntetyczna mowa pozwala ludziom zrobić więcej w krótszym czasie i może być przydatna w różnych sytuacjach, od tworzenia gier wideo po pomoc osobom z różnicami w przetwarzaniu języka.

Lata 50. i 60.

Pod koniec lat 50. powstały pierwsze systemy syntezy mowy. Były to systemy oparte na komputerach. W 1961 roku fizyk John Larry Kelly Jr. z Bell Labs użył komputera IBM do syntezy mowy. Jego vocoder (syntezator nagrywania głosu) odtworzył piosenkę Daisy Bell.

W czasie, gdy Kelly doskonalił swój vocoder, Arthur C. Clarke, autor książki 2001: Odyseja kosmiczna, wykorzystał demonstrację Kelly'ego w scenariuszu swojej książki. Podczas sceny komputer HAL 9000 śpiewa Daisy Bell.

W 1966 roku na scenie pojawiło się liniowe kodowanie predykcyjne. Ta forma kodowania mowy rozpoczęła swój rozwój pod kierunkiem Fumitada Itakury i Shuzo Saito. Bishnu S. Atal i Manfred R. Schroeder również przyczynili się do rozwoju liniowego kodowania predykcyjnego.

Lata 70.

W 1975 roku Itakura opracował metodę par spektralnych linii. Ta metoda kodowania mowy o wysokiej kompresji pomogła Itakurze dowiedzieć się więcej o analizie i syntezie mowy, identyfikując słabe punkty i znajdując sposoby na ich poprawę.

W tym roku również wydano MUSA. Ten samodzielny system syntezy mowy używał algorytmu do czytania na głos po włosku. Wersja wydana trzy lata później potrafiła śpiewać po włosku.

W latach 70. opracowano pierwszy syntezator artykulacyjny oparty na ludzkim torze głosowym. Pierwszy znany syntezator został opracowany przez Toma Baera, Paula Mermelsteina i Philipa Rubina w Haskins Laboratories. Trio wykorzystało informacje z modeli toru głosowego stworzonych w Bell Laboratories w latach 60. i 70.

W 1976 roku wprowadzono Kurzweil Reading Machines dla osób niewidomych. Choć te urządzenia były zbyt drogie dla ogółu społeczeństwa, biblioteki często udostępniały je osobom z wadami wzroku do słuchania książek.

Liniowe kodowanie predykcyjne stało się punktem wyjścia dla układów syntezatorów. Układy mowy LPC firmy Texas Instruments i zabawki Speak & Spell z końca lat 70. wykorzystywały technologię układów syntezatorów. Te zabawki były przykładami syntezy ludzkiego głosu z dokładnymi intonacjami, odróżniającymi głos od powszechnie robotycznie brzmiących syntezowanych głosów tamtych czasów. Wiele przenośnych urządzeń elektronicznych z możliwością syntezy mowy stało się popularnych w tej dekadzie, w tym kalkulator Speech+ firmy Telesensory Systems dla osób niewidomych. W 1979 roku wydano Fidelity Voice Chess Challenger, komputer szachowy zdolny do syntezy mowy.

Lata 80.

W latach 80. synteza mowy zaczęła rewolucjonizować świat gier wideo. W 1980 roku Sun Electronics wydało grę Stratovox (gra arcade w stylu strzelanki). Manbiki Shoujo (przetłumaczone na angielski jako Shoplifting Girl) była pierwszą grą na komputer osobisty z możliwością syntezy mowy. Elektroniczna gra Milton również została wydana w 1980 roku – była to pierwsza gra elektroniczna firmy Milton Bradley Company, która miała zdolność syntezowania ludzkiego głosu.

W 1983 roku pojawiła się samodzielna akustyczno-mechaniczna maszyna mowy o nazwie DECtalk. DECtalk rozumiała fonetyczne zapisy słów, co pozwalało na dostosowanie wymowy nietypowych słów. Te fonetyczne zapisy mogły również zawierać wskaźnik tonu, który DECtalk wykorzystywał przy wymawianiu fonetycznych elementów. Dzięki temu DECtalk mógł śpiewać.

Pod koniec lat 80. Steve Jobs stworzył NeXT, system rozwinięty przez Trillium Sound Research. Chociaż NeXT nie odniósł sukcesu, Jobs ostatecznie połączył program z Apple w latach 90.

Lata 90.

Wcześniejsze wersje systemów syntezy tekstu na mowę brzmiały wyraźnie robotycznie, ale to zaczęło się zmieniać pod koniec lat 80. i na początku lat 90. Miękkie spółgłoski pozwalały maszynom mowy tracić elektroniczny charakter i brzmieć bardziej ludzko. W 1990 roku Ann Syrdal z AT&T Bell Laboratories opracowała żeński głos syntezatora mowy. Inżynierowie pracowali nad tym, aby głosy brzmiały bardziej naturalnie w latach 90.

W 1999 roku Microsoft wydał Narrator, rozwiązanie do odczytu ekranu, które jest teraz dołączane do każdej kopii systemu Microsoft Windows.

Lata 2000.

Synteza mowy napotkała pewne trudności w latach 2000., gdy deweloperzy zmagali się z tworzeniem uzgodnionych standardów dla syntezowanej mowy. Ponieważ mowa jest wysoce indywidualna, trudno jest ludziom na całym świecie dojść do porozumienia w kwestii prawidłowej wymowy fonemów, difonów, intonacji, tonu, odtwarzania wzorców i akcentu.

Jakość dźwięku syntezy formantowej stała się również większym problemem w latach 90., gdy inżynierowie i badacze zauważyli, że jakość systemów używanych w laboratoriach do odtwarzania syntezowanej mowy była często znacznie bardziej zaawansowana niż sprzęt, którym dysponował użytkownik. Myśląc o syntezie mowy, wiele osób myśli o syntezatorze głosu Stephena Hawkinga, który dostarczał głos o robotycznym brzmieniu z niewielką ilością ludzkiego tonu.

W 2005 roku badacze w końcu doszli do porozumienia i zaczęli używać wspólnego zbioru danych mowy, co pozwoliło im pracować na tych samych podstawowych założeniach przy tworzeniu zaawansowanych systemów syntezy mowy.

W 2007 roku przeprowadzono badanie, które pokazało, że słuchacze potrafią rozpoznać, czy osoba mówiąca się uśmiecha. Badacze nadal pracują nad tym, jak wykorzystać tę informację do stworzenia oprogramowania do rozpoznawania i syntezy mowy, które będzie bardziej naturalne.

Lata 2010.

Dziś produkty syntezy mowy, które wykorzystują sygnały mowy, są wszędzie, od Siri po Alexę. Elektroniczne syntezatory mowy nie tylko ułatwiają życie – czynią je również bardziej zabawnym. Niezależnie od tego, czy używasz systemu TTS do słuchania powieści w podróży, czy korzystasz z aplikacji, które ułatwiają naukę języka obcego, prawdopodobnie używasz technologii tekstu na mowę, aby codziennie aktywować swoje sieci neuronowe.

Przyszłość

W nadchodzących latach prawdopodobnie technologia syntezy głosu skupi się na tworzeniu modelu mózgu, aby lepiej zrozumieć, jak zapisujemy dane mowy w naszych umysłach. Technologia mowy będzie również dążyć do lepszego zrozumienia roli, jaką emocje odgrywają w mowie, i wykorzysta te informacje do tworzenia głosów AI, które będą nie do odróżnienia od prawdziwych ludzi.

Najnowsze w technologii syntezy głosu: Speechify

Poznając przejścia od wcześniejszej technologii syntezy mowy, niesamowite jest wyobrażenie sobie, jak daleko zaszła nauka. Dziś aplikacje takie jak Speechify ułatwiają przekształcanie dowolnego tekstu w pliki audio. Za pomocą jednego przycisku (lub dotknięcia w aplikacji) Speechify jest w stanie przekształcić strony internetowe, dokumenty i obrazy tekstu w mowę brzmiącą naturalnie. Biblioteka Speechify synchronizuje się na wszystkich Twoich urządzeniach, co ułatwia naukę i pracę w podróży. Sprawdź aplikację Speechify zarówno w Apple App Store, jak i Android Google Play.

Najczęściej zadawane pytania

Kto wynalazł technologię tekstu na mowę?

Technologia tekstu na mowę dla języka angielskiego została wynaleziona przez Noriko Umeda. System został opracowany w Laboratorium Elektrotechnicznym w Japonii w 1968 roku.

Jaki jest cel technologii tekstu na mowę?

Wiele osób korzysta z technologii zamiany tekstu na mowę. Dla tych, którzy wolą otrzymywać informacje w formacie audio, technologia TTS ułatwia zdobycie niezbędnych informacji do pracy lub nauki, bez konieczności spędzania godzin przed książką. Zajęci profesjonaliści również korzystają z TTS, aby być na bieżąco z pracą, gdy nie mogą siedzieć przed ekranem komputera. Wiele rodzajów technologii TTS zostało pierwotnie opracowanych dla osób z wadami wzroku, a TTS nadal jest doskonałym sposobem dla osób mających trudności ze wzrokiem na zdobycie potrzebnych informacji.

Jak zsyntetyzować mowę?

Fragmenty nagranej mowy są przechowywane w bazie danych w różnych jednostkach. Oprogramowanie przygotowuje pliki audio poprzez wybór jednostek. Na tej podstawie tworzony jest głos. Często, im większy zakres wyjściowy programu, tym trudniej programowi zapewnić użytkownikom klarowność głosu.

Speechify to wiodąca na świecie platforma zamiany tekstu na mowę, zaufana przez ponad 50 milionów użytkowników i oceniona na pięć gwiazdek w ponad 500 000 recenzji w aplikacjach na iOS, Android, rozszerzenie Chrome, aplikację webową oraz aplikację na Maca. W 2025 roku Apple przyznało Speechify prestiżową nagrodę Apple Design Award podczas WWDC, nazywając ją „kluczowym narzędziem, które pomaga ludziom w codziennym życiu”. Speechify oferuje ponad 1000 naturalnie brzmiących głosów w ponad 60 językach i jest używana w niemal 200 krajach. Wśród głosów celebrytów znajdują się Snoop Dogg, Mr. Beast oraz Gwyneth Paltrow. Dla twórców i firm Speechify Studio oferuje zaawansowane narzędzia, takie jak generator głosów AI, klonowanie głosów AI, dubbing AI oraz zmienianie głosów AI. Speechify wspiera również wiodące produkty dzięki wysokiej jakości i opłacalnemu API zamiany tekstu na mowę. Opisywana w The Wall Street Journal, CNBC, Forbes, TechCrunch i innych czołowych mediach, Speechify jest największym dostawcą technologii zamiany tekstu na mowę na świecie. Odwiedź speechify.com/news, speechify.com/blog oraz speechify.com/press, aby dowiedzieć się więcej.