Głosy tekstu na mowę. Jak to działa?
Polecane w
Jak działają głosy tekstu na mowę? Opowiadamy trochę o technologii AI, która zamienia słowa w naturalnie brzmiące głosy - w locie!
Choć koncepcja tekstu na mowę - czyli oprogramowania komputerowego, które może czytać na głos słowa z ekranu komputera użytkownikowi - nie jest nowa, wydaje się przechodzić pewną rewolucję w ostatnich latach.
Według jednego z niedawnych badań, rynek tekstu na mowę był wyceniany na niesamowite 2 miliardy dolarów w 2020 roku - częściowo z powodu wpływu wciąż trwającej pandemii COVID-19. Co więcej, szacuje się, że jego wartość wzrośnie do 5 miliardów dolarów już w 2026 roku - imponująca roczna stopa wzrostu na poziomie 14,6%.
Wiele z tego można przypisać sposobom, w jakie rozwiązania tekstu na mowę pomagają osobom z różnorodnymi zaburzeniami wzroku. Według Centrów Kontroli i Prewencji Chorób, około 12 milionów osób powyżej 40 roku życia w Stanach Zjednoczonych ma jakiś problem z przetwarzaniem informacji wizualnych. Z tej liczby, milion jest całkowicie niewidomych, a osiem milionów ma problemy ze wzrokiem z powodu niekorygowanych wad refrakcji. Ta liczba wzrosła z 4,2 miliona w 2012 roku.
Wszystko to oznacza, że technologia tekstu na mowę przez lata udowodniła swoją wartość. Wiele rozwiązań, takich jak Speechify, oferuje nawet wiele wysokiej jakości głosów do wyboru w zależności od potrzeb użytkownika. Ale jak te rozwiązania działają i skąd tyle opcji głosowych? Odpowiedzi na takie pytania wymagają uwzględnienia kilku ważnych rzeczy.
Jak działa tekst na mowę
Zanim przejdziemy do samych głosów w tekście na mowę, ważne jest, aby lepiej zrozumieć, jak te rozwiązania działają na początku.
Tekst na mowę wykorzystuje sztuczną inteligencję, uczenie maszynowe i podobne technologie, aby przekształcić pisane słowa na stronie lub ekranie w treść audio, którą można następnie odczytać na głos. Obejmuje to nie tylko treść strony internetowej czy artykułu, ale także tekst napisany w aplikacjach takich jak Microsoft Word i innych.
Sama treść audio jest generowana całkowicie przez używane urządzenie. Oprócz działania na komputerach stacjonarnych i laptopach, tekst na mowę jest również dostępny na niemal każdym smartfonie, tablecie lub innym urządzeniu mobilnym dostępnym na rynku.
W zdecydowanej większości rozwiązań, przetwarzanie tekstu na mowę odbywa się lokalnie na samym urządzeniu. Dzięki temu tekst na mowę jest wartościowy nawet bez obecności połączenia z Internetem.
Oprócz umożliwienia osobom z problemami wzrokowymi dostępu do treści pisanych, tekst na mowę jest również pomocny, ponieważ można kontrolować ton i nawet tempo głosu. Jeśli chcesz coś spowolnić, aby lepiej to zrozumieć, możesz to zrobić. Podobnie, jeśli chcesz przyspieszyć głos, aby szybciej przejść przez treść, również możesz to zrobić.
Głosy tekstu na mowę: Rozkład na części
Jeśli chodzi o rzeczywisty głos używany przez te rozwiązania tekstu na mowę, wszystko sprowadza się do koncepcji zwanej syntezatorem mowy.
Czym jest syntezator mowy?
Synteza mowy to forma wyjścia, w której komputer (lub inne urządzenie) czyta słowa na głos w wcześniej wybranym głosie. Koncepcyjnie, nie różni się to zbytnio od czytania słów na stronie samodzielnie lub nawet ich drukowania - nadal mówimy o tym, jak komputer wyprowadza żądane informacje. Tylko zamiast robić to wyłącznie za pomocą tekstu, robi to za pomocą głosu, który można usłyszeć przez głośniki lub słuchawki.
Ogólnie rzecz biorąc, synteza mowy działa poprzez rozwiązanie, z którego korzystasz, wykonując szereg podstawowych, ale ważnych kroków. Pierwszym z nich jest konwersja tekstu na stronie na słowa.
Krok 1: Przetwarzanie wstępne
Na tym etapie procesu, rozwiązania tekstu na mowę analizują słowa w treści, którą chcesz przeczytać, i przekształcają litery - które są zasadniczo tylko symbolami - w słowa. Ta część procesu jest ważna, ponieważ pisane słowo może być czasami bardziej dwuznaczne, niż ludzie sobie zdają sprawę. Niektóre słowa lub nawet frazy mogą mieć wiele znaczeń. Podobnie, komputer musi być w stanie "zrozumieć" różnicę między słowami "ich", "tam" i "są" - trzema słowami, które są wymawiane tak samo, ale mogą dramatycznie zmienić kontekst zdania.
Tutaj w grę wchodzi sztuczna inteligencja i uczenie maszynowe. Dzięki AI, rozwiązania tekstu na mowę mogą być "szkolone" w celu wyeliminowania tej dwuznaczności tak bardzo, jak to możliwe. Ten etap procesu głosów tekstu na mowę nazywa się "przetwarzaniem wstępnym", ponieważ dzieje się "za kulisami" zanim aplikacja zacznie cokolwiek czytać na głos.
To także faza, w której rozwiązanie do zamiany tekstu na mowę rozróżnia słowa, które mogą być pisane tak samo, ale brzmią inaczej w zależności od kontekstu. "Read" jest doskonałym przykładem, ponieważ możesz chcieć przeczytać książkę wieczorem, aby się zrelaksować, mimo że przeczytałeś ją już wiele razy w przeszłości. Ludzie łatwo rozróżniają te dwa pojęcia dzięki kontekstowi - sztuczna inteligencja jest wykorzystywana po stronie komputerowej, aby osiągnąć podobny rezultat.
Równie trudne w tym okresie są rzeczy takie jak liczby, skróty, akronimy i inne. Znaki specjalne, takie jak znak dolara, są również trudniejsze do "przetłumaczenia" niż samo słowo pisane. Dlatego faza wstępnego przetwarzania jest tak ważna - pomaga upewnić się, że wszystko, co zostanie ostatecznie przeczytane na głos, ma sens w kontekście, w jakim było zamierzone.
Krok 2: Zrozumienie Wymowy
Gdy tekst został przeanalizowany i rozwiązanie do zamiany tekstu na mowę "rozumie", jakie słowa muszą być wypowiedziane na głos, rozpoczyna się kolejna część procesu. To wtedy te słowa są przekształcane w fonemy - w zasadzie chodzi o naukę, jak odpowiednio wymawiać słowa w danym tekście.
To część procesu, która na przestrzeni lat ewoluowała dramatycznie. Jeśli kiedykolwiek miałeś okazję korzystać z rozwiązania do zamiany tekstu na mowę z lat 90. (lub oglądałeś starszy film z lat 70. lub 80., w którym pojawiła się scena z zamianą tekstu na mowę), prawdopodobnie miałeś do czynienia z komputerowym głosem, który nie brzmiał naturalnie. Był od razu rozpoznawalny jako generowany przez komputer i mimo że można było zrozumieć, co mówi, większość słów była prawdopodobnie wymawiana niepoprawnie.
Krok 3: Rozpoczyna się Konwersja na Mowę
Gdy te fonemy zostały zidentyfikowane, rozwiązanie do zamiany tekstu na mowę przechodzi do ostatniej części procesu: przekształcenia tych informacji w dźwięk, który można odtworzyć na głośnikach lub słuchawkach urządzenia.
To coś, co dzieje się na kilka różnych sposobów w zależności od używanego rozwiązania. Jednym z nich jest sytuacja, w której aktor lub aktorka czyta listę fonemów na głos, po czym te informacje są wprowadzane z powrotem do komputera i samego rozwiązania. Następnie, gdy aplikacja zeskanuje konkretny blok tekstu, może dopasować fonemy, które znajdzie na stronie, do fonemów, które zostały wcześniej nagrane. Następnie łączy te dwie rzeczy, aby odtworzyć wersję audio tekstu w znacznie bardziej naturalny sposób niż kiedykolwiek wcześniej.
Niektóre rozwiązania nadal pozwalają komputerowi generować głos samodzielnie. Działa to w podobny sposób, tylko "głos" nie opiera się na wcześniej nagranym dźwięku, ale jest po prostu tworzony przez generowanie określonych częstotliwości dźwięku w odpowiedniej kolejności.
W tym sensie nie różni się to całkowicie od sposobu, w jaki syntezator muzyczny może pozwolić muzykowi naśladować dźwięki instrumentów za pomocą standardowej klawiatury podłączonej do komputera. Mogą grać na klawiaturze jak na pianinie, chociaż zamiast muzyki fortepianowej każdy klawisz może naśladować inny akord na gitarze lub dźwięki z bębna. To wciąż komputer "rozumiejący" intencję każdego uderzenia klawisza i łączący je z odpowiednim dźwiękiem, choć w innym kontekście.
Opcje Głosowe i Więcej
Część powodu, dla którego dostępnych jest tak wiele różnych opcji głosowych w tych generatorach głosu do zamiany tekstu na mowę, polega na tym, że nie są one tak trudne do stworzenia, jak wiele osób zakłada. Rodzaje fonemów potrzebnych do działania generatora głosu AI są w rzeczywistości dość powszechne w języku ludzkim. Dlatego wystarczy, aby aktor lub aktorka usiadł przed mikrofonem, przeczytał krótki skrypt zawierający wszystkie niezbędne fonemy, po czym te informacje mogą zostać wprowadzone z powrotem do samego rozwiązania.
Technologia mowy AI rozpozna każdy z fonemów indywidualnie, zasadniczo "rozbijając" to nagranie na sumę jego części i używając tych, które są niezbędne do dokładnego generowania głosów do zamiany tekstu na mowę, gdy użytkownik próbuje przeczytać stronę internetową lub inną formę treści.
Oczywiście istnieje wiele innych potencjalnych zastosowań tego typu generatora głosu o naturalnym brzmieniu, poza pomocą osobom z problemami wzrokowymi. W ciągu ostatnich kilku lat społeczeństwo bardzo zainteresowało się generowaniem mowy i głosu AI dzięki sieciom społecznościowym, takim jak TikTok.
TikTok jest w rzeczywistości jedną z większych marek, które przyjęły generowanie głosu AI, pozwalając użytkownikom nagrywać filmy, umieszczać tekst na tych filmach, a następnie korzystać z syntezy mowy, aby czytać tę treść na głos. To zabawny sposób na dodanie dodatkowej warstwy immersji do treści publikowanych na TikToku i jest to coś, co z czasem będzie stawało się coraz bardziej popularne.
Przyszłość Zamiany Tekstu na Mowę Nadeszła
Ostatecznie, zamiana tekstu na mowę jest nieocenionym narzędziem ze względu na to, co umożliwia nam robić. Pozwala osobom z problemami wzrokowymi cieszyć się i rozumieć te same treści, co wszyscy inni, na własnych warunkach. Może przekształcić każdy post na blogu, artykuł, dokument, białą księgę lub inną drukowaną treść w łatwo przyswajalne doświadczenie audio, pozwalając cieszyć się nim nie tylko w domu, ale także w drodze do pracy, na siłowni itp.
Nie tylko sprawia, że nasze życie staje się bardziej produktywne, ale także pomaga rozwiązywać różnorodne istotne problemy, takie jak te wymienione powyżej. Na tej podstawie łatwo zrozumieć, dlaczego synteza mowy i mowa AI stały się tak popularne w ostatnich latach.
Jeśli chcesz dowiedzieć się więcej o głosach tekst-na-mowę lub po prostu poznać sposoby, w jakie takie rozwiązanie może przynieść korzyści w Twoim życiu, nie zwlekaj - wypróbuj Speechify za darmo już dziś.
Speechify to aplikacja numer 1 w App Store z najbardziej naturalnie brzmiącą mową i doskonałym doświadczeniem użytkownika, oferująca wiele niestandardowych głosów.
Speechify jest dostępne w kilku wersjach: dla pojedynczych użytkowników, grup lub API dla firm każdej wielkości.
Tyler Weitzman
Tyler Weitzman jest współzałożycielem, szefem działu sztucznej inteligencji i prezesem Speechify, najpopularniejszej aplikacji do zamiany tekstu na mowę na świecie, z ponad 100 000 recenzji 5-gwiazdkowych. Weitzman ukończył Uniwersytet Stanforda, gdzie zdobył licencjat z matematyki oraz magisterium z informatyki na ścieżce sztucznej inteligencji. Został wybrany przez magazyn Inc. jako jeden z 50 najlepszych przedsiębiorców, a jego prace były prezentowane w Business Insider, TechCrunch, LifeHacker, CBS i innych publikacjach. Badania magisterskie Weitzmana koncentrowały się na sztucznej inteligencji i zamianie tekstu na mowę, a jego końcowy artykuł nosił tytuł: „CloneBot: Spersonalizowane przewidywania odpowiedzi w dialogu.”