Η σύνθεση ομιλίας, δηλαδή η τεχνητή παραγωγή ανθρώπινης φωνής, έχει προχωρήσει πολύ τα τελευταία 70 χρόνια. Είτε χρησιμοποιείτε υπηρεσίες μετατροπής κειμένου σε ομιλία για να ακούτε βιβλία, να μελετάτε ή να διορθώνετε το δικό σας γραπτό λόγο, ένα είναι σίγουρο: αυτές οι υπηρεσίες έχουν κάνει τη ζωή πολύ πιο εύκολη για πολλούς επαγγελματίες.
Εδώ θα δούμε πώς λειτουργεί η μετατροπή κειμένου σε ομιλία και πώς αυτή η βοηθητική τεχνολογία έχει αλλάξει με τον καιρό.
Εισαγωγή
Στα 1700, ο Ρώσος καθηγητής Christian Kratzenstein δημιούργησε ακουστικούς αντηχείς που μιμούνταν τον ήχο της ανθρώπινης φωνής. Δύο δεκαετίες αργότερα, το VODER (Voice Operating Demonstrator) έγινε μεγάλο θέμα στη Διεθνή Έκθεση της Ν. Υόρκης, όταν ο δημιουργός του Homer Dudley έδειξε πώς μπορεί να παραχθεί ανθρώπινη ομιλία τεχνητά. Η συσκευή ήταν δύσχρηστη — ο Dudley έλεγχε τη βασική συχνότητα με ποδομοχλούς.
Στις αρχές του 1800, ο Charles Wheatstone ανέπτυξε τον πρώτο μηχανικό συνθέτη ομιλίας. Αυτό έδωσε το έναυσμα για ραγδαία εξέλιξη εργαλείων και τεχνολογιών σύνθεσης ομιλίας.
Είναι δύσκολο να ορίσεις τι κάνει ένα καλό πρόγραμμα μετατροπής κειμένου σε ομιλία, αλλά, όπως πολλά πράγματα στη ζωή, το καταλαβαίνεις όταν το ακούσεις. Ένα ποιοτικό πρόγραμμα προσφέρει φυσικές φωνές με πραγματική χροιά και τονικότητα.
Η μετατροπή κειμένου σε ομιλία βοηθά άτομα με προβλήματα όρασης ή άλλες δυσκολίες να λαμβάνουν πληροφορίες και να επικοινωνούν. Επίσης βοηθά φοιτητές, εργαζόμενους και όσους έχουν πολύ διάβασμα να ακούν όσα χρειάζονται, ενώ βρίσκονται εν κινήσει. Η συνθετική ομιλία αυξάνει την παραγωγικότητα και είναι χρήσιμη παντού, από τη δημιουργία βιντεοπαιχνιδιών μέχρι την υποστήριξη σε δυσκολίες γλωσσικής επεξεργασίας.
1950s και 60s
Στα τέλη της δεκαετίας του 1950 δημιουργήθηκαν τα πρώτα συστήματα σύνθεσης ομιλίας βασισμένα σε υπολογιστή. Το 1961 ο φυσικός John Larry Kelly Jr. στα Bell Labs χρησιμοποίησε υπολογιστή IBM για σύνθεση ομιλίας. Ο vocoder του αναπαρήγαγε το τραγούδι Daisy Bell.
Όσο ο Kelly τελειοποιούσε τον vocoder του, ο συγγραφέας του «2001: Οδύσσεια του διαστήματος» Άρθουρ Κλαρκ άντλησε έμπνευση από τη δουλειά του για το σενάριο – στη γνωστή σκηνή, ο υπολογιστής HAL 9000 τραγουδά το Daisy Bell.
Το 1966 εμφανίστηκε η γραμμική προβλεπτική κωδικοποίηση. Η εξέλιξή της ξεκίνησε με τους Fumitada Itakura και Shuzo Saito, ενώ σημαντική συμβολή είχαν και οι Bishnu S. Atal και Manfred R. Schroeder.
1970s
Το 1975, ο Itakura ανέπτυξε τη μέθοδο γραμμικών φασματικών ζευγών. Αυτή η μέθοδος υψηλής συμπίεσης βοήθησε στην ανάλυση και βελτίωση της σύνθεσης ομιλίας.
Την ίδια χρονιά κυκλοφόρησε και το MUSA. Ήταν αυτόνομο σύστημα σύνθεσης ομιλίας που χρησιμοποιούσε αλγόριθμο για ανάγνωση ιταλικών. Τρία χρόνια αργότερα μπορούσε ακόμη και να τραγουδά στα ιταλικά.
Τη δεκαετία του '70 αναπτύχθηκε ο πρώτος αρθρωτικός συνθέτης βασισμένος στον ανθρώπινο φωνητικό αγωγό. Ο πρώτος γνωστός συνθέτης δημιουργήθηκε από τους Tom Baer, Paul Mermelstein και Philip Rubin στα Haskins Laboratories, αξιοποιώντας μοντέλα φωνητικού αγωγού των Bell Labs.
Το 1976 παρουσιάστηκαν οι Kurzweil Reading Machines για τυφλούς. Αν και ήταν πολύ ακριβές για το ευρύ κοινό, οι βιβλιοθήκες τις διέθεταν σε άτομα με προβλήματα όρασης για να ακούνε βιβλία.
Η γραμμική προβλεπτική κωδικοποίηση έγινε αφετηρία για chips συνθέτη. Τα LPC Speech Chips της Texas Instruments και τα παιχνίδια Speak & Spell χρησιμοποιούσαν αυτή την τεχνολογία. Αυτά τα παιχνίδια είχαν πιο φυσική φωνή από τις ρομποτικές φωνές της εποχής. Μεγάλη απήχηση γνώρισαν και πολλές φορητές συσκευές σύνθεσης ομιλίας, όπως η αριθμομηχανή Speech+ για τυφλούς και το Fidelity Voice Chess Challenger (1979).
1980s
Τη δεκαετία του '80, η σύνθεση ομιλίας μπήκε δυναμικά στα βιντεοπαιχνίδια. Το 1980 κυκλοφόρησε το Stratovox από τη Sun Electronics. Το Manbiki Shoujo ήταν το πρώτο PC game με σύνθεση ομιλίας. Το ηλεκτρονικό παιχνίδι Milton ήταν επίσης το πρώτο παιχνίδι της Milton Bradley με δυνατότητα σύνθεσης ανθρώπινης φωνής.
Το 1983 παρουσιάστηκε το αυτόνομο ακουστικό-μηχανικό DECtalk. Ανέλυε φωνητική ορθογραφία και επέτρεπε προσαρμοσμένη προφορά και τονικότητα, με αποτέλεσμα να μπορεί ακόμη και να τραγουδά.
Στα τέλη των '80s, ο Steve Jobs δημιούργησε το NeXT, σύστημα της Trillium Sound Research. Αν και δεν γνώρισε επιτυχία, το πρόγραμμα ενσωματώθηκε αργότερα στην Apple.
1990s
Τα πρώτα συστήματα σύνθεσης ομιλίας είχαν έντονα ρομποτικό ήχο, αλλά αυτό άλλαξε στα τέλη των '80s και στις αρχές των '90s. Οι πιο μαλακές συμφωνίες έκαναν τη φωνή να ακούγεται πιο φυσική. Το 1990, η Ann Syrdal στα Bell Labs δημιούργησε γυναικεία φωνή συνθέτη. Οι μηχανικοί συνέχισαν να δουλεύουν ώστε οι φωνές να γίνουν ακόμη πιο φυσικές.
Το 1999, η Microsoft κυκλοφόρησε το Narrator, πρόγραμμα ανάγνωσης οθόνης που περιλαμβάνεται στα Windows.
2000s
Τη δεκαετία του 2000, η εξέλιξη συνάντησε εμπόδια λόγω έλλειψης κοινών προτύπων για τη συνθετική ομιλία. Η προφορά και η προσωδία διαφέρουν πολύ και ήταν δύσκολο να συμφωνήσουν όλοι σε κοινά στάνταρ.
Η ποιότητα της φωνής formant synthesis απασχόλησε τους ερευνητές, καθώς τα εργαστηριακά συστήματα ήταν πολύ πιο εξελιγμένα από τα οικιακά. Πολλοί θυμούνται τον συνθέτη του Stephen Hawking, που παρήγαγε ρομποτική φωνή χωρίς ανθρώπινη χροιά.
Το 2005 οι ερευνητές συμφώνησαν σε κοινό dataset φωνής, ώστε να δημιουργούν καλύτερα συστήματα σύνθεσης ομιλίας.
Το 2007, μελέτη έδειξε ότι οι ακροατές μπορούν να καταλάβουν αν ένας ομιλητής χαμογελάει. Οι ερευνητές συνεχίζουν να διερευνούν τη χρήση αυτών των πληροφοριών, ώστε η αναγνώριση και σύνθεση ομιλίας να γίνουν πιο φυσικές.
2010s
Σήμερα, προϊόντα σύνθεσης ομιλίας υπάρχουν παντού: Siri, Alexa, κ.ά. Οι ηλεκτρονικοί συνθέτες ομιλίας κάνουν την καθημερινότητα πιο εύκολη και πιο διασκεδαστική. Είτε χρησιμοποιείτε TTS για να ακούτε μυθιστορήματα είτε για να μάθετε ξένες γλώσσες, είναι πολύ πιθανό να αξιοποιείτε τη μετατροπή κειμένου σε ομιλία και να «γυμνάζετε» τα νευρικά σας δίκτυα καθημερινά.
Το μέλλον
Τα επόμενα χρόνια, η τεχνολογία φωνής θα εστιάσει στη μοντελοποίηση του εγκεφάλου για να κατανοήσει πώς αποθηκεύουμε δεδομένα ομιλίας. Θα εξεταστεί επίσης ο ρόλος του συναισθήματος, ώστε να δημιουργηθούν φωνές AI σχεδόν αξεχώριστες από τις πραγματικές.
Οι νεότερες εξελίξεις στη σύνθεση φωνής: Speechify
Βλέποντας τη μετάβαση από τις παλαιότερες τεχνολογίες σύνθεσης φωνής, είναι εντυπωσιακό πόσο έχει προχωρήσει η επιστήμη. Σήμερα, apps όπως το Speechify κάνουν τη μετατροπή κάθε κειμένου σε ήχο παιχνιδάκι. Με ένα πάτημα, το Speechify μετατρέπει ιστοσελίδες, έγγραφα και εικόνες σε φυσική φωνή. Η βιβλιοθήκη συγχρονίζεται σε όλες τις συσκευές σας για εύκολη εκμάθηση παντού. Βρείτε το Speechify στο App Store της Apple και στο Android Google Play.
Συχνές ερωτήσεις
Ποιος εφηύρε τη μετατροπή κειμένου σε ομιλία;
Η αγγλική μετατροπή κειμένου σε ομιλία δημιουργήθηκε από τη Noriko Umeda στο Electrotechnical Laboratory της Ιαπωνίας το 1968.
Ποιος είναι ο σκοπός της μετατροπής κειμένου σε ομιλία;
Πολλοί άνθρωποι χρησιμοποιούν τη μετατροπή κειμένου σε ομιλία. Για όσους προτιμούν να λαμβάνουν πληροφορίες με ήχο, η τεχνολογία TTS απλοποιεί τη μάθηση και την εργασία χωρίς ατελείωτες ώρες μπροστά σε βιβλία. Επαγγελματίες μένουν παραγωγικοί και εν κινήσει χρησιμοποιώντας TTS. Πολλά συστήματα δημιουργήθηκαν αρχικά για άτομα με προβλήματα όρασης και το TTS συνεχίζει να βοηθά όσους δυσκολεύονται στην ανάγνωση.
Πώς συνθέτετε μια ομιλία;
Ηχογραφημένα αποσπάσματα ομιλίας αποθηκεύονται ως μικρές μονάδες σε βάση δεδομένων. Το λογισμικό συνθέτει αρχεία ήχου επιλέγοντας και συνδυάζοντας αυτές τις μονάδες. Έτσι προκύπτει μια φωνή. Όσο μεγαλύτερο το εύρος των δυνατών συνδυασμών, τόσο πιο δύσκολο είναι να διατηρηθεί η καθαρότητα.

