Αν και η τεχνολογία μετατροπής κειμένου σε ομιλία - δηλαδή λογισμικό που διαβάζει τα λόγια στην οθόνη δυνατά - δεν είναι καινούργια, φαίνεται να ζει μια μικρή επανάσταση τα τελευταία χρόνια.
Σύμφωνα με πρόσφατη μελέτη, η αξία της αγοράς text to speech έφτασε τα $2 δισ. το 2020, κυρίως λόγω της πανδημίας COVID-19. Υπολογίζεται ότι μέχρι το 2026 θα αυξηθεί στα $5 δισ. με ετήσια ανάπτυξη 14,6%.
Αυτό οφείλεται κυρίως στο πόσο η μετατροπή κειμένου σε ομιλία βοηθά άτομα με διάφορες μορφές προβλημάτων όρασης. Σύμφωνα με το CDC, περίπου 12 εκατομμύρια άτομα άνω των 40 στις ΗΠΑ έχουν δυσκολίες στην επεξεργασία οπτικών πληροφοριών. Ένα εκατομμύριο είναι εντελώς τυφλοί, ενώ οκτώ εκατομμύρια έχουν προβλήματα όρασης λόγω αδιόρθωτων διαθλαστικών σφαλμάτων. Το 2012 ήταν 4,2 εκατομμύρια.
Όλα αυτά δείχνουν ότι η μετατροπή κειμένου σε ομιλία έχει αποδείξει την αξία της. Υπηρεσίες όπως το Speechify προσφέρουν πολλές υψηλής ποιότητας φωνές ανάλογα με τις ανάγκες. Αλλά πώς λειτουργούν και γιατί υπάρχουν τόσες επιλογές; Οι απαντήσεις απαιτούν να κρατήσετε κάποια σημαντικά σημεία κατά νου.
Η λειτουργία της μετατροπής κειμένου σε ομιλία
Πριν φτάσουμε στις διάφορες φωνές της μετατροπής κειμένου σε ομιλία, είναι σημαντικό να κατανοήσουμε πώς δουλεύουν αυτές οι τεχνολογίες.
Η μετατροπή κειμένου σε ομιλία χρησιμοποιεί τεχνητή νοημοσύνη, machine learning και παρόμοιες τεχνολογίες για να μετατρέπει λέξεις σε ήχο που ακούγεται δυνατά. Αυτό αφορά τόσο ιστοσελίδες όσο και εφαρμογές όπως το Word.
Ο ήχος παράγεται πλήρως από τη συσκευή που χρησιμοποιείται. Εκτός από υπολογιστές, το text to speech λειτουργεί σε σχεδόν κάθε smartphone, tablet ή άλλο σύγχρονο φορητό μέσο.
Στις περισσότερες λύσεις, η επεξεργασία γίνεται τοπικά στη συσκευή. Έτσι, λειτουργεί και χωρίς σύνδεση στο Internet.
Εκτός από προσβασιμότητα σε άτομα με προβλήματα όρασης, το text to speech επιτρέπει τον έλεγχο τονικότητας και ταχύτητας φωνής. Μπορείτε να χαμηλώσετε ή να αυξήσετε την ταχύτητα, ώστε να κατανοείτε καλύτερα ή να ακούτε πιο γρήγορα αν θέλετε.
Φωνές μετατροπής κειμένου σε ομιλία: Αναλύοντας τη διαδικασία
Όσον αφορά τη φωνή που χρησιμοποιείται, το μυστικό κρύβεται σε μια τεχνολογία που ονομάζεται synthesizer ομιλίας.
Τι είναι synthesizer ομιλίας;
Η σύνθεση ομιλίας είναι ένας τρόπος εξόδου ώστε ο υπολογιστής (ή άλλη συσκευή) να διαβάζει λέξεις δυνατά με προεπιλεγμένη φωνή. Μοιάζει με το διάβασμα ενός κειμένου από εσάς, αλλά η πληροφορία «βγαίνει» όχι απλά ως κείμενο αλλά ως ήχος από τα ηχεία ή τα ακουστικά.
Γενικά, η σύνθεση ομιλίας λειτουργεί ακολουθώντας διάφορα βασικά στάδια. Το πρώτο είναι η μετατροπή του κειμένου σε λέξεις.
Βήμα 1: Προεπεξεργασία
Σε αυτό το βήμα, το πρόγραμμα αναλύει τις λέξεις στο κείμενο και μετατρέπει τα γράμματα (που είναι απλά σύμβολα) σε λέξεις. Αυτό έχει σημασία, γιατί η γραπτή λέξη μερικές φορές έχει διφορούμενες έννοιες. Ο υπολογιστής πρέπει π.χ. να αναγνωρίζει διαφορές ανάμεσα σε "τους", "τούς", "τους" – λέξεις που ακούγονται ίδιες αλλά αλλάζουν το νόημα.
Εδώ παίζει ρόλο και η τεχνητή νοημοσύνη. Με αυτή, το text to speech μπορεί να «εκπαιδευτεί» ώστε να ελαχιστοποιεί την αμφισημία. Αυτή η φάση λέγεται «προεπεξεργασία» καθώς γίνεται πρώτα, πριν διαβαστεί οτιδήποτε δυνατά.
Εδώ επίσης η λύση ξεχωρίζει λέξεις που γράφονται το ίδιο αλλά ακούγονται διαφορετικά ανάλογα με τη χρήση. Παράδειγμα η λέξη "read" στα αγγλικά: μπορεί να θέλετε να διαβάσετε (read) κάτι τώρα ή να το έχετε διαβάσει (read) ήδη στο παρελθόν. Οι άνθρωποι το αντιλαμβάνονται εύκολα από τα συμφραζόμενα, αλλά χρειάζεται AI για να το καταφέρει και ο υπολογιστής.
Ακόμη πιο δύσκολα είναι νούμερα, συντομογραφίες, αρκτικόλεξα και ειδικοί χαρακτήρες όπως το σύμβολο δολαρίου. Γι’ αυτό η προεπεξεργασία είναι σημαντική – διασφαλίζει ότι ό,τι διαβαστεί τελικά, βγάζει νόημα στο σωστό πλαίσιο.
Βήμα 2: Κατανόηση προφοράς
Αφού αναλυθεί το κείμενο και το σύστημα καταλάβει ποιες λέξεις πρέπει να ειπωθούν, το επόμενο βήμα είναι η μετατροπή σε φωνήματα – δηλαδή μαθαίνει πώς να προφέρει σωστά κάθε λέξη.
Αυτό το στάδιο έχει εξελιχθεί σημαντικά με τα χρόνια. Αν χρησιμοποιήσατε text to speech τη δεκαετία του ‘90 ή είδατε παλιά ταινία με τέτοια σκηνή, μάλλον η φωνή ακουγόταν τεχνητή και αρκετές λέξεις προφέρονταν λάθος.
Βήμα 3: Μετατροπή σε ομιλία
Μόλις αναγνωριστούν τα φωνήματα, το επόμενο βήμα είναι να μετατραπούν σε ήχο που ακούγεται από ηχεία ή ακουστικά.
Αυτό γίνεται με διάφορους τρόπους, ανάλογα με την εφαρμογή. Σε κάποιες, ένας ηθοποιός ηχογραφεί τα φωνήματα και τα δεδομένα μπαίνουν στον υπολογιστή. Όταν το κείμενο σαρωθεί, το πρόγραμμα ταιριάζει τα φωνήματα του κειμένου με τα καταγεγραμμένα και δημιουργεί πιο φυσικό ήχο από ποτέ.
Άλλες λύσεις επιτρέπουν στον υπολογιστή να δημιουργεί μόνος του τη φωνή, παράγοντας συχνότητες ήχου με συγκεκριμένη σειρά αντί να βασίζονται σε ηχογραφημένο ήχο.
Αυτό μοιάζει με το πώς ένα μουσικό synthesizer επιτρέπει στον μουσικό να μιμείται ήχους οργάνων με πληκτρολόγιο. Πατώντας πλήκτρα, το synthesizer αντιστοιχεί κάθε νότα με τον κατάλληλο ήχο, όπως το text to speech κάνει με τα φωνήματα.
Επιλογές φωνής και άλλα
Υπάρχουν τόσες διαφορετικές επιλογές φωνής στα voice generator text to speech επειδή η δημιουργία τους δεν είναι τόσο δύσκολη όσο κάποιοι νομίζουν. Τα απαραίτητα φωνήματα είναι κοινά σε όλες τις ανθρώπινες γλώσσες· αρκεί ένας ηθοποιός να τα ηχογραφήσει για να τροφοδοτηθούν στο σύστημα.
Η AI τεχνολογία αναγνωρίζει κάθε φώνημα, το «σπάει» στα μέρη του και χρησιμοποιεί ό,τι χρειάζεται για να δημιουργήσει τις φωνές όταν ο χρήστης θέλει να διαβάσει περιεχόμενο.
Υπάρχουν πολλές ακόμα χρήσεις για αυτές τις φυσικές φωνές πέρα από άτομα με προβλήματα όρασης. Τα τελευταία χρόνια, το κοινό δείχνει μεγάλο ενδιαφέρον για το AI speech λόγω των social media όπως το TikTok.
Το TikTok είναι μάλιστα από τα brands που υιοθέτησαν τη φωνητική σύνθεση, επιτρέποντας στους χρήστες να προσθέτουν κείμενο στα βίντεο και να το διαβάζει δυνατά η φωνή. Είναι ένας διασκεδαστικός τρόπος να δώσεις βάθος στο περιεχόμενό σου και θα γίνεται όλο και πιο δημοφιλές.
Το μέλλον της μετατροπής κειμένου σε ομιλία είναι εδώ
Τελικά, η μετατροπή κειμένου σε ομιλία είναι ένα εξαιρετικό εργαλείο γιατί δίνει δυνατότητες. Άτομα με προβλήματα όρασης απολαμβάνουν το ίδιο περιεχόμενο με όλους. Οποιοδήποτε blog, άρθρο, έγγραφο ή άλλο κείμενο γίνεται ηχητική εμπειρία για να το απολαμβάνετε στο σπίτι, στις μετακινήσεις, στο γυμναστήριο κ.λπ.
Δεν κάνει μόνο τη ζωή μας πιο παραγωγική, αλλά βοηθά και στη λύση σημαντικών προβλημάτων όπως αναφέρθηκαν παραπάνω. Είναι φανερό γιατί η φωνητική σύνθεση και το AI speech έχουν γίνει τόσο δημοφιλή τα τελευταία χρόνια.
Αν θέλετε να μάθετε περισσότερα για φωνές μετατροπής κειμένου σε ομιλία ή πώς αυτές οι λύσεις βελτιώνουν την καθημερινότητά σας, μην το σκέφτεστε - δοκιμάστε το Speechify δωρεάν!.
Το Speechify είναι #1 rated app στο App store με τις πιο φυσικές φωνές και εμπειρία χρήστη, με πολλές προσαρμοσμένες φωνές.
Το Speechify διατίθεται σε εκδόσεις για μεμονωμένους, ομάδες ή API για επιχειρήσεις κάθε μεγέθους.

