Η συνθετική ομιλία, γνωστή και ως TTS, είναι τεχνολογία που μετατρέπει το γραπτό σε ομιλία. Έχει πολλές εφαρμογές: βοηθά άτομα με αναπηρίες, στη μάθηση γλωσσών, στην πλοήγηση GPS και άλλα. Με το open source, δημιουργήθηκαν πολλά εργαλεία TTS. Το άρθρο αυτό εμβαθύνει στους open source συνθέτες φωνής.
Πρώτα, πρέπει να ξεκαθαρίσουμε ότι δεν είναι όλα τα εργαλεία σύνθεσης ομιλίας ανοιχτού κώδικα. Για παράδειγμα, το Google Text-to-Speech (TTS) προσφέρει ισχυρό API για developers, αλλά δεν είναι ανοιχτού κώδικα. Το ίδιο ισχύει και για το Amazon Polly, που φημίζεται για ρεαλιστικές φωνές, αλλά επίσης δεν είναι open source.
Αντίθετα, το Coqui AI είναι ένα αξιόλογο open source εργαλείο TTS διαθέσιμο στο GitHub. Βασίζεται στο Mozilla TTS project και προσφέρει σταθερό περιβάλλον γραμμής εντολών για σύνθεση ομιλίας. Το Coqui AI χρησιμοποιεί το Tacotron2 για παραγωγή φωνής και εστιάζει στη δημιουργία νέων φωνών με deep learning.
Η Microsoft Speech Platform, μαζί με τις δυνατότητες TTS, επίσης δεν είναι open source. Ωστόσο, το Speech API (SAPI5) διατίθεται σε developers για Windows.
Στον χώρο του open source, πάντως, δεν λείπουν τα εργαλεία αναγνώρισης φωνής. Χαρακτηριστικό παράδειγμα είναι το CMU Sphinx, μια σουίτα συστημάτων αναγνώρισης ομιλίας του Carnegie Mellon University.
Σε ό,τι αφορά open source εργαλεία υψηλής ποιότητας για σύνθεση φωνής, ξεχωρίζουν τα εξής:
- eSpeak: Μικρό πρόγραμμα σύνθεσης ανοιχτού κώδικα για αγγλικά και άλλες γλώσσες. Τρέχει σε Windows, Linux και είναι ιδανικό για μικρές συσκευές/ρομπότ.
- Mycroft: Ανοιχτός βοηθός φωνής με machine learning για TTS και αναγνώριση ομιλίας.
- MaryTTS: Πλατφόρμα σύνθεσης TTS ανοιχτού κώδικα, ευέλικτη, πολυγλωσσική, γραμμένη σε Java.
- Mozilla TTS: Μηχανή TTS βασισμένη σε deep learning, μέρος του Common Voice project, για εκπαίδευση φωνητικών εφαρμογών.
- Festival Speech Synthesis System: Από το Centre for Speech Technology Research (UK)· παρέχει γενικό πλαίσιο και πολλές φωνές.
- Flite (Festival-lite): Ελαφριά μηχανή TTS βασισμένη στο Festival· κατάλληλη για embedded συστήματα ή μαζική παραγωγή ομιλίας.
- HTS: Το HMM-Based Speech Synthesis System είναι σύστημα εκπαίδευσης και σύνθεσης φωνής υψηλής ποιότητας.
- Docker: Αν και ο Docker δεν είναι εργαλείο TTS, πολλά TTS, όπως το Coqui, μπορούν να τρέξουν μέσω Docker ώστε να είναι φορητά σε όλες τις πλατφόρμες.
Κάθε εργαλείο έχει τα υπέρ και τα κατά του. Οι συνθέτες φωνής open source προσφέρουν δωρεάν, ευέλικτες, κοινοτικές λύσεις για developers και χρήστες, συχνά με έτοιμα μοντέλα μηχανικής μάθησης. Ωστόσο, απαιτούν τεχνικές γνώσεις και ίσως υστερούν σε ποιότητα ή υποστήριξη γλωσσών σε σχέση με τα επαγγελματικά εργαλεία.
Καθώς το open source αλλάζει το τοπίο της τεχνολογίας, οι συνθέτες φωνής και τα TTS εξελίσσονται διαρκώς. Προσφέρουν μεγάλες προοπτικές για εφαρμογές σε πραγματικό χρόνο και ανάπτυξη ΑΙ στην αναγνώριση και σύνθεση ομιλίας.

