Η Γενετική ΤΝ και η Τεχνητή Νοημοσύνη έχουν εξελιχθεί πολύ. Η μετατροπή κειμένου σε ομιλία είναι μια σχετικά παλιά τεχνολογία. Υπάρχουν πολλά να δούμε και θα την εξετάσουμε απ' όλες τις πλευρές. Είτε ξεκινάτε τώρα είτε είστε έμπειροι, εδώ θα βρείτε πλήρη καθοδήγηση για το Google Text to Speech API.
Πριν μπούμε στην ουσία, πρέπει να βάλουμε τα βασικά κάτω. Ας εξηγήσουμε κάποιες έννοιες και να χτίσουμε γερά τη βάση μας.
Ας ξεχωρίσουμε τις δύο τεχνολογίες, τη μετατροπή κειμένου σε ομιλία και τα APIs, καθώς και τον ρόλο του Google Cloud.
Σημείωση συντάκτη: Ψάχνετε το κορυφαίο API text to speech; Ρίξτε μια ματιά στο εύχρηστο και αναλυτικά τεκμηριωμένο Speechify’s text to speech API.
Μετατροπή Κειμένου σε Ομιλία
Έχω γράψει εκτενώς σχετικά. Διαβάστε το Τι είναι μετατροπή κειμένου σε ομιλία blog και ρίξτε μια ματιά και στη σύνθεση ομιλίας ώστε να τα κατανοήσετε καλύτερα. Αυτά είναι πιο αναλυτικά, οπότε μπορείτε να τα κρατήσετε για αργότερα. Τα συνοψίζω παρακάτω.
Η μετατροπή κειμένου σε ομιλία βασίζεται στη σύνθεση ομιλίας για να μετατρέπει λέξεις σε φωνή με AI. Έχει πολλές εφαρμογές: βοηθά ανθρώπους με δυσλεξία, χαμηλή όραση, αλλά και όσους θέλουν ταχύτητα και αποτελεσματικότητα.
API
API σημαίνει Διεπαφή Προγραμματισμού Εφαρμογών. Λειτουργεί ως γέφυρα ανάμεσα σε δύο εφαρμογές. Αν θέλετε app με ηχητικό περιεχόμενο και χρειάζεστε μετατροπή κειμένου σε ομιλία, είτε υλοποιείτε μόνοι σας τη λειτουργία είτε συνδέεστε με ένα έτοιμο API.
Εσείς χτίζετε την εφαρμογή σας και βασίζεστε σε τρίτο API για να ενσωματώσετε τη λειτουργία μετατροπής κειμένου σε ομιλία.
Google Cloud API
Εδώ μπαίνει στο παιχνίδι το Google Cloud. Η Google έχει δημιουργήσει ένα ισχυρό API για μετατροπή σε ομιλία με διάφορα πλάνα τιμολόγησης. Όποιος θέλει να φτιάξει app που χρειάζεται text to speech μπορεί άνετα να το κάνει με το Google TTS. Ναι, TTS σημαίνει text to speech.
Ξεκινήστε από το Google Cloud Console https://cloud.google.com/. Θα βρείτε οδηγούς, διαχείριση λογαριασμού, πρόσβαση σε φωνές wavenet κ.ά.
Το Google Cloud είναι η cloud πλατφόρμα της Google με πολλές υπηρεσίες. Επιλέγετε ό,τι χρειάζεστε και δημιουργείτε κλειδιά πρόσβασης για κάθε API. Οι περισσότερες υπηρεσίες είναι επί πληρωμή, αν και συχνά υπάρχει δωρεάν όριο.
Η Google αγόρασε την DeepMind το 2014 για την τεχνολογία text to speech και την ανάπτυξη νευρωνικών δικτύων της. DeepMind πλέον σημαίνει Google DeepMind.
Αφού έχουμε τώρα καθαρή εικόνα, ας δούμε σε βάθος το Google Cloud Text to Speech API.
Χαρακτηριστικά Google Text to Speech API
Η Google είναι κορυφαία στον χώρο της τεχνολογίας. Το TTS API έχει δυνατότητες παγκόσμιας κλάσης που εξελίσσονται συνεχώς.
Φωνή Υψηλής Πιστότητας
Οι φωνές του Google text to speech είναι από τις καλύτερες. Είναι πολύ ρεαλιστικές και με φυσικό τόνο. Όποιος δημιουργεί πιο «ανθρώπινες» φωνές, θα έχει το πάνω χέρι σε αυτήν την τεχνολογία.
Επιλογή Φωνής
Η Google παρέχει τεράστια ποικιλία φωνών, ώστε το πρότζεκτ σας να μην ακούγεται ίδιο με των άλλων ή των ανταγωνιστών σας.
Δημιουργήστε τη Δική σας Φωνή
Αγγίζει τεχνολογία αντιγραφής φωνής. Μπορείτε να ηχογραφήσετε εσάς ή άλλο άτομο (με άδεια) και να χρησιμοποιήσετε αυτή τη φωνή σε όλα σας τα κείμενα.
Νευρωνικές Φωνές
Οι νευρωνικές φωνές είναι οι ποιοτικότερες στη μεγάλη γκάμα. Υποστηρίζουν και διεθνοποίηση για να μεγαλώσετε το κοινό σας.
Studio Φωνές
Οι studio φωνές είναι ακόμα πιο επαγγελματικές και ακούγονται σαν να έχουν ηχογραφηθεί σε στούντιο.
Ρύθμιση Φωνής
Διαλέξτε φωνή και προσαρμόστε ταχύτητα, τόνο κ.ά., ώστε να κάνετε την ομιλία σας πραγματικά μοναδική.
Πόσο κοστίζει το Google Text to Speech API;
Όλα εξαρτώνται από την ποιότητα της φωνής και το μέγεθος του κειμένου. Όσο πιο ρεαλιστική η φωνή, τόσο ανεβαίνει η τιμή. Παρ’ όλα αυτά, ακόμα και οι κορυφαίες φωνές είναι αρκετά οικονομικές.
| Τύπος φωνής | Δωρεάν ανά μήνα | Μετά τη δωρεάν χρήση |
| Neural2 φωνές | 0-1 εκ. bytes | $16 κάθε 1 εκ. bytes |
| Polyglot φωνές | 0-1 εκ. bytes | $16 κάθε 1 εκ. bytes |
| Studio φωνές | 0-100.000 bytes | $160 κάθε 1 εκ. bytes |
| Standard φωνές | 0-4 εκ. χαρακτήρες | $4 κάθε 1 εκ. χαρακτήρες |
| Wavenet φωνές | 0-1 εκ. χαρακτήρες | $16 κάθε 1 εκ. χαρακτήρες |
Διαφορά Χαρακτήρων & Bytes
Όπως βλέπετε, η τιμολόγηση αλλάζει πολύ ανάλογα με την ποιότητα φωνής. Η κωδικοποίηση και η επεξεργασία διαφέρουν. Για τις απλές Standard Voices η χρέωση γίνεται με βάση τους χαρακτήρες.
Αν το κείμενό σας έχει 4 εκ. χαρακτήρες, θα πληρώσετε $16 για μετατροπή σε ομιλία με Standard φωνές.
Οι Studio φωνές απαιτούν μεγαλύτερη επεξεργασία και χρεώνονται σε bytes. Σε γλώσσες όπως τα Ιαπωνικά, ένας χαρακτήρας μπορεί να αντιστοιχεί σε πολλά bytes.
Για ακριβή τιμολόγηση, πρέπει να ξέρετε σε ποια γλώσσα δουλεύετε και τον μέσο αριθμό bytes ανά χαρακτήρα.
Πώς να ρυθμίσετε έργο Text to Speech API στο Google Cloud;
- Δημιουργήστε λογαριασμό Google Cloud ή συνδεθείτε εδώ
- Δημιουργήστε νέο έργο και επιλέξτε όνομα.
- Προσθέστε τρόπο πληρωμής. Χρεώνεστε μόνο για ό,τι χρησιμοποιείτε.
- Επιλέξτε το έργο και συνδέστε το με λογαριασμό πληρωμής.
- Ενεργοποιήστε το Text-to-Speech API. Αναζητήστε "speech" στη γραμμή εργαλείων πάνω.
- Επιλέξτε Cloud Text-to-Speech API.
- Ρυθμίστε την πιστοποίηση για το περιβάλλον σας. Για οδηγίες, δείτε το Set up authentication for Text-to-Speech.
Μπορείτε να δοκιμάσετε το Text-to-Speech και χωρίς να το συνδέσετε με έργο:
- Επιλέξτε την επιλογή TRY THIS API.
- Για χρήση Text-to-Speech API με το έργο σας, πατήστε ENABLE.
Δείτε την Τεκμηρίωση Google Cloud για περισσότερη βοήθεια.
Πώς να απενεργοποιήσετε το Text to Speech API
Για να το απενεργοποιήσετε, μεταβείτε στον πίνακα του Google Cloud Platform και πατήστε το "Go to APIs overview" στο κουτί των APIs. Εντοπίστε το Text-to-Speech API, επιλέξτε το και μετά πατήστε "DISABLE API" στο επάνω μέρος της σελίδας.
Ξεκινήστε με το Google Text to Speech API
Αφού στήσατε το έργο, μπορείτε να ξεκινήσετε από τη γραμμή εντολών.
gcloud initΔημιουργήστε τοπική ταυτοποίηση
gcloud auth application-default loginΤώρα μπορείτε να εγκαταστήσετε την client library. Παράδειγμα για Node.js:
npm install --save @google-cloud/text-to-speechΤο Google Cloud Text to Speech API υποστηρίζει αυτές τις γλώσσες:
- Go
- Java
- Node.js
- C++
- C#
- PHP
- Python
- Ruby
- TypeScript
- Terraform
- YAML
Πώς λειτουργεί το Google Cloud API;
Όλα ξεκινούν με ένα απλό API call. Στέλνετε το κείμενο και λαμβάνετε πίσω ένα αρχείο ήχου. Μπορείτε να ορίσετε φωνή, γλώσσα κ.ά. και το API επιστρέφει το audio αρχείο.
Δείτε αναλυτικά για τις client libraries εδώ. Τα παραδείγματά μας είναι για Node.js, αλλά υπάρχουν και για Python, PHP κ.λπ.
const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');
const client = new textToSpeech.TextToSpeechClient();
/**
* TODO(developer): Uncomment the following lines before running the sample.
*/
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';
const request = {
input: {text: text},
voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);Κι αυτό ήταν. Ρυθμίσατε το Google Cloud Text to Speech API και στείλατε το πρώτο αίτημα για μετατροπή κειμένου σε ομιλία. Μπορείτε να πάρετε το αρχείο σε OGG ή MP3.
Χρήσεις Google Text to Speech API
Το Google Text-to-Speech (TTS) API είναι ευέλικτο και καλύπτει πολλές περιπτώσεις χρήσης σε διαφορετικούς τομείς. Συνηθισμένες χρήσεις περιλαμβάνουν:
- TTS για άτομα με προβλήματα όρασης: Η προσθήκη TTS κάνει τα γραπτά περιεχόμενα προσβάσιμα σε άτομα με οπτική αναπηρία.
- Αυτόματα τηλεφωνικά συστήματα: Δημιουργία φυσικών προτροπών και απαντήσεων για τηλεφωνικά κέντρα εξυπηρέτησης.
- Voiceovers για media: Παραγωγή φωνητικής αφήγησης σε βίντεο, podcast κ.ά.
- TTS για μεταφρασμένα κείμενα: Ηχογράφηση μεταφρασμένων κειμένων σε διάφορες γλώσσες.
- Βοήθεια ανάγνωσης για δυσλεξικούς: TTS για υποστήριξη σε άτομα με δυσλεξία ή μαθησιακές δυσκολίες.
- Φωνητική πλοήγηση σε apps: Ενσωμάτωση TTS σε apps πλοήγησης για ηχητικές οδηγίες.
- TTS για εκπαιδευτικό περιεχόμενο: Προώθηση μάθησης μέσω ακουστικής μετάδοσης εκπαιδευτικών κειμένων.
- Σύνθεση ομιλίας σε apps παραγωγικότητας: Ενσωμάτωση TTS σε σημειωματάρια κ.ά. για ηχητική ανάγνωση.
- Φωνή για ψηφιακούς βοηθούς: Βελτίωση εικονικών βοηθών με φυσικό TTS.
- Ηχητικές ειδοποιήσεις: TTS για ακουστικές ειδοποιήσεις σε συσκευές και IoT.
Καλύτερες Εναλλακτικές του Google Cloud TTS API
Μέχρι τον Ιανουάριο 2022, υπάρχουν αρκετές εναλλακτικές στο Google Text-to-Speech API. Έκτοτε μπορεί να έχουν αλλάξει δυνατότητες ή δημοτικότητα. Παρακάτω μερικές:
- Speechify Text to Speech API: Το Speechify Text to Speech API διαθέτει πάνω από 1.000 φυσικές και συναισθηματικές AI φωνές σε 60+ γλώσσες και διαλέκτους. Κρατήστε θέση σήμερα.
- Amazon Polly: Από την AWS, παρέχει φυσική ομιλία σε πολλές γλώσσες και φωνές, με καλή ενσωμάτωση στο οικοσύστημα AWS.
- Microsoft Azure Speech Service: Περιλαμβάνει λειτουργίες TTS, κατάλληλο για apps, βοηθούς, πλοήγηση κ.λπ.
- IBM Watson Text to Speech: Μετατρέπει γραπτό κείμενο σε φυσική ομιλία με διάφορες φωνές.
- Nuance Communications: Προσφέρει πολλές λύσεις αναγνώρισης φωνής και text to speech για υγεία, αυτοκίνητα, εξυπηρέτηση πελατών.
- CereProc: Εταιρεία τεχνολογίας text to speech με ποιοτικές συνθετικές φωνές για προσβασιμότητα, ψυχαγωγία, επικοινωνία.
- iSpeech: Προσφέρει cloud text-to-speech με υποστήριξη πολλών γλωσσών και φωνών, ιδανικό για εφαρμογές και ιστοσελίδες.
- ResponsiveVoice: Απλό και οικονομικό API με πολλές γλώσσες για web εφαρμογές.
- Neospeech: Προσφέρει text to speech με έμφαση στη φυσικότητα και χρήση σε e-learning και ψυχαγωγία.
- ReadSpeaker: Online και offline λύσεις TTS για sites, εκπαίδευση, προσβασιμότητα.
- Acapelabox: Cloud API από το Acapela Group, με πολλές γλώσσες και φωνές για διάφορες εφαρμογές.
FAQ
Η Google έχει πολλές κατηγορίες φωνών και σχεδόν η κάθε κατηγορία έχει δωρεάν όριο. Π.χ. οι standard φωνές είναι δωρεάν στο πρώτο εκατομμύριο bytes. Μετά κοστίζει $16 ανά εκατ. bytes. Μπορείτε να το δοκιμάσετε δωρεάν με περιορισμό χαρακτήρων ή bytes.
Απλά δημιουργείτε λογαριασμό στο https://cloud.google.com/text-to-speech/ και ακολουθείτε τα βήματα εκεί. Περιγράφω τη διαδικασία αναλυτικά και παραπάνω στο blog.
Μπαίνετε στο Google Cloud, φτιάχνετε έργο (project) και μετά δημιουργείτε API key για το project.
Το URL του Google text to speech API είναι https://cloud.google.com/text-to-speech/
Δεν υπάρχει αυστηρά δωρεάν δοκιμή για το Google Cloud. Κάθε υπηρεσία έχει δικούς της κανόνες και δωρεάν επίπεδα.
Όχι. Το Google Cloud text to speech API απαιτεί σύνδεση στο internet.
Η πιστοποίηση γίνεται με API keys, OAuth 2.0 ή service accounts. Ο σωστός τύπος εξαρτάται από τη χρήση και την εφαρμογή σας.
5 στα 5. Είναι εύκολο στη χρήση, έχει πολύ καλό search, η τιμολόγηση είναι τίμια και συνολικά είναι εξαιρετικό προϊόν.
Το Google Text-to-Speech API δίνει client libraries σε διάφορες γλώσσες όπως η Python και δέχεται RESTful αιτήματα από οποιαδήποτε γλώσσα υποστηρίζει HTTP requests.
Η ενσωμάτωση γίνεται με χρήση της κλάσης TextToSpeech και API requests. Υπάρχουν αναλυτικές οδηγίες στην επίσημη τεκμηρίωση Android.
Για χρήση του Google Text-to-Speech API σε JavaScript, στέλνετε HTTP requests στο API endpoint. Κατασκευάζετε το κατάλληλο αίτημα και χειρίζεστε την απόκριση στον κώδικά σας. Δείτε την επίσημη τεκμηρίωση για λεπτομέρειες.

