Microsoft Azure és una plataforma pública de computació al núvol que proporciona diversos serveis, com anàlisi i emmagatzematge. A més, els serveis cognitius de Microsoft Azure per a Windows inclouen text-to-speech (TTS) i reconeixement de veu a text (com dictar a Siri). S’ofereixen al núvol sense necessitat de coneixements de machine learning i són compatibles amb PC i Mac.
La funció principal d’Azure és ajudar les empreses a gestionar processos en comerç electrònic, finances i molts altres sectors. Compatible amb tecnologies open-source, ofereix eines ajustades a les necessitats de cada negoci. Azure proporciona quatre tipus de serveis cloud:
- Infraestructura com a Servei - IaaS
- Plataforma com a Servei - PaaS
- Programari com a Servei - SAAS
- Sense servidors
Amb aquests serveis al núvol, es poden crear recursos per gestionar processos, com bases de dades i màquines virtuals (VM). Azure factura mensualment pels recursos utilitzats i es pot cancel·lar en qualsevol moment, sense despeses ocultes ni subscripcions obligatòries.
El programari de text-a-veu d’Azure permet als usuaris crear apps i serveis amb veu realista mitjançant deep learning. TTS d’Azure ofereix veus diverses, amb diferents estils i entonacions adaptables a la marca i a cada ús.
Les aplicacions van des de lectors de text fins a chatbots. Amb Speech Synthesis Markup Language (SSML), pots personalitzar la veu, el lexicó i els paràmetres per a cada situació. Pots dictar comandes de veu (ex: “coma”, “nou paràgraf”) i utilitzar autopuntuació o dreceres de teclat.
Tot i que ofereixen serveis gratuïts els primers 12 mesos (funcions limitades) i 30 dies de crèdit a serveis de pagament, Azure pot sortir car segons les necessitats: des de $29/mes per suport a desenvolupadors fins a $1000/mes per suport directe. El preu del suport premier no és públic.
Tot i que Azure pot ser convenient per a moltes aplicacions, hi ha més alternatives interessants. Entendre les opcions disponibles t’ajuda a triar millor el servei de text-a-veu que necessites.
Speechify

Speechify és l’app de text-a-veu millor valorada, que llegeix qualsevol text, com ara PDFs, navegadors web, Google Docs, llibres de text, arxius d’Office i molt més. És fàcil d’usar i ideal per a persones amb dificultats lectores: llegeix en veu alta i destaca el text. És un gran recurs per a l’e-learning, ja que millora la comprensió amb suport visual i auditiu.
Ideal per a qui té dificultats lectores o discapacitats d’aprenentatge com ADHD o dislèxia. Speechify treu del damunt la càrrega de llegir físicament: qualsevol llibre o document es pot convertir a veu i escoltar-lo quan vulguis.
Amb intel·ligència artificial que imita encara millor la veu humana en el pla premium, Speechify llegeix en anglès, castellà i 27 idiomes més. El pla gratuït ofereix veus de qualitat estàndard. Inclou un widget per controlar la veu, fer pausa o canviar la velocitat de lectura.
Speechify es pot integrar via API perquè els usuaris escoltin el contingut amb un sol clic. És gratuït per a webs amb més d’1 milió de visites anuals, sempre que compleixin els criteris.
Amb només cinc línies de codi, VaaS de Speechify demostra que augmenta la retenció i la interacció del client, millorant l’accessibilitat. Les integracions inclouen veus molt naturals en més de 20 idiomes. Compatible amb Chrome, Android i iOS, i Speechify és accessible des de qualsevol dispositiu, incloent-hi iPhone i ordinador.
Twilio

Twilio és una app mòbil que permet comunicació digital via missatges i veu, millorant el flux de vendes. Es pot integrar amb qualsevol CRM o base de dades de clients per afavorir una relació de confiança.
Twilio ofereix eines per a desenvolupadors, com enviar i rebre SMS amb poc codi. Dona accés a documentació d’API per gestionar milers de milions de missatges anualment i mostra de codi open-source per a casos d’ús habituals. Pots connectar aquests canals via el constructor de workflows de Twilio.
La implementació ràpida permet a Twilio ajudar empreses a escalar: nous mercats, grans volums, diferents canals o abast global. Pots enviar SMS a qualsevol client, allà on sigui, gràcies a la infraestructura i els senders globals de Twilio.
Amb la síntesi de veu (TTS), Twilio facilita la integració a sistemes IVR amb veu humana per a apps de veu. El Twilio Markup Language (TwiML) proporciona instruccions per dirigir l’acció de Twilio en rebre trucades o SMS.
Twilio ofereix opcions de preus flexibles: pagament per ús, descomptes per volum o preus segons compromís d’ús. El suport premium mínim és de $1500 al mes i inclou assistència 24/7 per email i telèfon. Altres proveïdors no mostren el cost del suport premium públicament.
Watson Text-to-Speech

Watson Text to Speech converteix text en veu natural en diferents idiomes i veus. Les veus amb IA poden respondre preguntes amb assistents virtuals per canals de veu i trucades.
El servei API al núvol permet convertir text escrit en àudio de manera realista dins d’aplicacions de Watson Assistant. Això dona veu a la marca, millora l’accessibilitat (discapacitats, conductors) i ajuda a ajustar serveis d’atenció al client.
Amb l’autoatenció, l’assistent virtual Watson pot assumir funcions habituals de call center i oferir una bona experiència. Watson TTS permet entendre textos en àudio i resoldre incidències amb rapidesa.
Amb l’opció Plus des de $149 mensuals i plans a mida, IBM Watson és una alternativa assequible a Microsoft Azure.
Google Cloud Text-to-Speech
Amb la tecnologia de veu de Google, es pot convertir text a veu natural a través de l’API, millorant l’experiència d’usuari.
Google Cloud ofereix $300 de crèdit a nous usuaris pels serveis TTS. Google TTS pot ser una opció econòmica segons els caràcters transcrits. Es paga per caràcter i permet personalitzar la veu i l’entonació amb SSML, donant missatges més rics.
Amb SSML, Google Cloud ofereix resposta de veu IVR per a contact center, usant un generador de veu per a atenció telefònica automatitzada. Inclou tutorials Java, Go, Python i Node.js. El servei converteix àudio a text via xarxes neuronals.
L’experiència d’usuari millora amb respostes intel·ligents entre dispositius i apps, personalitzades segons la veu i l’idioma. Google ofereix la selecció de veus més gran (40 idiomes) per trobar la millor opció de veu.
Nuance Vocalizer

Nuance Vocalizer ofereix un assistent virtual (VA) que optimitza el rendiment empresarial. Amb IA, respon a les expectatives en comunicació digital i ofereix assistència efectiva.
El VA de Nuance ajuda amb moltes funcionalitats. Redueix el volum d’atenció telefònica i disminueix l’espera, augmentant la productivitat. Millora la satisfacció del client i l’NPS de l’empresa.
Amb el TTS de Nuance Vocalizer, les empreses creen una veu humana per a la marca i una interacció personalitzada. El VA pot tenir una veu feta a mida, diàlegs específics i dóna suport a SSML, VXML i MRCPV2.
Nuance ofereix una experiència VA amb un cost per sota de la mitjana, a una tarifa plana de uns $1000 per la Vocalizer Experience. Serveis o manteniments addicionals poden encarir el cost.
ReadSpeaker

ReadSpeaker és un motor TTS que crea veus realistes per a qualsevol aplicació. Les empreses poden marcar diferència amb una veu pròpia i millorar l’experiència d’usuari, aplicable a webs, apps mòbils o e-learning.
ReadSpeaker es presenta com a “Tecnologia Pionera de Veu”, amb 20 anys d’experiència. Ofereix 110 veus en més de 55 idiomes (francès, cantonès, mandarí…). Té oficina local a 15 països. Proporciona SaaS, SDK i API per a streaming i producció d’àudio, online o offline, sense connexió.
ReadSpeaker TTS amplia l’abast del contingut a persones amb dificultats lectores. És una eina clau per a l’e-learning, ja que potencia la retenció i la comprensió de materials.
Proporciona serveis cloud i suport adaptats a negocis i aplicacions. Els preus de ReadSpeaker només s’ofereixen un cop contactat l’equip per explicar les necessitats específiques.
Amazon Polly

Amazon Polly genera veu realista per a apps i serveis en noves categories de productes activats per veu, amb opcions de veus i idiomes globals per a ús internacional.
Polly ofereix, a més del servei TTS estàndard, veus Neural TTS (NTTS) amb millora en qualitat, estils i expressivitat. Per exemple, to de noticiari per a informació o narracions.
Polly permet crear una veu corporativa personalitzada (NTTS) per a la marca. Els fitxers de veu es poden generar en MP3 o OGG i són accessibles offline. Permet reproducció il·limitada sense cost extra.
Amazon Polly factura mensualment pels caràcters utilitzats. Preu: $4 per cada milió de caràcters per a veus estàndard i $16 per cada milió per a Neural. Altres serveis poden tenir costos addicionals.
Acapela VaaS
Voice as a Service (VaaS) engloba tota la comunicació per veu al núvol. VaaS d’Acapela permet afegir veu a apps enviant el text al servidor. Té 50 veus i 25 idiomes (rus, japonès…) i variants. Permet que el núvol parli per tu.
L’API d’Acapela integra Flash o qualsevol llenguatge amb HTTP per portar VaaS a apps i serveis. Pots controlar cada aspecte de la veu generada: to, dialecte, entonació.
Ofereix un compte de prova gratuït de 30 dies. Per $12 al mes, tens accés a bústies i integracions il·limitades del producte.
Speechmorphing
Speechmorphing proposa un repte: distingir entre veus reals i AI. Ofereix àudio d’alta qualitat a partir de text amb algunes de les veus més naturals.
Amb síntesi NLSS, la IA conversacional ajuda les empreses a connectar millor amb els clients. Veus contextualitzades, tons i inflexions personalitzables per mantenir una marca coherent.
Amb capacitat multilingüe, Speechmorphing crea experiències multiculturals, expandint l’abast i l’autoritat del producte a escala global. S’aplica a la restauració ràpida, mitjans o entreteniment. Les possibilitats de TTS neuronal són infinites.
Speechmorphing ofereix una tarifa flexible segons les necessitats. No hi ha preus públics: cal contactar per sol·licitar pressupost.
Preguntes freqüents
Azure pot fer veu a text?
Microsoft Azure ofereix veu a text per transcriure àudio a text independentment del sistema operatiu. Utilitza IA per identificar paraules, frases i entonació, amb suport en diversos idiomes. Es pot descarregar el fitxer a l’Azure de l’usuari.
És bona l’opció veu a text d’Azure?
Veu-a-text d’Azure està molt ben valorada com una de les opcions més avançades per a comandes i reconeixement de veu. Els seus algorismes permeten una transcripció precisa, fins i tot amb àudios de poca qualitat.
Analitza Azure l’àudio en temps real?
Azure veu a text analitza la veu en temps real per transcriure-la a text.
Quina és la millor API de text-a-veu?
La plataforma Speechify té la tecnologia de síntesi de veu més avançada i garanteix una lectura perfecta. A més, Speechify actualitza constantment el seu programari per millorar-ne el rendiment.
Speechify és molt fàcil d’usar. Escriu el text i tria una de les veus naturals. Pots ajustar la velocitat o el volum segons les teves preferències, tant per fer un audiollibre com per narrar un vídeo explicatiu.
És gratuïta l’API Microsoft Speech?
Hi ha un pla gratuït de Microsoft Speech API accessible al seu web.
És gratuït el text-a-veu de Microsoft?
No. Azure t’ofereix un crèdit de $200 i 12 mesos gratuïts; després, la factura és mensual.
Què és Microsoft Dictate?
"Microsoft Dictate" va ser un complement de reconeixement de veu per a Office (versions anteriors a Windows 10/11, Word, Excel, PowerPoint, Outlook). Permetia dictar textos en veu. Utilitzava tecnologia cloud per convertir la veu en text en temps real. Ara se’l coneix com a Windows Speech Recognition.
Hi ha API de text-a-veu a Azure?
Azure permet crear apps i serveis que usen generadors de veu amb IA per parlar de manera natural mitjançant síntesi de text a veu.
És sempre gratuït el text-a-veu?
Algunes plataformes ofereixen TTS gratuït, però moltes opcions avançades requereixen subscripció de pagament.
Per què usar l'escriptura per veu?
L’escriptura per veu, també anomenada veu-a-text o dictat, és fer servir la veu per escriure en ordinador o mòbil en comptes del teclat. Hi ha molts motius per fer-ho:
- Ràpid i eficient: L’escriptura per veu pot ser més ràpida i eficient, sobretot si t’expresses bé parlant. Permet crear documents, emails o missatges de seguida.
- Mans lliures: No cal teclejar. Ajuda persones amb discapacitat o dolències (com túnel carpià o artritis). Pots començar clicant el botó de dictat o el micro.
- Menys fatiga: S’eviten moviments repetitius, reduint el cansament de mans i dits, ideal per a qui fa llargues sessions al teclat.
- Multitasca: Es pot dictar mentre cuines, condueixes o fas altres tasques.
- Més inclusiu: Millora l’accessibilitat per a persones amb discapacitats visuals o d’aprenentatge.
- Productivitat: Per a alguns, augmenta la productivitat i ajuda a escriure o generar idees més de pressa.
- Llenguatge natural: Els sistemes de veu sovint usen NLP i machine learning per entendre millor el context i la gramàtica, i així fan transcripcions més precises amb menys edició manual.
- Fàcil en mòbil: Ideal per a dispositius mòbils on el teclat és petit.
- Suport idiomes: Suporta diversos idiomes, útil per a bilingües o idiomes amb caràcters especials.
- Personalització: Els sistemes s’adapten a la manera de parlar i als teus termes habituals. Pots entrenar-lo amb comandes de dictat!
Tot i els avantatges, l’escriptura per veu no és sempre la millor opció. El soroll, l’accent o alguns idiomes poden afectar la precisió. Com qualsevol tecnologia, requereix pràctica per adaptar-s’hi. Seguirem atents a tot el que vindrà en el futur.
Quines alternatives hi ha a Azure text-to-speech?
Algunes alternatives a Azure són:
- Twilio
- SoapBox
- Watson Text to Speech
- Google Cloud Text-to-Speech
- Nuance Vocalizer
- ReadSpeaker
- Amazon Polly
- Acapela VaaS
- Speechmorphing
- Speechify

