Una de les aplicacions més clares de la tecnologia de reconeixement de veu és poder donar ordres a un ordinador parlant pel micròfon. Ara es pot introduir informació amb reconeixement de veu, a més del teclat i el ratolí. Vegem com aquestes noves tecnologies poden multiplicar la productivitat a l'oficina i automatitzar tasques diàries de la millor manera possible.
Què és la tecnologia d'àudio a text?
El reconeixement de veu, també anomenat d'àudio a text, és la tecnologia que permet a un ordinador entendre la parla humana i convertir-la en text. Fins i tot quan es parla clarament, el vocabulari del programari de reconeixement de veu més bàsic pot ser limitat. Els ordinadors actuals poden processar veu humana en diferents idiomes i accents. Les eines d'àudio a text (o transcripció) es basen en l'aprenentatge automàtic i reconeixement de veu, que pot millorar molt la productivitat a la feina o en altres àmbits on la transcripció és útil. Aquest camp s'alimenta de la lingüística, la informàtica i l'enginyeria. Els smartphones i programes moderns sovint inclouen funcions integrades de reconeixement de veu que faciliten o fins i fins i tot permeten el control mans lliures. Amb la incorporació de processament del llenguatge natural i dispositius amb aprenentatge automàtic com Amazon Alexa, Google Home Assistant o Siri, la precisió ja és molt alta.
El reconeixement de veu i el de parla són el mateix?
El reconeixement de veu i el reconeixement de parla no són el mateix i no s'han de confondre:
- El reconeixement de parla serveix per reconèixer paraules pronunciades.
- El reconeixement de veu és una tecnologia biomètrica per identificar la veu d'una persona.
Els algoritmes que transformen la parla en text s'entrenen per reconèixer una gran varietat de dialectes, accents, idiomes i estils d'expressió. El programari també separa la veu del soroll ambiental. Els sistemes de reconeixement de veu usen dos tipus de models:
- Models acústics. Enllacen elements verbals amb impulsos acústics.
- Models de llenguatge. Diferencien paraules semblants usant patrons de so per emparellar-les correctament.
Quins beneficis té utilitzar les eines d'àudio a text?
Segons aquest estudi de Stanford, el mètode d'àudio a text és tres vegades més ràpid que teclejar, i avui dia és una de les opcions d'IA més populars. Aquests són alguns beneficis i àmbits on l'àudio gravat és útil:
- Educació. El reconeixement de veu ajuda a aprendre idiomes. El programa analitza la veu i ofereix consells per millorar la pronunciació.
- Estalvi de temps. Utilitzar àudio a text vol dir invertir menys temps a prendre notes. Funciona per a qualsevol sector: des d'empresaris a reunions, fins a professors, periodistes, terapeutes, etc. Tenir notes de veu transcrites amb precisió al final de cada reunió és un gran avantatge.
- Atenció al client. Assistents de veu automàtics poden respondre preguntes i aportar més informació.
- Salut. Metges poden transcriure notes al moment als expedients dels pacients.
- Assistència a la discapacitat. Persones amb discapacitat auditiva poden seguir converses amb el reconeixement de veu i subtítols. Qui no pot escriure pot usar l'ordinador parlant pel micròfon.
- Actes judicials. Ja no cal dependre de transcriptors humans per recollir el que es diu als judicis.
- Reconeixement d'emocions. Amb àudio a text es pot deduir l'estat emocional d'un parlant. Combinat amb anàlisi de sentiment, revela la percepció real d'un servei o producte.
- Mans lliures. Les ordres de veu mans lliures són populars entre conductors i es fan servir en dispositius com telèfons, ràdios o GPS.
Top 5 eines de transcripció que has de provar
Avui dia, transcriure àudio és molt útil. Serveix per documentar gairebé qualsevol cosa, fer el contingut accessible i millorar el SEO. Si hi dediques una mica de temps, hi ha moltes opcions excel·lents que donen bons resultats. Hem provat cinc programes gratuïts de transcripció i els resumim aquí.
1. Alice Transcription
Alice s'adreça sobretot a periodistes i ofereix serveis de transcripció. Altres serveis guarden les transcripcions (amb o sense límit de temps) i permeten fer-hi canvis al moment, però Alice t'envia l'àudio i la transcripció per correu electrònic i després ho penja a Google Drive. Alice cobra segons ús: 9,99 $ fins a 2 h, 4,99 $ l'hora si en fas 20, i 2,99 $ l'hora si arribes a 100 h. Els primers 60 minuts són gratis per a usuaris d’Apple amb l’app d’iOS; encara no hi ha versió per a Android.
2. Otter
Otter és molt usat per empreses conegudes com Zoom, Dropbox i IBM. Pots gravar àudio des del mòbil o el navegador (millor Chrome) i obtenir la transcripció instantània. També afegeix identificació de parlants, notes, fotos i paraules clau, així no necessites eines extra. Per treballar en grup només cal crear un equip i convidar membres. Registrar-s’hi et regala 600 minuts de transcripció gratis.
3. Dictat per veu de Google Docs
Converteix veu a text amb precisió mitjançant una API amb la IA més avançada de Google. Els nous usuaris poden començar amb 300 $ de crèdit gratuït. Cada mes, tots els comptes tenen 60 minuts d'àudio gratis per transcriure. El dictat de Google Docs destaca per:
- Models específics
- Comparació fàcil de qualitat
- D'àudio a text local
- Veu en dispositiu
Tant si tens iPhone com Android, el podràs fer servir mentre tinguis connexió estable.
4. Nuance Dragon
Nuance és un programari versàtil que serveix tant per convertir parla a text com per transcriure, depenent de la versió. Hi ha opcions per a usuaris particulars, experts, policia, entre d'altres. Pots controlar-ho tot només amb la veu i estalviar temps. Simplement dicta ordres pel micròfon i s'executen. T'ajuda a crear documents professionals de manera ràpida i senzilla.
5. Wordcab
Wordcab és un resumidor de reunions amb una interfície molt senzilla i una API escalable per resumir automàticament trucades i reunions. Pots cercar fàcilment dins els resums i les transcripcions interactives. Es fixa en l’equip, registrant les converses com a actes de reunió naturals. Wordcab pot importar podcasts, gravacions, vídeos de YouTube i més. Crea resums ràpids i envia'ls als assistents remots. També pot pujar àudios, transcriure'ls i generar-ne el resum automàticament.
Com pots usar aquestes eines?
Aquesta tecnologia transcriu àudio més ràpid que una persona, per això mai s'oblida el que es diu en una reunió. De fet, es podria dir que enregistrar àudio hauria de ser el mètode bàsic per documentar reunions corporatives. No cal dependre d’una sola persona ni de documents antics: tindràs dades fresques i completes. Pots usar eines d’àudio a text per transcriure classes, apunts, missatges, entrevistes, trucades, reunions, etc.
Àudio a text i altres tecnologies relacionades amb la veu
A banda de la IA d’àudio a text, hi ha altres eines basades en la veu per a la feina, el dia a dia o si tu o algú que coneguis necessita ajuda per llegir, parlar o escoltar. Speechify és una eina de veu líder que funciona amb molts sistemes: Windows, Android, Mac, iOS, Linux, Microsoft i més. Si compares l’opció de text a veu de Speechify amb altres alternatives, destaca per revisar publicacions de xarxes socials, escoltar audiollibres o llegir articles acadèmics. Ofereix més de 15 idiomes i més de 30 veus que sonen molt naturals. Pots llicenciar les veus reals per a anuncis, podcasts i més. El programa pot escanejar llibres o textos i convertir-los en àudio amb reconeixement òptic de caràcters. Amb la càmera de l’app, l’usuari pot escoltar el text fotografiat i sentir-lo llegit en veu alta. Prova Speechify per gaudir d'una gran experiència de text a veu.

