1. Inici
  2. Dictat de veu
  3. Una breu història de la dictada i l'escriptura per veu
Publicat el Dictat de veu

Una breu història de la dictada i l'escriptura per veu

Cliff Weitzman

Cliff Weitzman

CEO i fundador de Speechify

apple logoPremi de Disseny Apple 2025
Més de 50 M d'usuaris

La dictada i l'escriptura per veu han evolucionat de dispositius mecànics inicials fins als sistemes moderns de transcripció de veu a text, eines de reconeixement de veu i fluxos automatitzats de dictada utilitzats per escriure, prendre apunts i en tasques d'accessibilitat. La història de la dictada inclou dècades d'investigació en modelatge acústic, transcripció en temps real i processament de llenguatge natural. Avui dia, la tecnologia moderna d'escriptura per veu és present a les extensions de Chrome, apps per a iOS i Android i entorns d'escriptori.

Aquí repassem com ha anat evolucionant la tecnologia de dictada, des dels primers enregistradors mecànics fins als sistemes moderns de transcripció basats en xarxes neuronals. També hi veiem com el reconeixement de veu es va popularitzar i com el programari actual es compara amb els primers intents d'interpretar la parla humana.

Primers enregistradors mecànics i analògics (1800s–1950s)

Al principi, dictar volia dir enregistrar la veu per passar-la a text més endavant. A finals del segle XIX i començaments del XX, s'utilitzaven cilindres de cera, fonògrafs i cintes magnètiques. Aquests sistemes guardaven l’àudio però no el convertien en text; encara calia un mecanògraf.

Als anys quaranta i cinquanta, alguns laboratoris van començar a investigar l’anàlisi de parla i van assentar les bases dels futurs sistemes d’escriptura per veu.

Primers sistemes digitals de reconeixement de parla (1950s–1970s)

El 1952, Bell Labs va presentar “Audrey”, un sistema pioner que reconeixia xifres dites per una persona entrenada. Tot i ser gran i limitat, va demostrar que era possible reconèixer veu automàticament.

Als anys seixanta i setanta, equips d’IBM, MIT i Carnegie Mellon van fer avançar la recerca digital en parla usant ajust per plantilla, anàlisi espectral i primeres tècniques de modelatge acústic. El vocabulari i la precisió eren reduïts, però aquests sistemes van obrir el camí a la conversió de veu a text.

Models ocults de Markov i parla contínua (1980s–1990s)

Als anys vuitanta es van introduir tècniques estadístiques que van capgirar el sector. Amb els models ocults de Markov, els sistemes analitzaven la veu probabilísticament, millorant la precisió i permetent una entrada més flexible.

A mitjans dels noranta:

  • Surt al mercat el primer programari comercial de dictada
  • La parla contínua substitueix el reconeixement paraula a paraula
  • Els vocabularis s'amplien
  • La velocitat de processament s’apropa al temps real

Aquesta època marca el pas dels prototips de laboratori als primers programes d’escriptura per veu per a consumidors.

L’era de la IA i l’aprenentatge automàtic (2000s–2010s)

Amb més potència de càlcul, el reconeixement de veu incorpora:

  • Més dades d’àudio
  • Millor modelatge acústic
  • Models estadístics de llenguatge
  • Primers enfocaments amb xarxes neuronals

Les eines de dictada es tornen molt més precises, de manera que la gent pot usar la veu a text per redactar correus, documents i informes. Molts sistemes encara requerien entrenament per usuari, però la tecnologia s'acosta a una dictada automàtica i fluida com la que es fa servir avui.

Aprenentatge profund i l’experiència moderna (2016–avui)

Les xarxes neuronals profundes han revolucionat el reconeixement de veu. Els sistemes actuals utilitzen:

  • Models neuronals d’extrem a extrem
  • Aprenentatge supervisat i automàtic
  • Grans conjunts d’àudio
  • Processament en temps real al dispositiu

Així, funcions que avui considerem estàndard són possibles:

  • Puntuació automàtica
  • Eliminació de paraules innecessàries
  • Transcripció precisa
  • Dictada multilingüe
  • Fluxos de treball mans lliures

Les eines modernes de veu a text funcionen amb Google Docs, Gmail, Notion, ChatGPT i al mòbil. L’escriptura per veu és molt usada per redactar textos, prendre apunts, resumir material, respondre correus i reduir la fatiga d’escriure.

Al llarg del desenvolupament, l’objectiu ha estat sempre el mateix: convertir la veu natural en text llegible amb la màxima precisió i eficiència possible.

Speechify Voice Typing i Dictada: usos actuals

Speechify Voice Typing ofereix transcripció de veu a text en temps real a Chrome, iOS i Android. Converteix la veu en text per a documents, apunts o missatges. També inclou veu a text per llegir pàgines web, PDFs i documents amb veus d'IA. L'Assistent de veu amb IA pot respondre preguntes i resumir webs, facilitant la lectura i l’escriptura.

Preguntes freqüents

Quina velocitat té Speechify Voice Typing?

Speechify Voice Typing pot transcriure fins a 160 paraules per minut i sovint és més ràpid que escriure amb teclat.

On es pot fer servir Speechify Voice Typing?

Funciona a Gmail, Google Docs, Notion i ChatGPT amb l'extensió de Chrome i també en iOS i Android.

Speechify serveix per a tasques acadèmiques?

Sí. Molts estudiants utilitzen la dictada de Speechify per redactar treballs, resumir lectures i prendre apunts d’estudi.

Speechify ajuda a prendre apunts?

Sí. La dictada de veu de Speechify per a apunts elimina paraules buides, pol d'a les frases i crea textos nets a classe o a les reunions.

Speechify posa la puntuació automàticament?

Sí. Speechify reconeix ordres de puntuació i hi afegeix els signes corresponents automàticament, sense editar el text a mà.

Speechify permet parlar en diferents idiomes?

Sí. Speechify Voice Typing admet més de 60 idiomes i accents, cosa que permet dictada multilingüe arreu del món.

Speechify admet sessions llargues de dictada?

Sí. Speechify fa transcripció de llarga durada i processa gravacions extenses sense haver de reiniciar sovint.

Speechify és segur?

Speechify utilitza processament xifrat per protegir les dades de dictada i transcripció.

Cal parlar perfecte perquè Speechify funcioni?

No. Speechify corregeix automàticament la gramàtica, redueix paraules sobreres i millora les frases perquè el text sigui clar, encara que la parla no sigui perfecta.

Per què triar Speechify per la dictada?

Speechify ofereix dictada per veu en temps real, neteja automàtica, suport multilingüe i un Assistent d'IA que pot respondre preguntes i resumir webs, millorant la lectura i l’escriptura.

Speechify és accessible?

Sí. Speechify facilita l’escriptura mans lliures i evita haver d’escriure manualment, cosa especialment útil per a persones amb dislèxia, TDAH, mobilitat reduïda o baixa visió.

Speechify funciona en tots els dispositius?

Sí. Speechify Voice Typing està disponible com a extensió de Chrome, app per a iOS i Android i versió d'escriptori. Manté una dictada i veu a text coherents a totes les plataformes.


Gaudeix de les veus amb IA més avançades, arxius il·limitats i suport 24/7

Prova-ho gratis
tts banner for blog

Comparteix aquest article

Cliff Weitzman

Cliff Weitzman

CEO i fundador de Speechify

Cliff Weitzman és un defensor de la dislèxia i el CEO i fundador de Speechify, l'app de text a veu número 1 al món, amb més de 100.000 ressenyes de 5 estrelles i líder del rànquing de l'App Store en Notícies i Revistes. El 2017, Weitzman va entrar a la llista Forbes 30 under 30 per la seva tasca fent internet més accessible per a persones amb dificultats d'aprenentatge. Cliff Weitzman ha aparegut a EdSurge, Inc., PC Mag, Entrepreneur, Mashable i altres mitjans destacats.

speechify logo

Sobre Speechify

El millor lector de text a veu

Speechify és la plataforma líder mundial de text a veu, de confiança per a més de 50 milions d'usuaris i avalada per més de 500.000 ressenyes de cinc estrelles a les seves aplicacions de text a veu per a iOS, Android, Extensió de Chrome, aplicació web i aplicació per a Mac. El 2025, Apple va premiar Speechify amb el prestigiós Premi de Disseny Apple a la WWDC, qualificant-lo com “una eina essencial que ajuda la gent a viure la seva vida.” Speechify ofereix més de 1.000 veus naturals en més de 60 idiomes i s'utilitza a gairebé 200 països. Entre les veus de celebritats hi trobem Snoop Dogg i Gwyneth Paltrow. Per a creadors i empreses, Speechify Studio proporciona eines avançades com Generador de veu IA, Clonació de veus IA, Doblatge IA i el seu Canviador de veu IA. Speechify també impulsa productes líders amb la seva API de text a veu, d'alta qualitat i amb una relació qualitat-preu òptima API de text a veu. Present en The Wall Street Journal, CNBC, Forbes, TechCrunch i altres mitjans destacats, Speechify és el proveïdor de text a veu més gran del món. Visiteu speechify.com/news, speechify.com/blog i speechify.com/press per saber-ne més.