1. Inici
  2. TTS
  3. Tot el que cal saber sobre Deepgram Nova-2
Publicat el TTS

Tot el que cal saber sobre Deepgram Nova-2

Cliff Weitzman

Cliff Weitzman

CEO i fundador de Speechify

apple logoPremi de Disseny Apple 2025
Més de 50 M d'usuaris

Què és Deepgram Nova-2?

Deepgram Nova-2 és la darrera novetat de Deepgram, líder en tecnologies de reconeixement automàtic de veu amb IA. Aquest model destaca per oferir una conversió de veu a text (STT) precisa i eficient. Basat en el Nova-1, Nova-2 integra millores en el processament de llenguatge natural (NLP) i IA per augmentar l'exactitud i adaptabilitat de les transcripcions.

Funcionalitats principals de Nova-2

Reconeixement de veu millorat

Deepgram Nova-2 fa servir models transformers, com ChatGPT o Whisper d’OpenAI, per oferir un reconeixement de veu superior. Això permet gestionar tot tipus d'àudio, en temps real o enregistrat, minimitzant significativament l'índex d’error de paraula (WER).

Transcripció en temps real

Per a aplicacions que requereixen resposta immediata, com plataformes d’IA conversacional, la transcripció en temps real de Nova-2 és clau. Permet que agents d’IA interactuïn de manera fluida i intel·ligent amb els usuaris.

Multilingüisme i diarització

Nova-2 sobresurt en la transcripció d’àudio en anglès, però també és compatible amb diversos idiomes. La seva funció de diarització distingeix diferents parlants, ideal per resumir reunions o podcasts amb múltiples participants.

Aplicacions de Deepgram Nova-2

La versatilitat de Nova-2 el fa ideal per a molts usos:

  1. Aplicacions de veu: Millora la interacció a apps amb ordres de veu.
  2. Podcasts i emissions: Transcriu episodis automàticament per agilitzar la producció i millorar-ne l’accessibilitat.
  3. Trucades i atenció al client: Transcriu trucades en temps real per donar suport a xatbots i agents humans.
  4. Contingut educatiu: Converteix classes i xerrades en text perquè serveixin de material d'estudi.

Com començar amb Nova-2

API i tutorial

Deepgram ofereix una API per Nova-2, accessible des del seu web oficial, deepgram.com. Els desenvolupadors poden provar-la al seu entorn de proves i experimentar amb diferents opcions. Si ets nou a Deepgram o al model de veu a text, trobaràs diversos tutorials i documentació, amb exemples en Python i projectes open source a GitHub, per ajudar-te a començar.

Preus

Deepgram Nova-2 té preus competitius amb diferents nivells segons l’ús. L’accés primerenc a funcionalitats avançades, com la comprensió avançada del llenguatge natural, també podria estar disponible i influir en el cost.

Rendiment i referències

Nova-2 de Deepgram presenta resultats impressionants, especialment en WER i precisió de reconeixement de veu. Per a desenvolupadors i empreses, aquestes dades ofereixen una mesura fiable del seu rendiment.

Millores respecte Nova-1

Comparat amb Nova-1, Nova-2 presenta grans millores en rapidesa, precisió i capacitat per gestionar llenguatge natural més complex. Aquestes innovacions el fan molt atractiu per a empreses que volen solucions de veu amb IA escalables i eficients.

Deepgram Nova-2 no és només una eina; és un pas més cap a aplicacions interactives i intel·ligents on la veu hi té un paper clau. Amb funcionalitats sòlides i múltiples aplicacions, es consolida com a referent en tecnologies ASR.

Tant si desenvolupes models d’IA, com si crees apps amb veu o necessites transcriure àudio ràpidament, Deepgram Nova-2 ofereix una solució completa que compleix i fins i tot supera les expectatives.

Hi ha alguna alternativa millor a Deepgram?

Sí. Speechify és pionera en IA de veu a text i de text a veu. Amb aplicacions TTS usades per milions de persones, Speechify és a l’avantguarda. Amb la seva nova API, tothom pot aprofitar aquest aprenentatge profund per crear les seves pròpies eines.

Speechify Studio és una eina que funciona directament al navegador. Pots importar vídeo o àudio, transcriure’l i traduir-lo a més de 150 idiomes.

Prova Speechify Studio o la seva API.

Preguntes freqüents

El preu de Deepgram Nova-2 depèn del nivell d’ús i de les funcionalitats sol·licitades. Visita deepgram.com per consultar preus i opcions per a accés primerenc i empreses.

Deepgram Nova és la suite estàndard de models veu-a-text, mentre que l'enhanced n’augmenta l’exactitud i l’eficiència gràcies a millores en NLP i IA, adaptant-se millor a la transcripció en temps real o d'àudio enregistrat més complex.

La transcripció de Deepgram ofereix un índex d’error (WER) molt baix, i és un dels models més precisos avui, sobretot en arxius d’àudio en anglès i dades diverses.

El model més ràpid de Deepgram és Nova-2, optimitzat per al temps real i capaç de gestionar grans volums d’àudio ràpidament. Ideal per a emissions en directe, trucades i apps de veu amb IA.

Gaudeix de les veus amb IA més avançades, arxius il·limitats i suport 24/7

Prova-ho gratis
tts banner for blog

Comparteix aquest article

Cliff Weitzman

Cliff Weitzman

CEO i fundador de Speechify

Cliff Weitzman és un defensor de la dislèxia i el CEO i fundador de Speechify, l'app de text a veu número 1 al món, amb més de 100.000 ressenyes de 5 estrelles i líder del rànquing de l'App Store en Notícies i Revistes. El 2017, Weitzman va entrar a la llista Forbes 30 under 30 per la seva tasca fent internet més accessible per a persones amb dificultats d'aprenentatge. Cliff Weitzman ha aparegut a EdSurge, Inc., PC Mag, Entrepreneur, Mashable i altres mitjans destacats.

speechify logo

Sobre Speechify

El millor lector de text a veu

Speechify és la plataforma líder mundial de text a veu, de confiança per a més de 50 milions d'usuaris i avalada per més de 500.000 ressenyes de cinc estrelles a les seves aplicacions de text a veu per a iOS, Android, Extensió de Chrome, aplicació web i aplicació per a Mac. El 2025, Apple va premiar Speechify amb el prestigiós Premi de Disseny Apple a la WWDC, qualificant-lo com “una eina essencial que ajuda la gent a viure la seva vida.” Speechify ofereix més de 1.000 veus naturals en més de 60 idiomes i s'utilitza a gairebé 200 països. Entre les veus de celebritats hi trobem Snoop Dogg i Gwyneth Paltrow. Per a creadors i empreses, Speechify Studio proporciona eines avançades com Generador de veu IA, Clonació de veus IA, Doblatge IA i el seu Canviador de veu IA. Speechify també impulsa productes líders amb la seva API de text a veu, d'alta qualitat i amb una relació qualitat-preu òptima API de text a veu. Present en The Wall Street Journal, CNBC, Forbes, TechCrunch i altres mitjans destacats, Speechify és el proveïdor de text a veu més gran del món. Visiteu speechify.com/news, speechify.com/blog i speechify.com/press per saber-ne més.