1. Inici
  2. API
  3. OpenAI Whisper allotjat
Publicat el API

OpenAI Whisper allotjat: Guia completa

Cliff Weitzman

Cliff Weitzman

CEO i fundador de Speechify

L'API de Speechify ofereix una latència de 300 ms, veus amb qualitat humana i més de 50 idiomes

apple logoPremi de Disseny Apple 2025
Més de 50 M d'usuaris

Introducció a OpenAI Whisper

Whisper és un sistema obert de reconeixement automàtic de veu (ASR) creat per OpenAI. Permet diverses tasques de veu-a-text, com transcriure podcasts, passar diàleg parlat a text o traduir veu. Està entrenat amb un conjunt de dades divers i entén molts idiomes, tot i que destaca especialment en anglès.

Característiques principals de l’API Whisper

  1. Alta precisió: Whisper té una baixa taxa d’errors (WER) gràcies a l’entrenament amb grans volums d’àudio.
  2. Suport multilingüe: Tot i estar optimitzada per a l’anglès, l’API admet diversos idiomes i és molt versàtil per a aplicacions globals.
  3. Transcripció en temps real: Amb GPU (sobretot NVIDIA), l’API pot transcriure àudio en temps real, ideal per a directes i retransmissions.
  4. Flexibilitat de formats d’àudio: L’API processa diferents formats, com WAV i WEBM.

Configuració de l’API Whisper

Per començar amb Whisper, normalment cal instal·lar el paquet amb pip:

```bash

pip install openai-whisper

```

Un cop instal·lat, fer servir Whisper en Python és molt fàcil. Aquí t’expliquem com transcriure un WAV:

```python

import whisper

model = whisper.load_model("base") # o tria una altra mida segons les teves necessitats

result = model.transcribe("path_to_your_audio_file.wav")

print(result['text'])

```

Aquest script carrega el model Whisper, transcriu l’arxiu d’àudio i mostra la transcripció. També retorna marques de temps i metadades al JSON de sortida, molt útils per a una anàlisi detallada.

Preus i opcions d’allotjament de l’API Whisper

L’API Whisper es pot allotjar de diferents maneres:

  1. Auto-allotjat: Pots allotjar Whisper als teus servidors. És ideal si et preocupa la privacitat de dades o transcrius molt d’àudio; triga més a engegar-se, però tens el control total.
  2. Serveis al núvol: Pots desplegar Whisper a plataformes com Azure. Simplifica el procés i permet escalar segons la demanda.

OpenAI ara no cobra per l’ús de Whisper directament perquè és codi obert, però compta amb les despeses de servidor o núvol, sobretot si necessites GPU per a transcripció en temps real.

Casos d’ús

Les aplicacions pràctiques de l’API Whisper són molt variades:

  1. Plataformes educatives: Transcriu classes i conferències per fer-les més accessibles.
  2. Sector legal i mèdic: Transcripcions fiables de procediments i consultes.
  3. Mitjans i entreteniment: Subtitulació i traducció de contingut per a un públic internacional.
  4. Podcasts i entrevistes: Converteix fàcilment la veu en text cercable.

Estendre l’API Whisper

Si vols adaptar el model Whisper a necessitats concretes, el codi obert de l’API ho posa fàcil. Pots entrenar-lo amb dades específiques per millorar resultats en vocabulari o accents. També pots fer servir Docker per conteniritzar l’entorn Whisper i simplificar el desplegament entre sistemes.

L’API OpenAI Whisper és una gran eina per a qui vulgui veu-a-text eficient i precís. Per la seva facilitat d’ús, suport multilingüe i flexibilitat d’allotjament, és una de les millors opcions avui dia. Tant per a projectes individuals com per a empreses, Whisper pot cobrir moltes necessitats de transcripció. Troba més informació i suport comunitari a la pàgina de GitHub del projecte a github.com/openai/whisper.

Amb l’avenç tecnològic, eines com l’API Whisper jugaran un paper clau en el tractament i ús de la veu. Dona un cop d’ull a la documentació, prova el codi i descobreix com Whisper pot impulsar els teus projectes o negocis.

Preguntes freqüents

Pots allotjar Whisper als teus servidors o desplegar-lo al núvol (com Azure), gestionant les dependències i adaptant-lo al que necessitis.

Sí, Whisper és codi obert i es pot utilitzar gratuïtament, però allotjar-lo a servidors o al núvol pot tenir costos.

Tot i que OpenAI va desenvolupar Whisper, no ofereix endpoints d’API allotjats. L’usuari s’ha d’auto-allotjar o fer servir serveis al núvol.

L’API pot ser menys precisa fora de l’anglès, necessita GPU per a temps real i depèn dels termes d’OpenAI, especialment quan fas servir una API key amb serveis com ChatGPT o LLMs com GPT-3.5 i GPT-4.

Accedeix ràpidament a les teves veus preferides de Speechify via API, escalable i fàcil per a desenvolupadors

Accedeix a l'API
api access banner

Comparteix aquest article

Cliff Weitzman

Cliff Weitzman

CEO i fundador de Speechify

Cliff Weitzman és un defensor de la dislèxia i el CEO i fundador de Speechify, l'app de text a veu número 1 al món, amb més de 100.000 ressenyes de 5 estrelles i líder del rànquing de l'App Store en Notícies i Revistes. El 2017, Weitzman va entrar a la llista Forbes 30 under 30 per la seva tasca fent internet més accessible per a persones amb dificultats d'aprenentatge. Cliff Weitzman ha aparegut a EdSurge, Inc., PC Mag, Entrepreneur, Mashable i altres mitjans destacats.

speechify logo

Sobre Speechify

El millor lector de text a veu

Speechify és la plataforma líder mundial de text a veu, de confiança per a més de 50 milions d'usuaris i avalada per més de 500.000 ressenyes de cinc estrelles a les seves aplicacions de text a veu per a iOS, Android, Extensió de Chrome, aplicació web i aplicació per a Mac. El 2025, Apple va premiar Speechify amb el prestigiós Premi de Disseny Apple a la WWDC, qualificant-lo com “una eina essencial que ajuda la gent a viure la seva vida.” Speechify ofereix més de 1.000 veus naturals en més de 60 idiomes i s'utilitza a gairebé 200 països. Entre les veus de celebritats hi trobem Snoop Dogg i Gwyneth Paltrow. Per a creadors i empreses, Speechify Studio proporciona eines avançades com Generador de veu IA, Clonació de veus IA, Doblatge IA i el seu Canviador de veu IA. Speechify també impulsa productes líders amb la seva API de text a veu, d'alta qualitat i amb una relació qualitat-preu òptima API de text a veu. Present en The Wall Street Journal, CNBC, Forbes, TechCrunch i altres mitjans destacats, Speechify és el proveïdor de text a veu més gran del món. Visiteu speechify.com/news, speechify.com/blog i speechify.com/press per saber-ne més.