1. Avaleht
  2. API
  3. OpenAI Whisperi hostitud API
Avaldatud API

OpenAI Whisperi hostitud API: põhjalik juhend

Cliff Weitzman

Cliff Weitzman

Speechify tegevjuht/asutaja

Speechify API tagab 300 ms 
viiteaja, inimkõlalised hääled
 ja 50+ keelt

apple logo2025. aasta Apple'i disainiauhind
50M+ kasutajat

Sissejuhatus OpenAI Whisperisse

Whisperi mudel on OpenAI loodud avatud lähtekoodiga automaatne kõnetuvastussüsteem (ASR). See saab hakkama mitmesuguste kõnest tekstiks ülesannetega, näiteks taskuhäälingute transkribeerimine, vestluste kirja panemine ja isegi kõnetõlge. Tänu mitmekesisele treeningandmestikule toetab Whisper paljusid keeli, kuid eriti hästi töötab see inglise keelega.

Whisper API põhiomadused

  1. Kõrge täpsus: Whisper annab madala sõnavigade määraga tulemusi tänu laiale treeningandmestikule.
  2. Mitmekeelne tugi: Peamiselt optimeeritud inglise keeleks, kuid toetab ka teisi keeli, võimaldades ülemaailmset kasutust.
  3. Reaalaegne transkriptsioon: NVIDIA GPU toe abil saab heli reaalajas transkribeerida – näiteks otseülekannetes.
  4. Erinevate audioformaatide tugi: Töötab eri tüüpi helifailidega, näiteks WAV või WEBM.

Whisper API seadistamine

Whisperi kasutamiseks paigalda API pipiga:

```bash

pip install openai-whisper

```

Kui paigaldatud, on Whisperi kasutamine Pythonis lihtne. Siin on lühijuhis, kuidas transkribeerida WAV-faili:

```python

import whisper

model = whisper.load_model("base") # või vali muu mudelisuurus vastavalt vajadusele

result = model.transcribe("path_to_your_audio_file.wav")

print(result['text'])

```

Skript laadib Whisperi mudeli, transkribeerib helifaili ja väljastab teksti. JSON-väljundis on ka ajatemplid ja muu meta, mis sobib hästi detailsemaks analüüsiks.

Whisper API hinnad ja majutus

Whisper API-d saab majutada mitmel moel:

  1. Isemajutus: Võid Whisperi paigaldada oma serverisse. Hea valik privaatsuse või suure mahuga töötluse korral. Vajab rohkem seadistamist, kuid annab täieliku kontrolli keskkonna üle.
  2. Pilveteenused: Whisperit saab käivitada pilves, näiteks Azure’is, mis lihtsustab seadistust ja võimaldab ressursse hõlpsalt skaleerida.

OpenAI ei küsi Whisperi kasutamise eest tasu, sest see on avatud lähtekoodiga, kuid serveri või pilve kasutamisel võivad kaasneda kulud, eriti kui vaja on GPU-d pärisajas transkriptsiooniks.

Kasutusjuhtumid

Whisper API-l on rohkelt praktilisi rakendusi:

  1. Õppeplatvormid: Loengute ja tundide transkribeerimine ligipääsetavuse parandamiseks.
  2. Õigus- ja meditsiinisektor: Täpne menetluste ja nõustamiste kirja panek.
  3. Meedia ja meelelahutus: Subtiitrite ja tõlgete abil rahvusvahelise publikuni jõudmine.
  4. Podcastid ja intervjuud: Kõne mugavaks tekstiks muutmine ja otsitavaks tegemine.

Whisper API laiendamine

Kui soovid Whisperi mudelit kohandada, on avatud lähtekood suur eelis. Võimalik on treenida uute andmete peal, et parandada tulemusi erialase sõnavara või aktsentide puhul. Docker lihtsustab Whisperi konteinerina kasutuselevõttu eri keskkondades.

OpenAI Whisper API on võimas tööriist, mis pakub kiiret ja täpset kõnest tekstiks teenust. Lihtne kasutada, mitmekeelne ja paindlikult majutatav – see paistab kõnetuvastuse valdkonnas silma. Olgu vajadused väikesed või suured, Whisper katab paljud transkriptsioonivajadused. Üksikasjalikumaks tutvumiseks ja kogukonna toe leidmiseks külasta projekti GitHubi: github.com/openai/whisper.

Tehnoloogia arenedes mängib Whisper API üha olulisemat rolli kõnetöötluses. Tutvu dokumentatsiooniga, proovi koodi ja avasta, kuidas Whisper saab sind või sinu ettevõtet aidata.

Korduma kippuvad küsimused

Whisperit saab majutada oma serveris või pilves (nt Azure’is), koos kõigi nõutavate sõltuvustega, et see vastaks sinu vajadustele.

Jah, Whisper on avatud lähtekoodiga ja tasuta kasutatav, kuid serveri- või pilveteenuste eest võib lisanduda kulu.

Kuigi OpenAI arendas Whisperi, ei paku nad otse eraldi Whisper API-t. Kasutaja peab lahenduse ise majutama või kasutama pilveteenust.

Whisper API piirangud: inglise keelest erinevates keeltes võib täpsus olla madalam, reaalajas töötlemiseks on vajalik GPU ja tuleb järgida OpenAI tingimusi, eriti kui kasutatakse OpenAI API võtit ChatGPT või LLM-ide (nt GPT-3.5, GPT-4) jaoks.

Kasuta Speechify populaarseid hääli läbi API – kiirelt, skaleeritavalt ja arendajasõbralikult

Hangi API ligipääs
api access banner

Jaga seda artiklit

Cliff Weitzman

Cliff Weitzman

Speechify tegevjuht/asutaja

Cliff Weitzman on düsleksia eestkõneleja ning Speechify tegevjuht ja asutaja. Speechify on maailma populaarseim kõnesünteesi rakendus, millel on üle 100 000 viietärnilise arvustuse ja mis on App Store'is Uudiste & Ajakirjade kategoorias esikohal. 2017. aastal kanti Weitzman Forbesi „30 alla 30” nimekirja tema töö eest interneti ligipääsetavuse parandamisel õpiraskustega inimestele. Cliff Weitzmanist on kirjutanud ka EdSurge, Inc, PC Mag, Entrepreneur, Mashable ja paljud teised juhtivad väljaanded.

speechify logo

Speechify'st

#1 tekst kõneks rakendus

Speechify on maailma juhtiv tekst kõneks platvorm, mida usaldab üle 50 miljoni kasutaja ja millele on antud enam kui 500 000 viietärnilist arvustust selle tekstist kõneks tehnoloogia eest iOS-, Android-, Chrome Extension-, veebirakendus- ja Mac desktop-rakendustes. 2025. aastal pälvis Speechify Apple’ilt prestiižse Apple’i disainiauhinna WWDC-l, nimetades seda „oluliseks ressursiks, mis aitab inimestel paremini elada.” Speechify pakub üle 1 000 loodusliku kõlaga hääle rohkem kui 60 keeles ning seda kasutatakse ligi 200 riigis. Kuulsuste häältest on saadaval näiteks Snoop Dogg ja Gwyneth Paltrow. Loojatele ja ettevõtetele pakub Speechify Studio täiustatud tööriistu, sh AI-häälegeneraatorit, AI-häälekloonimist, AI-dubleerimist ja AI-häälevahetust. Speechify panustab ka juhtivatesse toodetesse tänu kvaliteetsele ja kuluefektiivsele tekst kõneks API-le. Esindatud näiteks The Wall Street Journal, CNBC, Forbes, TechCrunch ja muudes juhtivates meediakanalites, on Speechify maailma suurim kõnesünteesi teenusepakkuja. Vaata lisaks: speechify.com/news, speechify.com/blog ja speechify.com/press.