Miksi VOMO valitsi Deepgramin puheesta tekstiksi -palveluun

Käännä ääni tekstiksi välittömästi

99% Tarkka - erittäin nopea - helppokäyttöinen

Kun sain ensimmäisen kerran idean VOMO:sta, se sai innoituksensa OpenAI:n Whisper-mallin julkaisusta, joka osoitti merkittävää parannusta tarkkuudessa. puheesta tekstiksi teknologia. Tuolloin kuvittelin useita keskeisiä ominaisuuksia: tarkka puheen muuntaminen tekstiksi, reaaliaikainen transkriptio, mahdollisuus tarkentaa transkriptoitua tekstiä GPT:n avulla ja vektorimuotoisten muistiinpanojen integrointi kysymys-vastaus-toimintoon.

Kun aloin tutkia erilaisia markkinoilla olevia tuotteita, kuten OpenAI:n Whisperiä, Assemblyä, Googlen ja Microsoftin puheesta tekstiin -palveluja sekä Deepgramia, huomasin, että jokaisella oli omat vahvuutensa ja heikkoutensa. Whisper oli tehokkain, mutta siitä puuttui kaksi tarvitsemaani olennaista ominaisuutta: reaaliaikainen puheesta tekstiksi ja tuki yli 25 Mt:n kokoisille äänitiedostoille ilman manuaalista segmentointia.

Googlen ja Microsoftin reaaliaikainen puheesta tekstiin -ohjelma ai-mallit eivät olleet tarpeeksi tarkkoja tarpeisiimme. Jos transkriptiot eivät olisi tarkkoja, käyttäjät eivät ehkä jatkaisi palvelumme käyttöä.

Aluksi pidin Assemblyn hinnoittelua liian korkeana.

Sitten löysin Deepgramin, joka täytti monet vaatimuksistani. He tarjosivat pilvipalveluna toimivaa Whisper-mallia, joka pystyi tukemaan laajojen tallenteiden transkriptiota samalla tarkkuudella, ja heidän reaaliaikaisen puheesta tekstiksi -hinnoittelunsa oli hyväksyttävä (vaikka poistinkin myöhemmin tämän ominaisuuden). Lisäksi kokousten tallentamista varten Deepgram pystyi tukemaan automaattista puhujan tunnistusta ja muotoilua. Nämä kaikki olivat ominaisuuksia, joita tarvitsimme.

Myöhemmin lisäsin irtotavarana puheesta tekstiksi -ominaisuuden, jonka avulla käyttäjät voivat valita kymmeniä äänitiedostoja Applen valikoimasta. Äänimuistiinpanot ja tuoda ne VOMOon eräajona tapahtuva transkriptio.

Huomasin kuitenkin, että Deepgramin Whisper-mallin käyttämisessä oli samanaikaisuusrajoituksia, joten siirryimme Nova-2-malliin. Mielestäni sen transkription tarkkuus on verrattavissa Whisperiin, mutta nopeammalla käsittelynopeudella.

Tämän vuoksi käytämme edelleen Deepgramin Nova-2-mallia.

Yhteenvetona voidaan todeta, että Deepgramin kaltaiset kolmannen osapuolen palvelut voivat vähentää merkittävästi VOMOn kaltaisten tuotteiden työmäärää. Suurin osa puheeseen liittyvistä ominaisuuksista, jotka halusimme toteuttaa, oli jo saatavilla Deepgramin kautta.

vomo logo
20250727 103817 22
Avaa Instant Al Meeting Notes -muistiinpanojen lukitus
vasen vehnänkorva

Yli 100,000 käyttäjän luottamus

5 tähteä
vehnänkorva oikealla

Luottokorttia ei tarvita