Waarom VOMO Deepgram koos voor spraak-naar-tekst

Audio onmiddellijk omzetten in tekst

99% Nauwkeurig - Supersnel - Gebruiksvriendelijk

When I first had the idea for VOMO, it was inspired by the release of OpenAI’s Whisper model, which showed a significant improvement in the accuracy of spraak-naar-tekst technologie. Destijds had ik een aantal belangrijke functies voor ogen: nauwkeurige conversie van spraak naar tekst, realtime transcriptie, de mogelijkheid om getranscribeerde tekst te verfijnen met behulp van GPT en de integratie van gevectoriseerde notities met een vraag-antwoordfunctie.

Toen ik verschillende producten op de markt begon te onderzoeken, waaronder OpenAI's Whisper, Assembly, Google en Microsoft's spraak-naar-tekst diensten, en Deepgram, ontdekte ik dat elk product zijn eigen sterke en zwakke punten had. Whisper was het krachtigst, maar het miste twee essentiële functies die ik nodig had: real-time spraak-naar-tekst en ondersteuning voor audiobestanden groter dan 25MB zonder handmatige segmentatie.

Google en Microsoft's real-time spraak-naar-tekst ai modellen niet nauwkeurig genoeg waren voor onze behoeften. Als de transcripties niet nauwkeurig waren, zouden gebruikers onze service misschien niet blijven gebruiken.

Aanvankelijk vond ik de prijzen van Assembly te hoog.

Toen ontdekte ik Deepgram, dat aan veel van mijn eisen voldeed. Ze boden een cloud-hosted Whisper-model dat transcriptie van uitgebreide opnames met dezelfde mate van nauwkeurigheid kon ondersteunen, en hun prijs voor real-time spraak-naar-tekst was acceptabel (hoewel ik deze functie later heb verwijderd). Voor het opnemen van vergaderingen kon Deepgram bovendien automatische sprekeridentificatie en opmaak ondersteunen. Dit waren allemaal functies die we nodig hadden.

Later heb ik een bulk spraak-naar-tekst functie toegevoegd, waarmee gebruikers tientallen audiobestanden kunnen selecteren uit Apple's Gesproken memo's en importeer ze in VOMO voor batch transcriptie.

Ik ontdekte echter dat het gebruik van Deepgram's Whisper-model beperkingen had op het gebied van gelijktijdigheid, dus schakelden we over op het Nova-2-model. Naar mijn mening is het nauwkeurigheid van transcriptie is vergelijkbaar met Whisper, maar met hogere verwerkingssnelheden.

Daarom blijven we het Nova-2 model van Deepgram gebruiken.

Samengevat kunnen diensten van derden zoals Deepgram de werklast voor producten zoals VOMO aanzienlijk verminderen. De meeste spraakgerelateerde functies die we wilden implementeren waren al beschikbaar via Deepgram.

vomo-logo
20250727 103817 22
Ontgrendel Instant Al vergaderingsnotities
linker tarwe aar

Vertrouwd door 100.000+ gebruikers

5 sterren
tarwe aar rechts

Geen creditcard nodig