Waarom VOMO Deepgram koos voor spraak-naar-tekst

Toen ik voor het eerst het idee had voor VOMOwerd geïnspireerd door de release van OpenAI's Whisper-model, dat een aanzienlijke verbetering liet zien in de nauwkeurigheid van spraak-naar-tekst technologie. Destijds had ik een aantal belangrijke functies voor ogen: nauwkeurige conversie van spraak naar tekst, realtime transcriptie, de mogelijkheid om getranscribeerde tekst te verfijnen met behulp van GPT en de integratie van gevectoriseerde notities met een vraag-antwoordfunctie.

Toen ik verschillende producten op de markt begon te onderzoeken, waaronder OpenAI's Whisper, Assembly, Google en Microsoft's spraak-naar-tekst diensten, en Deepgram, ontdekte ik dat elk product zijn eigen sterke en zwakke punten had. Whisper was het krachtigst, maar het miste twee essentiële functies die ik nodig had: real-time spraak-naar-tekst en ondersteuning voor audiobestanden groter dan 25MB zonder handmatige segmentatie.

Google en Microsoft's real-time spraak-naar-tekst ai modellen niet nauwkeurig genoeg waren voor onze behoeften. Als de transcripties niet nauwkeurig waren, zouden gebruikers onze service misschien niet blijven gebruiken.

Aanvankelijk vond ik de prijzen van Assembly te hoog.

Toen ontdekte ik Deepgram, dat aan veel van mijn eisen voldeed. Ze boden een cloud-hosted Whisper-model dat transcriptie van uitgebreide opnames met dezelfde mate van nauwkeurigheid kon ondersteunen, en hun prijs voor real-time spraak-naar-tekst was acceptabel (hoewel ik deze functie later heb verwijderd). Voor het opnemen van vergaderingen kon Deepgram bovendien automatische sprekeridentificatie en opmaak ondersteunen. Dit waren allemaal functies die we nodig hadden.

Later heb ik een bulk spraak-naar-tekst functie toegevoegd, waarmee gebruikers tientallen audiobestanden kunnen selecteren uit Apple's Gesproken memo's en importeer ze in VOMO voor batch transcriptie.

Ik ontdekte echter dat het gebruik van Deepgram's Whisper-model beperkingen had op het gebied van gelijktijdigheid, dus schakelden we over op het Nova-2-model. Naar mijn mening is het nauwkeurigheid van transcriptie is vergelijkbaar met Whisper, maar met hogere verwerkingssnelheden.

Daarom blijven we het Nova-2 model van Deepgram gebruiken.

Samengevat kunnen diensten van derden zoals Deepgram de werklast voor producten zoals VOMO aanzienlijk verminderen. De meeste spraakgerelateerde functies die we wilden implementeren waren al beschikbaar via Deepgram.