Hvorfor VOMO valgte Deepgram til tale-til-tekst

Gør lyd til tekst med det samme

99% Nøjagtig - superhurtig - nem at bruge

Da jeg først fik ideen til VOMO, var den inspireret af udgivelsen af OpenAI's Whisper-model, som viste en betydelig forbedring i nøjagtigheden af tale-til-tekst teknologi. På det tidspunkt forestillede jeg mig flere nøglefunktioner: præcis tale-til-tekst-konvertering, transskription i realtid, mulighed for at forfine transskriberet tekst ved hjælp af GPT og integration af vektoriserede noter med en spørgsmål-svar-funktion.

Da jeg begyndte at undersøge forskellige produkter på markedet, herunder OpenAI's Whisper, Assembly, Google og Microsofts tale-til-tekst-tjenester og Deepgram, opdagede jeg, at de alle havde deres egne styrker og svagheder. Whisper var den mest kraftfulde, men den manglede to vigtige funktioner, som jeg havde brug for: tale-til-tekst i realtid og understøttelse af lydfiler større end 25 MB uden manuel segmentering.

Google og Microsofts tale-til-tekst i realtid ai-modeller ikke var præcise nok til vores behov. Hvis transskriptionerne ikke var præcise, ville brugerne måske ikke fortsætte med at bruge vores service.

I starten syntes jeg, at Assemblys priser var for høje.

Så opdagede jeg Deepgram, som opfyldte mange af mine krav. De tilbød en cloud-hostet Whisper-model, der kunne understøtte transskription af længere optagelser med samme nøjagtighed, og deres priser for tale-til-tekst i realtid var acceptable (selvom jeg senere fjernede denne funktion). Til optagelse af møder kunne Deepgram desuden understøtte automatisk identifikation og formatering af talere. Det var alle de funktioner, vi havde brug for.

Senere tilføjede jeg en bulk-tale-til-tekst-funktion, så brugerne kunne vælge dusinvis af lydfiler fra Apples Stemme-notater og importere dem til VOMO for Batch-transskription.

Men jeg opdagede, at brugen af Deepgrams Whisper-model havde begrænsninger i forhold til samtidighed, så vi skiftede til Nova-2-modellen. Efter min mening er dens nøjagtighed i transskriptionen er sammenlignelig med Whisper, men med hurtigere behandlingshastigheder.

Derfor fortsætter vi med at bruge Deepgrams Nova-2-model.

Kort sagt kan tredjepartstjenester som Deepgram reducere arbejdsbyrden for produkter som VOMO betydeligt. De fleste af de talerelaterede funktioner, vi ønskede at implementere, var allerede tilgængelige via Deepgram.

vomo-logo
20250727 103817 22
Lås op for Instant Al-mødenotater
venstre hvedeaks

Betroet af mere end 100.000 brugere

5 stjerner
Hvedeaks til højre

Intet kreditkort påkrævet