När jag först fick idén till VOMO var den inspirerad av lanseringen av OpenAI:s Whisper-modell, som visade en betydande förbättring av träffsäkerheten i tal-till-text teknik. Vid den tidpunkten föreställde jag mig flera viktiga funktioner: exakt konvertering av tal till text, transkribering i realtid, möjlighet att förfina transkriberad text med hjälp av GPT och integrering av vektoriserade anteckningar med en funktion för att besvara frågor.
När jag började undersöka olika produkter på marknaden, bland annat OpenAI:s Whisper, Assembly, Googles och Microsofts tal-till-text-tjänster och Deepgram, upptäckte jag att alla hade sina egna styrkor och svagheter. Whisper var den mest kraftfulla, men den saknade två viktiga funktioner som jag behövde: tal-till-text i realtid och stöd för ljudfiler som är större än 25 MB utan manuell segmentering.
Google och Microsofts tal-till-text i realtid ai-modeller inte var tillräckligt exakta för våra behov. Om transkriptionerna inte var exakta skulle användarna kanske inte fortsätta att använda vår tjänst.
Till en början tyckte jag att Assemblys prissättning var för hög.
Sedan upptäckte jag Deepgram, som uppfyllde många av mina krav. De erbjöd en molnhostad Whisper-modell som kunde stödja transkription av utökade inspelningar med samma noggrannhetsnivå, och deras prissättning för tal-till-text i realtid var acceptabel (även om jag senare tog bort den här funktionen). För inspelning av möten kunde Deepgram dessutom stödja automatisk identifiering och formatering av talare. Det var alla funktioner vi behövde.
Senare lade jag till en stor tal-till-text-funktion, så att användarna kan välja dussintals ljudfiler från Apples Röstmemon och importera dem till VOMO för batch transkription.
Jag upptäckte dock att användningen av Deepgrams Whisper-modell hade begränsningar när det gäller samtidighet, så vi bytte till Nova-2-modellen. Enligt min mening är dess noggrannhet i transkriptionen är jämförbar med Whisper, men med högre bearbetningshastigheter.
Därför fortsätter vi att använda Deepgrams Nova-2-modell.
Sammanfattningsvis kan tredjepartstjänster som Deepgram avsevärt minska arbetsbelastningen för produkter som VOMO. De flesta av de talrelaterade funktioner som vi ville implementera fanns redan tillgängliga via Deepgram.