Als ich zum ersten Mal die Idee für VOMOEs wurde durch die Veröffentlichung des Whisper-Modells von OpenAI inspiriert, das eine deutliche Verbesserung der Genauigkeit von Sprache-zu-Text Technologie. Damals stellte ich mir mehrere Schlüsselfunktionen vor: präzise Umwandlung von Sprache in Text, Transkription in Echtzeit, die Möglichkeit, den transkribierten Text mit GPT zu verfeinern, und die Integration von vektorisierten Notizen mit einer Frage-Antwort-Funktion.
Als ich begann, verschiedene Produkte auf dem Markt zu untersuchen, darunter Whisper von OpenAI, Assembly, die Sprach-zu-Text-Dienste von Google und Microsoft sowie Deepgram, stellte ich fest, dass jedes seine eigenen Stärken und Schwächen hatte. Whisper war das leistungsstärkste Produkt, aber ihm fehlten zwei wesentliche Funktionen, die ich brauchte: Sprache-zu-Text in Echtzeit und Unterstützung für Audiodateien, die größer als 25 MB sind, ohne manuelle Segmentierung.
Googles und Microsofts Echtzeit-Sprache-zu-Text KI-Modelle für unsere Bedürfnisse nicht genau genug waren. Wären die Transkriptionen nicht präzise genug, würden die Nutzer unseren Dienst möglicherweise nicht weiter nutzen.
Anfänglich fand ich die Preise von Assembly zu hoch.
Dann entdeckte ich Deepgram, das viele meiner Anforderungen erfüllte. Das Unternehmen bot ein in der Cloud gehostetes Whisper-Modell an, das die Transkription umfangreicher Aufzeichnungen mit der gleichen Genauigkeit unterstützte, und die Preisgestaltung für Sprache-zu-Text in Echtzeit war akzeptabel (obwohl ich diese Funktion später entfernte). Außerdem konnte Deepgram bei der Aufzeichnung von Besprechungen die automatische Identifizierung und Formatierung der Sprecher unterstützen. Dies waren alles Funktionen, die wir brauchten.
Später fügte ich eine Bulk-Sprache-zu-Text-Funktion hinzu, die es den Benutzern ermöglicht, Dutzende von Audiodateien aus Apples Sprachnotizen und importieren sie in VOMO für Batch-Transkription.
Ich entdeckte jedoch, dass das Whisper-Modell von Deepgram Einschränkungen bei der Gleichzeitigkeit aufwies, so dass wir auf das Nova-2-Modell umstiegen. Meiner Meinung nach ist es Transkriptionsgenauigkeit ist vergleichbar mit Whisper, jedoch mit höherer Verarbeitungsgeschwindigkeit.
Aus diesem Grund verwenden wir weiterhin das Nova-2-Modell von Deepgram.
Zusammenfassend lässt sich sagen, dass Dienste von Drittanbietern wie Deepgram den Arbeitsaufwand für Produkte wie VOMO erheblich reduzieren können. Die meisten der sprachbezogenen Funktionen, die wir implementieren wollten, waren bereits über Deepgram verfügbar.