Quando ho avuto l'idea di VOMOè stata ispirata dal rilascio del modello Whisper di OpenAI, che ha mostrato un miglioramento significativo nel precisione di Da parola a testo tecnologia. All'epoca avevo immaginato alcune caratteristiche chiave: una conversione precisa da parlato a testo, la trascrizione in tempo reale, la possibilità di affinare il testo trascritto utilizzando il GPT e l'integrazione di note vettoriali con una funzione di risposta alle domande.
Quando ho iniziato a fare ricerche sui vari prodotti presenti sul mercato, tra cui Whisper di OpenAI, Assembly, i servizi speech-to-text di Google e Microsoft, e Deepgram, ho scoperto che ognuno aveva i suoi punti di forza e di debolezza. Whisper era il più potente, ma mancava di due caratteristiche essenziali di cui avevo bisogno: la sintesi vocale in tempo reale e il supporto di file audio di dimensioni superiori a 25 MB senza segmentazione manuale.
Il sistema speech-to-text in tempo reale di Google e Microsoft modelli ai non erano abbastanza precise per le nostre esigenze. Se le trascrizioni non fossero precise, gli utenti potrebbero non continuare a utilizzare il nostro servizio.
Inizialmente ho trovato i prezzi di Assembly troppo alti.
Poi ho scoperto Deepgram, che rispondeva a molte delle mie esigenze. Offriva un modello Whisper ospitato nel cloud, in grado di supportare la trascrizione di registrazioni estese con lo stesso livello di accuratezza, e il prezzo della funzione speech-to-text in tempo reale era accettabile (anche se in seguito ho rimosso questa funzione). Inoltre, per la registrazione delle riunioni, Deepgram poteva supportare l'identificazione e la formattazione automatica degli oratori. Erano tutte caratteristiche di cui avevamo bisogno.
In seguito, ho aggiunto una funzione di sintesi vocale, che consente agli utenti di selezionare decine di file audio dall'archivio di Apple. Memo vocali e importarli in VOMO per trascrizione in batch.
Tuttavia, ho scoperto che l'utilizzo del modello Whisper di Deepgram aveva dei limiti di concorrenza, quindi siamo passati al modello Nova-2. A mio parere, il suo accuratezza della trascrizione è paragonabile a Whisper, ma con velocità di elaborazione superiori.
Di conseguenza, continuiamo a utilizzare il modello Nova-2 di Deepgram.
In sintesi, servizi di terze parti come Deepgram possono ridurre significativamente il carico di lavoro di prodotti come VOMO. La maggior parte delle funzionalità legate al parlato che volevamo implementare erano già disponibili attraverso Deepgram.