Quando tive a ideia para VOMOO modelo Whisper da OpenAI foi inspirado pelo lançamento do modelo Whisper da OpenAI, que mostrou uma melhoria significativa na exatidão de conversão de voz em texto tecnologia. Na altura, imaginei várias caraterísticas-chave: conversão precisa de voz para texto, transcrição em tempo real, capacidade de refinar o texto transcrito utilizando GPT e a integração de notas vectorizadas com uma função de resposta a perguntas.
Quando comecei a pesquisar vários produtos no mercado, incluindo o Whisper da OpenAI, o Assembly, os serviços de conversão de voz em texto da Google e da Microsoft, e o Deepgram, descobri que cada um tinha os seus pontos fortes e fracos. O Whisper era o mais poderoso, mas faltavam-lhe duas funcionalidades essenciais de que eu precisava: conversão de voz em texto em tempo real e suporte para ficheiros de áudio com mais de 25 MB sem segmentação manual.
A conversão de voz em texto em tempo real da Google e da Microsoft modelos ai não eram suficientemente exactas para as nossas necessidades. Se as transcrições não fossem precisas, os utilizadores poderiam não continuar a utilizar o nosso serviço.
Inicialmente, achei que o preço da Assembly era demasiado elevado.
Foi então que descobri o Deepgram, que satisfazia muitos dos meus requisitos. Ofereciam um modelo Whisper alojado na nuvem que podia suportar a transcrição de gravações alargadas com o mesmo nível de precisão, e o seu preço de conversão de voz em texto em tempo real era aceitável (embora mais tarde tenha removido esta funcionalidade). Além disso, para gravar reuniões, o Deepgram podia suportar a identificação e formatação automáticas dos oradores. Estas eram todas as caraterísticas de que precisávamos.
Posteriormente, adicionei uma funcionalidade de conversão de voz em texto em massa, permitindo aos utilizadores selecionar dezenas de ficheiros de áudio do Memorandos de voz e importá-los para o VOMO para transcrição de lotes.
No entanto, descobri que a utilização do modelo Whisper do Deepgram tinha limitações de concorrência, pelo que passámos a utilizar o modelo Nova-2. Na minha opinião, o seu exatidão da transcrição é comparável ao Whisper, mas com velocidades de processamento mais rápidas.
Como resultado, continuamos a utilizar o modelo Nova-2 da Deepgram.
Em resumo, serviços de terceiros como o Deepgram podem reduzir significativamente a carga de trabalho de produtos como o VOMO. A maioria dos recursos relacionados à fala que queríamos implementar já estava disponível no Deepgram.