Cuando se me ocurrió la idea de VOMOse inspiró en el lanzamiento del modelo Whisper de OpenAI, que mostraba una mejora significativa en la precisión de voz a texto tecnología. En aquel momento, imaginé varias funciones clave: conversión precisa de voz a texto, transcripción en tiempo real, posibilidad de refinar el texto transcrito mediante GPT e integración de notas vectorizadas con una función de respuesta a preguntas.
Cuando empecé a investigar varios productos del mercado, como Whisper de OpenAI, Assembly, los servicios de voz a texto de Google y Microsoft, y Deepgram, descubrí que cada uno tenía sus puntos fuertes y débiles. Whisper era el más potente, pero carecía de dos características esenciales que yo necesitaba: conversión de voz a texto en tiempo real y compatibilidad con archivos de audio de más de 25 MB sin segmentación manual.
Voz a texto en tiempo real de Google y Microsoft modelos ai no eran lo suficientemente precisas para nuestras necesidades. Si las transcripciones no eran precisas, los usuarios podrían no seguir utilizando nuestro servicio.
Al principio, los precios de Assembly me parecieron demasiado elevados.
Entonces descubrí Deepgram, que cumplía muchos de mis requisitos. Ofrecían un modelo Whisper alojado en la nube que podía soportar la transcripción de grabaciones extensas con el mismo nivel de precisión, y su precio de voz a texto en tiempo real era aceptable (aunque más tarde eliminé esta función). Además, para grabar reuniones, Deepgram permitía la identificación automática del orador y el formateo. Todas estas eran funciones que necesitábamos.
Más tarde, añadí una función de conversión de voz a texto que permitía a los usuarios seleccionar docenas de archivos de audio de la base de datos de Apple. Notas de voz e importarlos a VOMO para transcripción por lotes.
Sin embargo, descubrí que utilizar el modelo Whisper de Deepgram tenía limitaciones de concurrencia, así que cambiamos al modelo Nova-2. En mi opinión, su precisión de la transcripción es comparable a Whisper, pero con mayor velocidad de procesamiento.
Por ello, seguimos utilizando el modelo Nova-2 de Deepgram.
En resumen, los servicios de terceros como Deepgram pueden reducir considerablemente la carga de trabajo de productos como VOMO. La mayoría de las funciones relacionadas con el habla que queríamos implementar ya estaban disponibles a través de Deepgram.