Pourquoi VOMO a choisi Deepgram pour la conversion de la parole en texte

Lorsque j'ai eu l'idée de VOMOIl a été inspiré par la publication du modèle Whisper de l'OpenAI, qui a montré une amélioration significative de l'efficacité de l'évaluation de la qualité de l'eau. précision de de la parole au texte à l'époque. À l'époque, j'envisageais plusieurs caractéristiques essentielles : une conversion précise de la parole en texte, une transcription en temps réel, la possibilité d'affiner le texte transcrit à l'aide de GPT et l'intégration de notes vectorisées avec une fonction de réponse aux questions.

Lorsque j'ai commencé à étudier les différents produits disponibles sur le marché, notamment Whisper d'OpenAI, Assembly, les services de synthèse vocale de Google et de Microsoft, et Deepgram, j'ai découvert que chacun d'entre eux avait ses propres forces et faiblesses. Whisper était le plus puissant, mais il lui manquait deux fonctionnalités essentielles dont j'avais besoin : la synthèse vocale en temps réel et la prise en charge des fichiers audio de plus de 25 Mo sans segmentation manuelle.

La synthèse vocale en temps réel de Google et Microsoft Modèles d'IA n'étaient pas assez précises pour nos besoins. Si les transcriptions n'étaient pas précises, les utilisateurs pourraient ne pas continuer à utiliser notre service.

Au départ, j'ai trouvé que les prix de l'Assemblée étaient trop élevés.

J'ai ensuite découvert Deepgram, qui répondait à bon nombre de mes exigences. Ils proposaient un modèle Whisper hébergé dans le nuage qui pouvait prendre en charge la transcription d'enregistrements étendus avec le même niveau de précision, et leur prix de conversion de la parole en texte en temps réel était acceptable (bien que j'aie supprimé cette fonction par la suite). En outre, pour l'enregistrement de réunions, Deepgram pouvait prendre en charge l'identification automatique du locuteur et le formatage. Nous avions besoin de toutes ces fonctionnalités.

Plus tard, j'ai ajouté une fonction de synthèse vocale, permettant aux utilisateurs de sélectionner des dizaines de fichiers audio à partir de la base de données Apple Mémos vocaux et les importer dans VOMO pour transcription par lots.

Cependant, j'ai découvert que l'utilisation du modèle Whisper de Deepgram présentait des limites en termes de concurrence, et nous avons donc opté pour le modèle Nova-2. À mon avis, son la précision de la transcription est comparable à Whisper, mais avec des vitesses de traitement plus élevées.

C'est pourquoi nous continuons à utiliser le modèle Nova-2 de Deepgram.

En résumé, les services tiers comme Deepgram peuvent réduire de manière significative la charge de travail pour des produits comme VOMO. La plupart des fonctions liées à la parole que nous voulions mettre en œuvre étaient déjà disponibles grâce à Deepgram.