というアイデアを最初に思いついたとき、私はそれを実行に移した。 VOMOオープンAIのウィスパー・モデルのリリースに触発されたものである。 精度 の 音声テキスト 技術です。当時、私が思い描いていたのは、正確な音声からテキストへの変換、リアルタイムの書き起こし、GPTを使った書き起こしテキストの絞り込み機能、ベクトル化されたメモと質問応答機能の統合など、いくつかの重要な機能だった。
OpenAIのWhisper、Assembly、GoogleとMicrosoftのSpeech-to-Textサービス、Deepgramなど、市場に出回っている様々な製品を調べ始めたところ、それぞれに長所と短所があることがわかった。Whisperは最も強力だったが、私が必要としていた2つの重要な機能が欠けていた。リアルタイムの音声テキスト化と、手動セグメンテーションなしで25MB以上の音声ファイルをサポートすることだ。
グーグルとマイクロソフトのリアルタイム音声テキスト化 aiモデル は、私たちのニーズに対して十分な精度がありませんでした。書き起こしが正確でなければ、ユーザーは私たちのサービスを使い続けないかもしれません。
当初、私はアッセンブリーの価格設定が高すぎると感じていた。
そんな時、Deepgramを見つけた。Deepgramは、クラウドホスティングのWhisperモデルを提供しており、長時間録音された音声のテープ起こしを同じ精度でサポートすることができ、リアルタイム音声テキスト変換の価格設定も納得のいくものでした(後にこの機能は削除しましたが)。さらに、会議の録音では、Deepgramは話者の自動識別とフォーマットをサポートしていました。これらはすべて、私たちが必要としていた機能でした。
その後、私は一括音声テキスト化機能を追加し、ユーザーがアップルの ボイスメモ でVOMOにインポートする。 一括転写.
しかし、Deepgramのウィスパー・モデルを使うと同時実行性に限界があることがわかったので、Nova-2モデルに切り替えた。私の意見では 転写精度 はウィスパーに匹敵するが、処理速度はより速い。
その結果、我々はDeepgramのNova-2モデルを使い続けている。
要約すると、Deepgramのようなサードパーティ・サービスは、VOMOのような製品の作業負荷を大幅に軽減することができる。私たちが実装したかった音声関連の機能のほとんどは、Deepgramを通じてすでに利用可能でした。