為何 VOMO 選擇 Deepgram 來進行語音轉文

當我第一次想到 VOMO,它的靈感來自 OpenAI 發佈的 Whisper 模型,該模型顯示在 精確度語音轉文字 技術。當時,我構想了幾個主要功能:精確的語音轉文字、即時轉錄、使用 GPT 精細轉錄文字的能力,以及整合向量化筆記與問題解答功能。

當我開始研究市場上的各種產品,包括 OpenAI 的 Whisper、Assembly、Google 和 Microsoft 的語音轉文字服務以及 Deepgram 時,我發現它們各有優缺點。Whisper 的功能最強大,但它缺乏我所需要的兩項基本功能:即時語音轉文字,以及支援大於 25MB 的音訊檔案,且無須手動分割。

Google 和 Microsoft 的即時語音轉文字 ai 模型 不夠精確,無法滿足我們的需求。如果轉錄不精確,使用者可能不會繼續使用我們的服務。

起初,我覺得 Assembly 的定價太高了。

之後我發現了 Deepgram,它滿足了我的許多要求。他們提供雲端託管的 Whisper 機型,能夠以相同的精確度支援延伸錄音的轉錄,而且其即時語音轉文字的價格也可以接受(雖然我後來移除了這項功能)。此外,對於會議錄音,Deepgram 可以支援自動識別講者和格式化。這些都是我們需要的功能。

之後,我加入了大量語音轉文字功能,讓使用者可以從 Apple 的 語音備忘錄 並將它們匯入 VOMO,以便 批量轉錄.

然而,我發現使用 Deepgram 的 Whisper 模型有併發限制,所以我們改用 Nova-2 模型。在我看來,它的 謄寫準確性 與 Whisper 不相伯仲,但處理速度更快。

因此,我們繼續使用 Deepgram 的 Nova-2 模型。

總而言之,Deepgram 等第三方服務可以大幅減少 VOMO 等產品的工作量。我們想要實作的大部分語音相關功能都已經可以透過 Deepgram 實作。

裁切後的標誌.png
無限制音訊與視訊轉錄
免費開始