为什么 VOMO 选择 Deepgram 进行语音到文本的转换

立即将音频转化为文本

99% 精确 - 超快 - 易用

我最初萌生创建 VOMO 的想法,是受到 OpenAI 发布的 Whisper 模型的启发。 语音到文本 技术。当时,我设想了几项关键功能:语音到文本的精确转换、实时转录、使用 GPT 精炼转录文本的能力,以及将矢量化笔记与问题解答功能相结合。

当我开始研究市场上的各种产品,包括 OpenAI 的 Whisper、Assembly、谷歌和微软的语音转文本服务以及 Deepgram 时,我发现它们各有优缺点。Whisper 的功能最强大,但它缺少我所需要的两个基本功能:实时语音转文本和无需手动分割即可支持大于 25MB 的音频文件。

谷歌和微软的实时语音转文字技术 AI 模型 不够准确,无法满足我们的需求。如果转录不准确,用户可能不会继续使用我们的服务。

起初,我觉得 Assembly 的定价太高。

后来我发现了 Deepgram,它满足了我的许多要求。他们提供的云托管 Whisper 模式可以支持以相同的准确度转录扩展录音,其实时语音到文本的价格也可以接受(尽管我后来取消了这一功能)。此外,对于会议录音,Deepgram 还能支持自动识别发言者并进行格式化。这些都是我们需要的功能。

后来,我又添加了批量语音转文本功能,允许用户从苹果的 语音备忘录 并将它们导入 VOMO,以便 批量转录.

但是,我发现使用 Deepgram 的 Whisper 模型有并发限制,因此我们改用 Nova-2 模型。在我看来,它的 誊写准确性 与 Whisper 类似,但处理速度更快。

因此,我们继续使用 Deepgram 的 Nova-2 模型。

总之,Deepgram 等第三方服务可以大大减轻 VOMO 等产品的工作量。我们想要实现的大多数语音相关功能都已经可以通过 Deepgram 实现。

vomo 徽标
20250727 103817 22
解锁即时 Al 会议笔记
左麦穗

100,000 多名用户的信任

5 星级
右麦穗

无需信用卡