当我最初萌生 VOMO它的灵感来自于 OpenAI 发布的 Whisper 模型。 精确度 的 语音到文本 技术。当时,我设想了几项关键功能:语音到文本的精确转换、实时转录、使用 GPT 精炼转录文本的能力,以及将矢量化笔记与问题解答功能相结合。
当我开始研究市场上的各种产品,包括 OpenAI 的 Whisper、Assembly、谷歌和微软的语音转文本服务以及 Deepgram 时,我发现它们各有优缺点。Whisper 的功能最强大,但它缺少我所需要的两个基本功能:实时语音转文本和无需手动分割即可支持大于 25MB 的音频文件。
谷歌和微软的实时语音转文字技术 AI 模型 不够准确,无法满足我们的需求。如果转录不准确,用户可能不会继续使用我们的服务。
起初,我觉得 Assembly 的定价太高。
后来我发现了 Deepgram,它满足了我的许多要求。他们提供的云托管 Whisper 模式可以支持以相同的准确度转录扩展录音,其实时语音到文本的价格也可以接受(尽管我后来取消了这一功能)。此外,对于会议录音,Deepgram 还能支持自动识别发言者并进行格式化。这些都是我们需要的功能。
后来,我又添加了批量语音转文本功能,允许用户从苹果的 语音备忘录 并将它们导入 VOMO,以便 批量转录.
但是,我发现使用 Deepgram 的 Whisper 模型有并发限制,因此我们改用 Nova-2 模型。在我看来,它的 誊写准确性 与 Whisper 类似,但处理速度更快。
因此,我们继续使用 Deepgram 的 Nova-2 模型。
总之,Deepgram 等第三方服务可以大大减轻 VOMO 等产品的工作量。我们想要实现的大多数语音相关功能都已经可以通过 Deepgram 实现。