VOMO가 음성-텍스트 변환을 위해 딥그램을 선택한 이유

처음 아이디어를 얻었을 때 VOMO에서 상당한 개선을 보인 OpenAI의 Whisper 모델 출시에서 영감을 받았습니다. 정확성음성-텍스트 변환 기술을 개발했습니다. 당시 저는 정확한 음성-텍스트 변환, 실시간 전사, GPT를 사용해 전사된 텍스트를 다듬는 기능, 벡터화된 노트와 질문-답변 기능의 통합 등 몇 가지 핵심 기능을 구상했습니다.

OpenAI의 Whisper, Assembly, Google과 Microsoft의 음성-텍스트 변환 서비스, Deepgram 등 시중의 다양한 제품을 조사하기 시작하면서 각 제품마다 장단점이 있다는 것을 알게 되었습니다. Whisper가 가장 강력했지만 실시간 음성 텍스트 변환과 25MB 이상의 오디오 파일을 수동 분할 없이 지원하는 두 가지 필수 기능이 부족했습니다.

구글과 마이크로소프트의 실시간 음성 텍스트 변환 AI 모델 가 충분히 정확하지 않았습니다. 필사본이 정확하지 않으면 사용자가 서비스를 계속 사용하지 않을 수도 있습니다.

처음에는 Assembly의 가격이 너무 비싸다는 생각이 들었습니다.

그러던 중 제 요구 사항 중 많은 부분을 충족하는 딥그램을 발견했습니다. 동일한 수준의 정확도로 확장된 녹음의 전사를 지원할 수 있는 클라우드 호스팅 위스퍼 모델을 제공했고, 실시간 음성-텍스트 변환 가격도 괜찮았습니다(나중에 이 기능을 삭제했지만). 또한 딥그램은 회의 녹음의 경우 자동 화자 식별 및 서식 지정도 지원할 수 있었습니다. 이 모든 기능이 저희에게 필요했습니다.

나중에 대량 음성-텍스트 변환 기능을 추가하여 사용자가 수십 개의 오디오 파일을 선택할 수 있도록 Apple의 음성 메모 를 클릭하고 VOMO로 가져와서 일괄 전사.

하지만 딥그램의 위스퍼 모델을 사용하면 동시성 제한이 있다는 것을 알게 되어 Nova-2 모델로 전환했습니다. 제 생각에는 전사 정확도 는 위스퍼와 비슷하지만 처리 속도가 더 빠릅니다.

그 결과, 저희는 계속해서 딥그램의 Nova-2 모델을 사용하고 있습니다.

요약하자면, 딥그램과 같은 타사 서비스를 이용하면 VOMO와 같은 제품의 작업량을 크게 줄일 수 있습니다. 우리가 구현하고자 했던 대부분의 음성 관련 기능은 이미 딥그램을 통해 제공되고 있었습니다.

잘린 로고.png
무제한 오디오 및 비디오 전사
무료로 시작하기