Mengapa VOMO Memilih Deepgram untuk Ucapan-ke-Teks

Ubah Audio Menjadi Teks Secara Instan

99% Akurat - Super Cepat - Mudah Digunakan

Ketika saya pertama kali memiliki ide untuk VOMO, saya terinspirasi oleh rilis model Whisper dari OpenAI, yang menunjukkan peningkatan yang signifikan dalam keakuratan ucapan-ke-teks teknologi. Pada waktu itu, saya membayangkan beberapa fitur utama: konversi ucapan ke teks yang tepat, transkripsi waktu nyata, kemampuan untuk menyempurnakan teks yang ditranskripsikan menggunakan GPT, dan integrasi catatan vektor dengan fungsi penjawab pertanyaan.

Ketika saya mulai meneliti berbagai produk di pasaran, termasuk Whisper dari OpenAI, Assembly, layanan speech-to-text dari Google dan Microsoft, serta Deepgram, saya menemukan bahwa masing-masing produk memiliki kelebihan dan kekurangannya sendiri. Whisper adalah yang paling kuat, tetapi tidak memiliki dua fitur penting yang saya butuhkan: ucapan-ke-teks waktu nyata dan dukungan untuk file audio yang lebih besar dari 25MB tanpa segmentasi manual.

Google dan Microsoft dengan ucapan-ke-teks waktu nyata model ai tidak cukup akurat untuk kebutuhan kami. Jika transkripsi tidak akurat, pengguna mungkin tidak akan terus menggunakan layanan kami.

Awalnya, saya merasa harga yang ditawarkan Assembly terlalu tinggi.

Kemudian saya menemukan Deepgram, yang memenuhi banyak persyaratan saya. Mereka menawarkan model Whisper yang dihosting di cloud yang dapat mendukung transkripsi rekaman yang diperpanjang dengan tingkat akurasi yang sama, dan harga real-time ucapan-ke-teks mereka dapat diterima (meskipun saya kemudian menghapus fitur ini). Selain itu, untuk merekam rapat, Deepgram dapat mendukung identifikasi dan pemformatan pembicara otomatis. Ini semua adalah fitur yang kami butuhkan.

Kemudian, saya menambahkan fitur ucapan-ke-teks massal, yang memungkinkan pengguna memilih lusinan file audio dari Apple Memo Suara dan mengimpornya ke VOMO untuk transkripsi batch.

Namun demikian, saya menemukan bahwa menggunakan model Whisper dari Deepgram memiliki keterbatasan konkurensi, jadi kami beralih ke model Nova-2. Menurut pendapat saya, ini adalah akurasi transkripsi sebanding dengan Whisper, tetapi dengan kecepatan pemrosesan yang lebih cepat.

Sebagai hasilnya, kami terus menggunakan model Nova-2 Deepgram.

Singkatnya, layanan pihak ketiga seperti Deepgram dapat secara signifikan mengurangi beban kerja untuk produk seperti VOMO. Sebagian besar fitur terkait ucapan yang ingin kami terapkan sudah tersedia melalui Deepgram.

logo vomo
20250727 103817 22
Buka Catatan Rapat Al Instan
telinga kiri gandum

Dipercaya oleh 100.000+ pengguna

Bintang 5
telinga gandum di sebelah kanan

Tidak Perlu Kartu Kredit