لماذا اختارت VOMO برنامج Deepgram لتحويل الكلام إلى نص

عندما خطرت لي فكرة فومومستوحى من إصدار نموذج "ويسبر" من OpenAI، والذي أظهر تحسنًا كبيرًا في الدقة من تحويل الكلام إلى نص التكنولوجيا. في ذلك الوقت، كنت أتصور العديد من الميزات الرئيسية: التحويل الدقيق للكلام إلى نص، والنسخ في الوقت الحقيقي، والقدرة على تنقيح النص المكتوب باستخدام GPT، ودمج الملاحظات المتجهة مع وظيفة الإجابة عن الأسئلة.

عندما بدأت البحث عن منتجات مختلفة في السوق، بما في ذلك ويسبر من OpenAI، وخدمة تحويل الكلام إلى نص من جوجل ومايكروسوفت، وDebgram، اكتشفت أن لكل منها نقاط قوته وضعفه. كان Whisper هو الأقوى، لكنه كان يفتقر إلى ميزتين أساسيتين كنت أحتاج إليهما: تحويل الكلام إلى نص في الوقت الحقيقي، ودعم الملفات الصوتية التي يزيد حجمها عن 25 ميغابايت دون تجزئة يدوية.

تحويل الكلام إلى نص في الوقت الفعلي من جوجل ومايكروسوفت نماذج الذكاء الاصطناعي لم تكن دقيقة بما يكفي لاحتياجاتنا. إذا لم تكن عمليات النسخ دقيقة، فقد لا يستمر المستخدمون في استخدام خدمتنا.

في البداية، وجدت أن أسعار Assembly مرتفعة للغاية.

ثم اكتشفت Deepgram، الذي استوفى العديد من متطلباتي. فقد عرضوا نموذج Whisper المستضاف على السحابة والذي يمكن أن يدعم نسخ التسجيلات الممتدة بنفس المستوى من الدقة، وكان تسعيرهم لتحويل الكلام إلى نص في الوقت الحقيقي مقبولاً (على الرغم من أنني أزلت هذه الميزة لاحقاً). بالإضافة إلى ذلك، بالنسبة لتسجيل الاجتماعات، يمكن لـ Deepgram دعم خاصية التعرف على المتحدثين وتنسيقهم تلقائيًا. كانت هذه كلها ميزات كنا بحاجة إليها.

في وقت لاحق، أضفتُ ميزة تحويل الكلام إلى نص بالجملة، مما يسمح للمستخدمين باختيار عشرات الملفات الصوتية من المذكرات الصوتية واستيرادها إلى VOMO من أجل النسخ على دفعات.

ومع ذلك، اكتشفتُ أن استخدام نموذج ويسبر من ديبغرام كان له قيود على التزامن، لذا انتقلنا إلى نموذج نوفا-2. في رأيي أن دقة النسخ يضاهي Whisper، ولكن بسرعات معالجة أسرع.

ونتيجة لذلك، نستمر في استخدام نموذج Nova-2 الخاص بـ Deepgram.

باختصار، يمكن لخدمات الطرف الثالث مثل Deepgram أن تقلل بشكل كبير من عبء العمل على منتجات مثل VOMO. كانت معظم الميزات المتعلقة بالكلام التي أردنا تنفيذها متاحة بالفعل من خلال Deepgram.

شعار تم اقتصاصه.png
تفريغ غير محدود للصوت والفيديو
ابدأ مجاناً