ElevenLabs تطلق نموذج التحويل الصوتي إلى نص خاص بها

ElevenLabs ، ناشر ناشئ في مجال الذكاء الاصطناعي الذي جمع مؤخرًا جولة تمويل ضخمة بقيمة 180 مليون دولار ، اشتهر بشكل أساسي بقدرته على إنشاء الصوت. قامت الشركة بخطوة في اتجاه تكنولوجي آخر بإطلاق نموذجها المستقل الأول لتحويل الكلام إلى نص يدعى سكريب.

تقدر قيمة الشركة ، التي تبلغ 3.3 مليار دولار ، بمساعدة العديد من الشركات الأخرى في تقديم خدمات تحويل النص إلى كلام من خلال مكتبتها الواسعة من الأصوات. ومع ذلك ، تسعى الشركة الآن للدخول في مجال اكتشاف الكلام والتنافس مع شركات مثل Gladia ، Speechmatics ، AssemblyAI ، Deepgram ، ونماذج Whisper من OpenAI.

يدعم نموذج سكريب من ElevenLabs أكثر من 99 لغة عند الإطلاق. تقسم الشركة أكثر من 25 لغة في فئة دقة ممتازة للنموذج حيث يكون معدل أخطاء الكلمات أقل من 5٪. تشمل هذه القائمة اللغة الإنجليزية (بمعدل دقة مدعي يبلغ 97٪) ، والفرنسية ، والألمانية ، والهندية ، والإندونيسية ، واليابانية ، والكانادا ، والمالايالامية ، والبولندية ، والبرتغالية ، والإسبانية ، والفيتنامية. يتم تصنيف اللغات الأخرى في فئات مختلفة مع معدلات أخطاء كلمات عالية (5٪ إلى 10٪) ، جيدة (10٪ إلى 20٪) ، ومعتدلة (25٪ إلى 50٪).

قالت الشركة إن النموذج تفوق على Google Gemini 2.0 Flash و Whisper Large V3 عبر لغات متعددة في اختبارات التحقق من الأصوات و Common Voice.

ائتمانات الصور: ElevenLabs

كانت ElevenLabs قد طورت مكون التحويل من الكلام إلى النص لمنصة وكيل الحديث الاصطناعي الخاصة بها ، التي تم إصدارها العام الماضي. ومع ذلك ، هذه هي المرة الأولى التي تصدر فيها الشركة نموذج كشف الكلام المستقل. في محادثة مع TechCrunch الشهر الماضي ، تحدث الرئيس التنفيذي Mati Staniszewski عن تحسين نماذج كشف الكلام.

“ نريد أن نفهم ما يتم قوله من قبلك في محادثة بشكل أفضل. نحن نعمل على طرق للابتعاد عن إنتاج المحتوى فقط وفهم ونسخ الكلام ، ”قال ستانيزيفسكي في ذلك الوقت. “ يقول العديد من الأشخاص إن تحويل الكلام إلى نص هو مشكلة محلولة. ولكن بالنسبة للعديد من اللغات ، فهو سيء تماما. نعتقد أنه يمكننا بناء نماذج كشف الكلام بشكل أفضل لأن لدينا فرق داخلية لتحديد البيانات وتزويدنا بردود فعل سريعة. ”

يحتوي النموذج أيضًا على تحديد المتكلمين على مكبر الصوت الذكي ليخبرك من يتحدث ، والطابع الزمني على مستوى الكلمة للترجمة الدقيقة للترجمات الفورية ، وتسمية الأحداث الصوتية تلقائيًا مثل ضحكات الجمهور. تقدم الشركة طريقة للعملاء لتحويل محتوى الفيديو مباشرة لإضافة ترجمات أو تسميات توضيحية في استوديوها.

حاليًا ، النموذج سكريب يعمل فقط مع تنسيقات الصوت المسجلة مسبقًا. وقالت الشركة إنها ستصدر نسخة مباشرة منخفضة الكمون في الوقت الحقيقي من النموذج قريبًا. وهذا يعني أنه ليس فعالًا بعد للتحويلات الاجتماعية أو اتخاذ الملاحظات الصوتية.

تقوم ElevenLabs بتسعير سكريب بسعر 0.40 دولار لساعة من الصوت المحول. في حين أن المعدل تنافسي ، يقدم بعض منافسيها سعرًا أقل لتحويلات الصوت في الوقت الحالي مع بعض التفريق في الميزات.