بعد اطلاق وعودات بدأت في أبريل الماضي، كشفت شركة Meta اليوم النقاب عن Voicebox AI نموذجها التوليفي لتحويل النص إلى كلام الذي يعد بالقيام به للكلمة المنطوقة كما فعل ChatGPT و Dall-E باحترام وبقدرات غير مسبوقة.
في الأساس ، هو منشئ تحويل النص إلى الإخراج تمامًا مثل GPT أو Dall-E ، ولكن بدلاً من إنشاء نثر أو صور جميلة، فإن Voicebox AI يبث مقاطع صوتية، وتشير الشركة، تم تدريب Voicebox AI لملء الكلام وبالنظر إلى سياق الصوت والنص، حيث تم تدريبه على أكثر من 50000 ساعة من الصوت، على وجه التحديد، استخدمت Meta الكلام المسجل والنصوص من مجموعة من الكتب الصوتية ذات النطاق العام المكتوبة باللغات الإنجليزية والفرنسية والإسبانية والألمانية والبولندية والبرتغالية.
وتسمح مجموعة البيانات المتنوعة هذه للنظام بإنتاج المزيد من الكلام الناطق بالمحادثة، وبغض النظر عن اللغات التي يتحدث بها كل طرف،ووفقًا للباحثين “تُظهر نتائجنا أن نماذج التعرف على الكلام المُدرَّبة على الكلام الاصطناعي الذي تم إنشاؤه بواسطة Voicebox تعمل تقريبًا بنفس جودة أداء النماذج المُدرَّبة على الكلام الحقيقي” علاوة على ذلك ، يتم تنفيذ الكلام الذي تم إنشاؤه بواسطة الكمبيوتر مع انخفاض معدل الخطأ بنسبة 1 في المائة فقط ، مقارنةً بانخفاض نسبة 45 إلى 70 في المائة في نماذج تحويل النص إلى كلام الحالية.
من جانبه أيضًا، تم تعليم النظام أولاً للتنبؤ بمقاطع الكلام بناءً على الأجزاء المحيطة بها بالإضافة إلى نص المقطع، وقد أوضح باحثو ميتا: “بعد أن تعلم ملء الكلام من السياق ، يمكن للنموذج تطبيق ذلك عبر مهام إنشاء الكلام ، بما في ذلك إنشاء أجزاء في منتصف التسجيل الصوتي دون الحاجة إلى إعادة إنشاء المدخلات بالكامل”.
وبحسب ما ورد ، فإن Voicebox قادر أيضًا على تحرير المقاطع الصوتية بنشاط ، والقضاء على الضوضاء من الكلام وحتى استبدال الكلمات المنطوقة بشكل خاطئ، وقال الباحثون: “يمكن لأي شخص تحديد أي جزء أولي من الكلام تفسد بالضوضاء (مثل نباح الكلب) ، واقتصاصه ، وإرشاد النموذج إلى إعادة تكوين هذا المقطع” ، مثل استخدام برنامج تحرير الصور لتنظيف الصور .
أخيرًا، سواء تطبيق Voicebox أو رمز المصدر الخاص به، لم تقوم ميتا بإطلاقهما للجمهور، مشيرة إلى “المخاطر المحتملة لسوء الاستخدام” على الرغم من “الاستخدام المثير للإعجاب”، بدلاً من ذلك ، أصدرت الشركة سلسلة من الأمثلة الصوتية بالإضافة إلى ورقة البحث الأولية للبرنامج، ويأمل فريق البحث أن تجد التكنولوجيا طريقها في المستقبل إلى الأطراف الصناعية للمرضى الذين يعانون من تلف في الأحبال الصوتية ، وأجهزة NPC داخل اللعب والمساعدين الرقميين.
ليست هناك تعليقات: