موقع الصالح : فى اختبارات نماذج الذكاء الاصطناعى.. ما روبوت الدردشة الأكثر تفوقًا؟

موقع الصالح :
فى اختبارات نماذج الذكاء الاصطناعى.. ما روبوت الدردشة الأكثر تفوقًا؟

أعلنت مؤسسة آرك برايز، وهي منظمة غير ربحية، عن ابتكارها اختبارًا جديدًا وصعبًا لقياس الذكاء العام لنماذج الذكاء الاصطناعي الرائدة.

وتمكّن الاختبار الجديد، المسمى ARC-AGI-2، من اجتياز معظم النماذج بنجاح، وفقًا لقائمة المتصدرين في جائزة آرك، حققت نماذج الذكاء الاصطناعي القائمة على الاستدلال، مثل o1-pro من OpenAI وR1 من DeepSeek، نسبة تتراوح بين 1% و1.3% في اختبار ARC-AGI-2، بينما حققت نماذج قوية غير قائمة على الاستدلال، مثل GPT-4.5 وClaude 3.7 Sonnet وGemini 2.0 Flash، نسبة 1% تقريبًا.

تتكون اختبارات ARC-AGI من مسائل شبيهة بالألغاز، حيث يتعين على الذكاء الاصطناعي تحديد الأنماط البصرية من مجموعة من المربعات ذات الألوان المختلفة، وإنشاء شبكة “الإجابات” الصحيحة، و صُممت هذه المسائل لإجبار الذكاء الاصطناعي على التكيف مع مسائل جديدة لم يسبق له رؤيتها.

وقد شارك أكثر من 400 شخص في اختبار ARC-AGI-2 من مؤسسة جائزة آرك لتحديد مستوى الأداء البشري، و في المتوسط، أجابت “لجان” من هؤلاء الأشخاص على 60% من أسئلة الاختبار بشكل صحيح – وهي نسبة أفضل بكثير من نتائج أي من النماذج الأخرى.

ويعد اختبار ARC-AGI-2 يُعدّ مقياسًا أفضل للذكاء الفعلي لنموذج الذكاء الاصطناعي من النسخة الأولى من الاختبار، ARC-AGI-1.

وتهدف اختبارات مؤسسة جائزة آرك إلى تقييم قدرة نظام الذكاء الاصطناعي على اكتساب مهارات جديدة بكفاءة خارج نطاق البيانات التي تدرب عليها.