موقع الصالح : الصين تدخل سباق الذكاء الاصطناعى.. نماذج التفكير DeepSeek-R1 تتميز فى الأداء

موقع الصالح :
الصين تدخل سباق الذكاء الاصطناعى.. نماذج التفكير DeepSeek-R1 تتميز فى الأداء

كشفت شركة DeepSeek عن الجيل الأول من نماذج DeepSeek-R1 وDeepSeek-R1-Zero المصممة لمعالجة مهام الاستدلال المعقدة، ويتم تدريب DeepSeek-R1-Zero فقط من خلال التعلم التعزيزي واسع النطاق (RL) دون الاعتماد على الضبط الدقيق الخاضع للإشراف (SFT) كخطوة أولية.

وفقًا لشركة DeepSeek، أدى هذا النهج إلى ظهور طبيعي لـ “العديد من سلوكيات الاستدلال القوية”، بما في ذلك التحقق الذاتي والتأمل وتوليد سلاسل فكرية واسعة النطاق (CoT).

وشرح باحثو DeepSeek: “أن [DeepSeek-R1-Zero] هو أول بحث مفتوح يثبت أن قدرات الاستدلال لدى طلاب الماجستير في القانون يمكن تحفيزها من خلال التعلم التعزيزي فقط، دون الحاجة إلى الضبط الدقيق الخاضع للإشراف”.

لا يؤكد هذا الإنجاز على الأسس المبتكرة للنموذج فحسب، بل يمهد الطريق أيضًا للتقدم الذي يركز على التعلم التعزيزي في مجال الذكاء الاصطناعي الاستدلالي.

ومع ذلك، فإن قدرات DeepSeek-R1-Zero تأتي مع بعض القيود، وتتضمن التحديات الرئيسية “التكرار اللانهائي، وضعف قابلية القراءة، وخلط اللغات”، والتي قد تشكل عقبات كبيرة في التطبيقات في العالم الحقيقي، ولمعالجة هذه العيوب، طورت DeepSeek نموذجها الرائد: DeepSeek-R1.

نماذج التفكير DeepSeek-R1

يعتمد DeepSeek-R1 على سابقه من خلال دمج بيانات البداية الباردة قبل تدريب التعلم المعزز، وتعمل خطوة التدريب المسبق الإضافية هذه على تعزيز قدرات التفكير في النموذج وحل العديد من القيود المذكورة في DeepSeek-R1-Zero.

كما أن DeepSeek-R1 يحقق أداءً مماثلاً لنظام o1 الذي نال استحسانًا كبيرًا من OpenAI عبر مهام الرياضيات والترميز والمنطق العام، مما يعزز مكانته كمنافس رائد.

اختار DeepSeek إتاحة كل من DeepSeek-R1-Zero وDeepSeek-R1 كمصدر مفتوح إلى جانب ستة نماذج أصغر حجمًا.

ومن بين هذه النماذج، أظهر DeepSeek-R1-Distill-Qwen-32B نتائج استثنائية، حتى أنه تفوق على o1-mini من OpenAI عبر معايير متعددة.

شاركت DeepSeek رؤى حول خط تطوير نموذج التفكير، والذي يدمج مزيجًا من الضبط الدقيق الخاضع للإشراف والتعلم التعزيزي.

وفقًا للشركة، تتضمن العملية مرحلتين من SFT لإنشاء القدرات الأساسية للعقلانية وغير العقلية، بالإضافة إلى مرحلتين من التعلم التعزيزي مصممتين لاكتشاف أنماط التفكير المتقدمة ومواءمة هذه القدرات مع التفضيلات البشرية.

تبنت DeepSeek ترخيص MIT لمستودعها وأوزانها، مما يوسع الأذونات للاستخدام التجاري والتعديلات اللاحقة.

ويُسمح بالأعمال المشتقة، مثل استخدام DeepSeek-R1 لتدريب نماذج لغة كبيرة أخرى (LLMs).