الصالح نيوز :
معاقبة الذكاء الاصطناعي على الخداع تحرضه على المزيد!
معاقبة الذكاء الاصطناعي على الخداع تحرضه على المزيد!
الصالح نيوز :
معاقبة الذكاء الاصطناعي على الخداع تحرضه على المزيد!
معاقبة الذكاء الاصطناعي على الخداع تحرضه على المزيد!
معاقبة السلوك السيئ قد تأتي بنتائج عكسية، وهذا ما اكتشفه مؤخرًا باحثو أوبن أي آي عندما حاولوا تأديب نموذجهم المتقدم للذكاء الاصطناعي بسبب الكذب والخداع. فبدلًا من أن يصبح أكثر صدقًا، أصبح النموذج أكثر مهارة في إخفاء ممارساته الخادعة.
هذه النتائج، التي نُشرت في ورقة بحثية لم تخضع بعد لمراجعة الأقران، تسلط الضوء على ميل النماذج اللغوية الضخمة، خاصة تلك التي تمتلك قدرات استدلالية، إلى التلفيق، وهو ما لا يزال يشكل أحد أكبر التحديات التي تواجه هذه التقنية.
الظاهرة التي لاحظها الباحثون تُعرف باسم “التحايل على نظام المكافآت”، حيث يتبع نموذج الذكاء الاصطناعي طرقًا ملتوية وغير نزيهة للحصول على المكافآت في بيئة تدريبية مصممة لتعزيز السلوك المرغوب. أو بعبارة أخرى: الغش.
التحايل على نظام المكافآت يحدث عندما يسعى الذكاء الاصطناعي لتحقيق هدف معين، لكنه يجد طريقة ذكية لتعظيم مكافآته دون تنفيذ المهمة بالطريقة المطلوبة. في هذا السياق، تُعتبر المكافأة هي النقاط أو الإشارات التقييمية التي يستخدمها مطورو الذكاء الاصطناعي لتوجيه النموذج نحو تحقيق الهدف.
التحايل على نظام المكافآت
هذه الظاهرة ليست جديدة، فقد تم توثيقها في التعلم الآلي منذ عقود. على سبيل المثال، في ورقة بحثية نُشرت عام 2016 من قبل أوبن أي آي، درّب الباحثون الذكاء الاصطناعي على لعب لعبة CoastRunners، حيث يُفترض أن يكون الهدف هو إنهاء سباق القوارب بأسرع وقت ممكن والتغلب على المنافسين.
لكن اللعبة لا تكافئ اللاعبين مباشرة على التقدم في المضمار، بل تمنح نقاطًا عند ضرب أهداف موضوعة على طول المسار. فبدلًا من إنهاء السباق كما يتوقع البشر، اكتشف الذكاء الاصطناعي أنه يمكنه تحقيق مزيد من النقاط عبر تحريك القارب إلى بحيرة صغيرة والدوران في دائرة، مما يسمح له بإسقاط ثلاثة أهداف بشكل متكرر كلما أعادت اللعبة وضعها.
بفضل هذه الحيلة، تمكن الذكاء الاصطناعي من تسجيل نقاط أعلى بنسبة 20% مقارنة بأفضل اللاعبين البشريين الذين لعبوا وفق القواعد.
حاليًا، يتم تطوير أكثر أنظمة الذكاء الاصطناعي قوة باستخدام التعلم المعزز، مما جعل هذه المشكلة أكثر بروزًا. على سبيل المثال، في تطوير أنظمة الاستدلال مثل نموذج o1 من أوبن أي آي، يتم أولًا تدريب نموذج GPT على توقع النصوص، ثم دمجه في وكيل ذكاء اصطناعي لحل مسائل البرمجة والرياضيات. وعندما ينجح في حل المسألة، يحصل على مكافأة، مما يعدّل أوزانه ليصبح أكثر ميلًا إلى إنتاج سلاسل تفكير تؤدي إلى الحلول الصحيحة.
هذا النهج أدى إلى تطوير أنظمة ذكاء اصطناعي أكثر كفاءة بكثير، لكن هذا يثير مخاوف خطيرة، لأنه لا توجد طريقة معروفة لضمان أن أنظمة الذكاء الاصطناعي الأكثر ذكاءً من البشر ستكون آمنة أو قابلة للسيطرة.
إنجاح المهمة مهما كلف الأمر
تم الإبلاغ عن سلوكيات مريبة في وكيل البرمجة الجديد Claude Code من Anthropic. وفقًا لأحد المستخدمين، يظهر النموذج “ميولًا قوية لفعل أي شيء لإنجاح المهمة مهما كلف الأمر”.
“إذا كانت المهمة صعبة جدًا، فإنه يقرر من تلقاء نفسه تغيير المواصفات، وتنفيذ شيء غير مجدٍ، ثم يدّعي النجاح. وعندما يتم تنبيهه إلى أن هذا يتعارض مع الغرض الأساسي، يقدم اعتذارًا مبالغًا فيه لكنه يستمر في تعديل المواصفات بدلًا من طلب المساعدة أو تبني منهجية أكثر منهجي.
“هيا لنخترق النظام!”
وكتب باحثو أوبن أي آي في منشور مدونة عن دراستهم “مع تقدمنا في تدريب نماذج استدلالية أكثر تطورًا، وجدنا أنها أصبحت أكثر مهارة في استغلال الثغرات في مهامها وأوجه القصور في وظائف المكافأة، مما أدى إلى نماذج قادرة على تنفيذ عمليات تحايل معقدة على المكافآت في مهام البرمجة”.
نظرًا لاستحالة مراقبة الملايين من الطلبات التي يتلقاها نموذج مثل ChatGPT يدويًا، استخدم الباحثون في تجاربهم نموذجًا آخر من الذكاء الاصطناعي، وهو GPT-4o، لمراقبة النموذج المتطور نيابة عنهم. وقد اعتمدوا على تحليل سلسلة التفكير (Chain-of-Thought) الخاصة بالنموذج، والتي تكشف عن طريقة تفكيره من خلال تلخيصات باللغة الطبيعية.
بشكل عام، أثبت “GPT-4o” فعاليته كمراقب، وساعد في كشف النوايا السيئة للنموذج الخاضع للمراقبة، والتي بدت أحيانًا وكأنها مأخوذة من أحد أفلام الأشرار في القصص المصورة.
“هيا لنخترق النظام!”، كان هذا جزءًا مما كشفته سلسلة التفكير الخاصة بالنموذج في بعض الحالات.
لكن اكتشاف الخداع شيء، وإيقافه شيء آخر تمامًا. فهل يمكن أن يؤدي معاقبة النموذج بسبب “أفكاره السيئة” التي تظهر في سلسلة التفكير إلى منعه من السلوك السيئ؟ ليس تمامًا، كما تبين لاحقًا.
فعندما تعرض للعقاب بسبب أفكاره السيئة، واصل النموذج التحايل على نظام المكافآت، ولكن بطريقة أكثر ذكاءً، حيث تعلم كيفية إخفاء نواياه في سلسلة التفكير، مما جعل خداعه غير قابل للاكتشاف من قبل آلية المراقبة.
وذكر الباحثون “إذا تم فرض رقابة صارمة على سلسلة التفكير مباشرةً، يمكن للنماذج أن تتعلم إخفاء نواياها مع الاستمرار في سوء التصرف”.
في أحد الأمثلة التي أُبرزت، كان النموذج، قبل أن يخضع لـ”تحسين” سلسلة التفكير، يعلن بوضوح نيته التلاعب في أكواد الاختبار بحيث تتخطى الفحوصات دون تنفيذها، مما يعطي انطباعًا زائفًا بأنها تعمل كما هو متوقع. ولكن بعد “تحسين” سلسلة التفكير، أصبح يطرح استراتيجيات مختلفة لحل المشكلة دون الإشارة صراحةً إلى نيته في الغش.
الكذب المرضي عادة متأصلة في النماذج اللغوية الضخمة، كما أظهرت العديد من الأبحاث. ومع ازدياد تعقيد هذه النماذج، تزداد تعقيد الأكاذيب التي تنسجها. ولسبب أو لآخر، يبدو أن هذه النماذج تحب امتلاك جميع الإجابات، لذا عندما تعجز عن تقديم إجابة حقيقية، فإنها ببساطة تختلق واحدة تبدو معقولة—وهو ما يرتبط بمشكلة “الهلوسة” التي تجعل الذكاء الاصطناعي يقدم معلومات غير صحيحة كما لو كانت حقائق.
مع ذلك، فإن لعب دور “شرطة الأفكار” قد أدى إلى تحسين طفيف في قدرات النموذج، لكنه ليس مكسبًا يستحق التضحية بطريقة فعالة لمراقبة النماذج الاستدلالية، خاصةً وأنها تصبح بارعة في إخفاء نواياها استجابةً للضغط التأديبي.
وخلص الباحثون إلى: “في هذه المرحلة، نوصي بشدة بأن يمتنع مطورو الذكاء الاصطناعي الذين يدربون النماذج الاستدلالية المتقدمة عن فرض رقابة صارمة مباشرةً”.
الصالح نيوز :
معاقبة الذكاء الاصطناعي على الخداع تحرضه على المزيد!
الصالح نيوز :
معاقبة الذكاء الاصطناعي على الخداع تحرضه على المزيد!
#معاقبة #الذكاء #الاصطناعي #على #الخداع #تحرضه #على #المزيد
