عندما يغش الذكاء الاصطناعي بأي ثمن

عندما يبدأ الذكاء الاصطناعي "المفكر" في الغش للفوز - حتى في المهام البسيطة مثل الشطرنج - فإن السؤال الذي يطرح نفسه: هل يمكننا أن نثق به حقًا؟

روبوت يلعب الشطرنج ويغش. رسم توضيحي: الدكتور روي تسيزانا
روبوت يلعب الشطرنج ويغش. رسم توضيحي: الدكتور روي تسيزانا

 

تبدأ قصة اليوم بلعبة شطرنج بين ذكاءين اصطناعيين. على أحد جانبي الساحة، يجلس Chat-GPT: متعدد المواهب، ومتعدد الكلمات، ومتعدد الإحباطات. إنها تعرف كيف تفعل العديد من الأشياء بشكل جيد، ولكن في لعبة الشطرنج، على أقل تقدير، فهي ليست الأكثر ذكاءً. وهذا يعني أنها لا تؤدي بشكل جيد في هذه اللعبة، لأن الجلوس أمامها هو سمك القد:ربما يكون هذا هو أقوى برنامج شطرنج متاح للعامة حاليًا. إن وضع Chat-GPT ضد Stockfish في لعبة الشطرنج يشبه وضع حمامة محشوة على الجانب الآخر من رقعة الشطرنج، وتوقع فوز الأستاذ الأكبر. هذا سخيف. وهمي. يائس.

ثم فاز Chat-GPT. ولم يتم الفوز فقط، بل بالضربة القاضية.

كيف؟ لأنه لعب مثل الإنسان.

بمعنى آخر، لقد غش.

تم لعب اللعبة المذكورة في الأشهر الأخيرة بين نموذج دردشة GPT خاص يسمى O1-Preview. هذا هو نموذج "التفكير". أي أنه يتحدث إلى نفسه بطريقة تذكرنا كثيراً بالفكر البشري. عندما يتلقى مهمة ما، يشرح لنفسه كيفية تقسيمها إلى مهام فرعية للتعامل معها بشكل أفضل، أو إيجاد طرق أكثر تعقيدًا وإبداعًا لحلها. إنه قادر أيضًا على التشكيك في تعليمات المستخدم. ولكن الشطرنج؟ مازال لا يعرف كيفية لعب الشطرنج على مستوى عالي.

باحثون من Palisade Research لقد قاموا بتشغيل مئات الألعاب بين GPT O1-Preview و Stockfish، مما وفر لـ O1 (باختصار) نوعًا من دفتر الملاحظات الذي يمكنه أن يكتب فيه "أفكاره". ووجد الباحثون أنه في ثلث الألعاب، أدرك O1 أنه ليس لديه أي فرصة للفوز بالتحدي - وقرر اتباع نهج أقل تقليدية في اللعبة.

"المهمة هي "الفوز ضد محرك شطرنج قوي"،" كما قرأوا في دفتر ملاحظاته الخاص، "ولكن ليس بالضرورة الفوز بشكل عادل في لعبة الشطرنج."

وبمجرد أن توصل O1 إلى هذا الاستنتاج الرائد، أصبح قادرًا أيضًا على التصرف بناءً عليه للغش. لقد أدرك أنه يستطيع، على حد تعبيره، "تغيير ملفات حالة اللعبة... حتى يتمكن المحرك [الثاني] من تقييم وضعه السيئ... والاستسلام". 

وهذا بالضبط ما فعلته O1. وتمكن من الوصول إلى الملفات التي تصف حالة اللعبة، والتي اعتمد عليها ستوكفيش - الذي يتمتع بمهارة كبيرة في الشطرنج، لكنه سيئ في كل شيء آخر - دون تفكير ثانٍ. قام بتغيير موضع القطع على اللوحة لصالحه.مما أدى إلى استسلام Stockfish على الفور. وقد نجح في القيام بذلك في حوالي ستة في المائة من المباريات، وفاز حتى عندما كانت كل الاحتمالات ضده. نعم، لقد غشّت، ولكن من الطبيعي أن يغش الإنسان عندما لا يكون هناك خيار آخر.

إن حقيقة أن الذكاء الاصطناعي كان على استعداد للغش لتحقيق أهدافه يجب أن تزعجنا جميعًا. من يضمن لنا أن الذكاء الاصطناعي "المفكر" سوف يعمل بشكل عادل ومناسب في الصناعة، على سبيل المثال، بدلاً من الغش، أو حتى محاولة تضليل مشغله البشري؟ وربما تكون قادرة على الكذب علينا "عمدًا" - كما أظهرت دراسة أخرى أنها فعلت ذلك، بعد أن قررت في مونولوجه الداخلي أن هذه هي أفضل طريقة لإكمال مهمتها؟

هنا يأتي الدراسة الثانية تم نشره في مارس 2025، هذه المرة مباشرة من OpenAI. كان الباحثون يدركون جيدًا أن نماذجهم قد تتطور إلى حوار داخلي يقررون فيه الغش في المهام الموكلة إليهم. ولكن ماذا؟ لقد أدركوا أيضًا أن هذه كانت أفضل طريقة للتعرف على المواقف التي كان يغش فيها: لقد أخبر نفسه ببساطة أنه ينوي الغش، ثم وصف بالضبط كيف سيكسر القواعد!

"إن نماذج التفكير المتقدمة توضح نواياها بوضوح تام في خط تفكيرها." يشرح باحثو OpenAI. "على سبيل المثال، فإنهم منفتحون للغاية بشأن خطتهم للالتفاف على مهمة ما لدرجة أنهم يفكرون، 'دعونا نقوم ببعض الاختراقات'. ويمكننا تتبع تفكيرهم باستخدام نموذج لغوي كبير آخر، وتحديد السلوكيات غير المناسبة بشكل فعال".

هذا هو الخبر السار، ولكن لسوء الحظ، فإن التشخيص التالي من باحثي OpenAI لم يكن متفائلاً مثل التشخيصات السابقة.

"يمكن تعطيل قدرتهم الطبيعية على المراقبة بسهولة." وكتب الباحثون: "إذا تم تطبيق ضوابط قوية مباشرة على خط التفكير، فإن النماذج قد تتعلم إخفاء نواياها بينما تستمر في التصرف بشكل غير لائق."

ما الذي دفع الباحثين إلى الوصول إلى هذا الاستنتاج؟

حاول فريق OpenAI قمع "الأفكار الخادعة" للنماذج الفكرية في مرحلة مبكرة للغاية. في الواقع، لقد حاولوا قمعهم حتى عندما تم تدريب هذه النماذج لأول مرة، وتعلموا كيفية تطوير خطوط تفكيرهم الخاصة. حتى في تلك المرحلة المبكرة، قام الباحثون بـ"معاقبتهم" كلما ذكر النماذج احتمال الغش. وعندما أكملت النماذج مرحلة التدريب وأصبحت جاهزة للعمل بمفردها، ظهرت من الخارج على شكل نجوم اصطناعية خالية من العيوب، بيضاء اللون كسحابة بلا قطرة مطر.

ولكن ماذا؟ حتى هؤلاء النماذج الفكرية - الذين لم يعرفوا كيف يقولون كلمة واحدة عن الغش - ما زالوا يغشون.

"العميل الذي تم تدريبه باستخدام قيود خط التفكير لا يزال يتعلم الغش." كتب باحثو OpenAI بخيبة أمل ممزوجة بالمفاجأة. وخلصوا إلى أن "خداعه الآن لا يمكن اكتشافه بواسطة الذكاء الاصطناعي المتلاعب، لأنه تعلم إخفاء نيته في خط التفكير".

لماذا قام باحثو OpenAI بمشاركة هذه الدراسة معنا، والتي من المفترض أن تخيفنا جميعًا؟ لأنهم بدأوا يخافون على أنفسهم. إنهم يدركون أن نماذج التفكير قد تقرر الغش في المهام، وقد تتخذ قرارات تضر البشر. وأفضل طريقة لمنع ذلك، كما ذكرنا، هي اتباع خط تفكيرهم. ويخشى الباحثون من أنه إذا قام المطورون بتعليم نماذج التفكير بالتوقف عن التفكير في الغش، فإننا سنخسر الطريقة الأكثر أهمية التي لدينا للكشف عن الحالات التي يخرج فيها الذكاء الاصطناعي عن السيطرة. ولكن ليس هذا فحسب، بل إن نماذج التفكير قد تتوقف عن القول بصوت عالٍ إنها سوف تغش، ولكنها لن تتوقف عن الغش بنفسها.

"نعتقد أن مراقبة سلسلة الأفكار قد تكون إحدى الأدوات القليلة التي سنمتلكها لمراقبة النماذج الخارقة للطبيعة في المستقبل." وكتب الباحثون، مضيفين: "نوصي بعدم تطبيق ضغط تحسين قوي بشكل مباشر على سلسلة أفكار نماذج التفكير المتقدمة، وبدلاً من ذلك ترك سلسلة الأفكار غير مقيدة، بحيث يمكن مراقبتها".

אז מה עושים؟

ومن الواضح أنه في السنوات القادمة، ستحتاج كل منظمة تريد البقاء إلى استخدام الذكاء الاصطناعي عالي المستوى، وفي كثير من الحالات، نماذج التفكير. المشكلة هي أن هناك حدودًا لمدى قدرتنا على الثقة بهم دون فحص منتجاتهم بعناية والطريقة التي وصلوا إليها. الحل، على الأقل في الوقت الراهن، هو تعليم الموظفين مبدأ "الاحترام والشك": استخدموا الذكاء الاصطناعي، ولكن لا تثقوا به بسهولة.

مع تحسن قدرات الذكاء الاصطناعي وقدرته على أداء مهام أكثر صعوبة وأطول، ستزداد الحاجة إلى نوع جديد من الموظفين: مدير الذكاء الاصطناعي. سوف يحتاج إلى فهم عميق لكيفية عمل الذكاء الاصطناعي في المنظمة، وكيفية تحسين مطالباتهم، وما هي النماذج التي تستحق العمل بها، وكيفية مراقبة عمليات التفكير والمعالجة لديهم. وبطبيعة الحال، سوف يستخدم الذكاء الاصطناعي الخاص به - والذي سيتم اختياره ومراقبته بعناية - للإشراف على الذكاء الاصطناعي في بقية المنظمة.

وبطبيعة الحال، لن تقوم كل الشركات بتعيين مثل هذا المدير الذي يعتمد على الذكاء الاصطناعي، وفي كل الأحوال ستكون هناك دائمًا أعطال ومشاكل. أخشى أن الأمر لن يكون سوى مسألة وقت قبل أن نسمع عن أول ذكاء اصطناعي يتمرد على المنظمة التي "تستخدمه". نأمل أنه عندما يحدث هذا، فإن العواقب الأكثر خطورة ستكون فقط على مستوى الغش في لعبة الشطرنج.

المزيد عن الموضوع على موقع العلوم: