الصدمة الكبرى: الذكاء الاصطناعي لا يفكر منطقيا

تكشف الأبحاث الجديدة أن النماذج المنطقية الكبيرة، مثل GPT-O3، لا تزال تواجه صعوبة في التعامل مع المشكلات المعقدة - مما يذكرنا بأن الذكاء الاصطناعي المتقدم لا يزال يعمل في المقام الأول على الكمال الإحصائي بدلاً من الفهم الحقيقي.


الذكاء الاصطناعي - منطق أم إحصاء؟ صورة توضيحية: depositphotos.com
الذكاء الاصطناعي – المنطق أم الإحصاء؟ الرسم التوضيحي: موقع Depositphotos.com

وفي الأيام الأخيرة أصبح معروفا أبحاث تهز أسس مجتمع الذكاء الاصطناعيللأسف، نادرًا ما يُناقش هذا الموضوع بجدية علنًا. لماذا؟ ربما لأنه يتعارض مع الضجة المُثارة حول الذكاء الاصطناعي، ويُسلّط الضوء على بعض قيوده غير الواضحة. وربما أيضًا لأنه مُعقّد بشكل خاص، ويتطلب فهمًا أعمق من المعتاد لمحركات الذكاء الاصطناعي الموجودة اليوم.

حسنًا، دعنا نحاول شرح ذلك، ونبدأ من الأساسيات.


نماذج اللغة العظيمة – الببغاوات الأكثر إثارة للإعجاب

هل أنت على دراية بـ Chat-GPT؟ بالطبع أنت كذلك. Chat-GPT هو "نموذج لغوي ضخم". وبعبارة أخرى، هو محرك يُجري الإكمال التلقائي - أي الإكمال التلقائي للكلمات والجمل. يتم تدريب المحرك على كميات هائلة من النصوص الواردة من الإنترنت، والأدبيات المهنية والعلمية، وكتب مغامرات الأطفال، وجميع مصادر الكتابة البشرية الأخرى. ويعتمد على مهارات رياضية وإحصائية دقيقة لتحديد الكلمات الأكثر شيوعًا، وليس أكثر من ذلك.

فكيف يستطيع Chat-GPT التحدث إليك بهذه السهولة؟ كيف يستطيع تحليل مشاكلك النفسية، أو حلّ واجباتك المدرسية؟

للسبب نفسه: أن عدد المسائل المختلفة في العالم ليس بالكثرة التي تبدو عليها، وكل مشكلة نفسية تُقرّ بها أمام الحاسوب بعينين دامعتين، يكون قد قرأ بالفعل بعضًا منها في مواده التدريبية. وينطبق الأمر نفسه على معظم أسئلة الواجبات المنزلية والاختبارات المدرسية. في كثير من الأحيان، يكون المحرك قد قرأ أيضًا حلول تلك المسائل، لذا فهو يمتلك مجموعة الكلمات التي يُرجّح ظهورها لاحقًا في السؤال. ثم يُركّبها كلمة بكلمة، حتى نحصل على جملة تبدو منطقية لنا، وأحيانًا تكون كذلك بالفعل، وأحيانًا لا تكون كذلك.

إن نجاح نماذج اللغة الرائعة، في كثير من الحالات، في تقديم إجابات منطقية لأسئلة بسيطة يُعدّ معجزة بحد ذاتها. ولكن كلما ازداد السؤال تعقيدًا، وابتعد عن المألوف - أي عن الأسئلة النموذجية التي يسهل العثور عليها في مواد تدريب النماذج - قلّت احتمالية تقديمها لإجابات مفيدة. ببساطة، لا تملك هذه النماذج منطقًا خاصًا بها. إنها أشبه بـ"ببغاوات عشوائية": ببغاوات تُكرر أنماطًا سمعتها من قبل، دون أي فهم حقيقي وراءها.

للتوضيح: قد تكون نماذج اللغة ببغاوات، لكنها ببغاوات مفيدة للغاية. على سبيل المثال، تمكّن نموذج لغة ضخم من جوجل (Med-PalM 2) من تشخيص المرضى بشكل أفضل من الأطباء العامين في أوائل عام 2025. وأظهرت دراسة أخرى أن هذه النماذج قادرة على تقديم استشارات نفسية تساعد المرضى. وكما يشهد الكثيرون، تحقق هذه النماذج مستويات ترجمة قريبة من تلك التي يحققها البشر. ومع ذلك، فإن هذه النماذج مناسبة في الغالب لمهام محدودة وضيقة للغاية.

على الأقل كان هذا هو الحال حتى ظهور "النماذج الكبرى للمنطق".


نماذج المنطق العظيمة – الوصول إلى الفهم

طوال عام ٢٠٢٤، أثار سام ألتمان، الرئيس التنفيذي لشركة OpenAI، حماس مجتمع الذكاء الاصطناعي (وعامة الناس) بوعوده بشأن نموذج ستروبيري. كان من المفترض أن يكون هذا النموذج قادرًا على حل مسائل منطقية أكثر تعقيدًا بكثير من تلك التي تستطيع نماذج اللغات الكبيرة التعامل معها. ثم، في سبتمبر ٢٠٢٤، طُرح النموذج للجمهور تحت اسم GPT O2024.

وقد استجابت للتوقعات.

نموذجا GPT O1 وGPT O3 هما "نموذجان منطقيان كبيران". يعتمدان على نفس مبدأ نماذج اللغة الكبيرة، ولكن مع ميزة فريدة: عندما تواجهان مشاكل معقدة، تتحدثان إلى نفسيهما لإيجاد طرق لتقسيمها إلى مشاكل أبسط يسهل حلها.

ماذا يعني "التحدث إلى أنفسهم"؟

تم إعطاء مثال.

لنفترض أنك تريد معرفة ما إذا كان العالم كرويًا، وتطرح هذا السؤال المعقد على GPT4: "هل العالم كروي؟" ماذا سيفعل؟

نموذج لغوي كبير مثل GPT4 (الذي تحدثنا عنه سابقًا) سيُكمل الكلمة التالية تلقائيًا بناءً على كل ما قرأه في مادة التدريب. ولأنه قرأ ملايين الأمثلة على أسئلة كهذه، فمن المرجح أن تظهر كلمة "نعم"، وكذلك "بالتأكيد"، و"بلا شك"، و"بالتأكيد"، و"الجميع يعلم ذلك..." وما شابه. ومن ثم، سيستمر في إكمال الكلمات بشكل مناسب. من المرجح أن تحصل على إجابة قريبة جدًا من الإجماع العلمي، على الأقل إذا زود نموذج اللغة الكبير بالمادة التدريبية المناسبة.[1]

ماذا يمكن أن يفعل نموذج منطقي كبير مثل GPT O1؟

عندما يُطرح سؤال مثل "هل العالم كروي؟" على نموذج منطقي كبير، فإنه يبدأ بتوليد أسئلة لنفسه والإجابة عليها. على سبيل المثال، قد تتضمن هذه الأسئلة الأسئلة التالية:

  • "لماذا يريد المستخدم معرفة هذا؟"
  • "هل يسأل بجدية؟"
  • "ما الذي أعرفه عن المستخدم والذي يمكن أن يساعدني في إنتاج إجابة أكثر ملاءمة له؟"
  • ما هي الإجابة التي يمكن أن يقدمها خبير في هذا المجال على هذا السؤال؟

كيف سيجيب نموذج المنطق الكبير على هذه الأسئلة؟ ببساطة: سيمررها إلى نموذج لغوي كبير مثل GPT4 ويطلب منه الإجابة. وعندما يحصل على الإجابات، سيجمعها ويعالجها في مُحفِّز واحد ضخم، يُغذِّيه في نموذج اللغة. وهكذا، بما أن نموذج اللغة يحصل الآن على مُحفِّز يحتوي على كلمات أكثر صلة، فسيُعطي إجابةً أفضل على الأرجح.

الآن قل - "انتظر يا روي، هل تقول فعليًا أن كل التفكير المعقد في النماذج المنطقية هو نتاج نموذج لغوي غير منطقي يولّد أسئلة ليست منطقية بالضرورة، ثم يعتمد على إجابات النماذج اللغوية غير المنطقية بالضرورة على تلك الأسئلة، ويعيدها إلى نموذج لغوي غير منطقي؟"

بالضبط. سلاحف فوق سلاحف فوق سلاحف، حتى النهاية.

وكما هو الحال مع نماذج اللغة الكبيرة، فإن العجيب هو أن نماذج المنطق تعمل بالفعل وتحقق نتائج مبهرة. نرى أن إجاباتها أكثر دقة بكثير في مجالات مثل البرمجة والتعامل مع المشكلات المعقدة. ومع ذلك، فإن نماذج المنطق في جوهرها هي في الغالب نماذج لغوية تطرح أسئلة على بعضها البعض، بحيث يمكنها تصميم أنجح مُحفِّز لحل المشكلة.

ولكن كيف يمكن للنماذج المنطقية أن تعرف الأسئلة التي يجب طرحها لحل المشكلات المعقدة؟

لأنهم مدربون على ذلك.

تختلف كل شركة في طريقة عملها (ولا تكشف أي منها عن العملية كاملةً)، ولكن يُعتقد حاليًا أن النماذج المنطقية خضعت لسلسلة من الدورات التدريبية على يد خبراء في مجالات مختلفة، مثل البرمجة. شرح هؤلاء الخبراء للنماذج (أي أعطوها أمثلةً متزايدة) الأسئلة التي يجب أن تطرحها على نفسها لحل مشاكل البرمجة المختلفة. كما أوضحوا للنماذج ترتيب الإجراءات التي تتخذها لحل مشاكل البرمجة المختلفة.

عندما يواجه نموذج منطقي مشكلة برمجية، فإنه يعتمد ببساطة على الأنماط التي غرسها فيه هؤلاء الخبراء سابقًا لحلها. لا أكثر ولا أقل. معرفة هذه الأنماط تُمكّنه من تحقيق نجاح باهر في البرمجة - يفوق بكثير نجاح نماذج اللغة.

لكن ماذا يحدث عندما يواجه النموذج المنطقي مشكلة برمجية جديدة؟ مشكلة لم يُدرَّب عليها؟ في هذه الحالة، لا يعرف الأسئلة الصحيحة التي يجب طرحها، أو المخطط الصحيح الذي يجب اتباعه لحلها. قد يطرح أسئلة خاطئة، أو يُجرِّب حلولًا غير ذات صلة. والنتيجة، كما هو متوقع، هي تراجع أدائه بشكل حاد، ليعود إلى مستوى نماذج اللغة الأبسط.

وإذا كان السؤال من مجال لم يكن النموذج المنطقي مُهيأً له إطلاقًا؟ فالإجابات قد تكون أسوأ.

أود التأكيد مجددًا على أنه على الرغم من كل الانتقادات التي وجهتها هنا للنماذج المنطقية، فإنها لا تزال تؤدي عملًا رائعًا في عدد كبير من الحالات. ففي مجال البرمجة، على سبيل المثال، يتفوق GPT O3 على 99.80% من المشاركين في المسابقات الميدانية. وهذا بلا شك قفزة نوعية مقارنةً بنماذج اللغة البسيطة.

لكن ماذا؟ في الدراسة الجديدة - والآن وصلنا أخيرًا إلى أهم ما في هذه المقالة - اكتشف باحثو آبل أن النماذج المنطقية... حسنًا، لا معنى لها.

أو على الأقل ليست قوية كما كنا نأمل.


المنطق الذي لا وجود له

لنبدأ بالقول إن النماذج المنطقية منطقية بالفعل. حتى عندما تُعطى مسائل تختلف تمامًا عن تلك التي تدربت عليها، فإنها لا تزال قادرة على استخلاص بعض التعميمات، واكتشاف كيفية حل هذه المسائل الجديدة. إنها قدرة مبهرة بلا شك. لكن ما نتوقعه من إنسان يتمتع بقدرة مماثلة على حل المسائل هو فهمه لمبدأ المسألة، وبمجرد أن يصل إلى هذا الفهم، سيتمكن من حل مسائل أكثر تعقيدًا بنفس الطريقة.

لنأخذ مثالاً: أبراج هانوي. إنها أحجية قديمة، تتكون من ثلاثة أقطاب، وعلى أحدها سلسلة من الدوائر، كل دائرة أوسع من سابقتها، حتى تصل الدائرة الأوسع إلى أسفل العمود. القواعد بسيطة: عليك نقل جميع الدوائر إلى عمود آخر، ولكن لا يمكن لدائرة واسعة أن تستقر على دائرة أضيق.

حل اللغز هو نقل الدوائر من قطب إلى آخر، ثم إلى السادس، بطريقة تتكرر مرارًا وتكرارًا، حتى تنتقل جميعها إلى القطب الأخير الصحيح. من يفهم كيفية حل هذا اللغز لأربع دوائر، يمكنه حله بطريقة مماثلة لست أو ثماني أو مئة دائرة.

لكن النماذج المنطقية؟ حسنًا، عندما قام باحثو شركة أبل في مسائل مثل أبراج هانوي، وجدوا أن النماذج المنطقية قادرة على حل المسائل حتى مستوى أساسي معين. أما بعد هذا المستوى، فقد فشلت باستمرار. وحتى عندما أُعطيت لهم تلميحات حول كيفية حلها، لم يتمكنوا من إيجاد حل للمسائل الأكثر تعقيدًا. على وجه التحديد، في أبراج هانوي، تمكنوا من التعامل جيدًا مع حوالي ست دوائر. ومنذ ذلك الحين، ومع زيادة عدد الدوائر، انخفض معدل النجاح. وعندما وصلوا إلى عشر دوائر أو أكثر، انخفض بشكل كبير. حدثت ظاهرة مماثلة في الألغاز والألعاب الأخرى. مع زيادة التعقيد، وجدت النماذج صعوبة في حلها، على الرغم من أنها توصلت بالفعل إلى فهم لمسار الحل الأمثل للمسائل الأبسط.

وقد فاجأت هذه الظاهرة الكثيرين، أو على الأقل أولئك الذين لم يفهموا آلية عمل هذه النماذج.


الصدمة التي لم تكن هناك

في اليوم التالي لنشر الدراسة، كان من الممكن العثور على العديد من التصريحات على الإنترنت مثل "ها قد أخبرناك! النماذج المنطقية لا تعرف حقًا كيف تفكر!!"

وهذا صحيح. لكنني لا أعرف خبيرًا مُلِمًّا بهذا المجال يدّعي أن نماذج المنطق الحالية تتمتع بمنطق يُضاهي المنطق البشري. لو وُجدت مثل هذه الادعاءات، لَصدرت في الغالب من أشخاص غير مُلِمين بالموضوع، وعلّقوا آمالًا كبيرة على نماذج المنطق كما هي عليه اليوم.

ماذا يقول الخبراء الحقيقيون؟ إن نماذج المنطق لديها قدرة محدودة على حل المشكلات، كما شرحتُ سابقًا، وهي بارعةٌ بشكلٍ خاص في حل المشكلات التي تدربت عليها. ربما تفاجأ الخبراء الحقيقيون قليلًا عندما علموا أن النماذج تواجه صعوبةً في معالجة نفس المشكلات مع ازدياد تعقيدها، ولكن لا يبدو أن هناك أي مفاجأة حقيقية في هذا. نعم، النماذج محدودة. نعم، نحن نعلم. لا، لا يوجد منطق حقيقي هنا، مجرد إكمال جملة.

وهذا جيد.

لماذا يُعتبر هذا مقبولاً؟ لأنه لم يخطر ببال أحد أن النماذج المنطقية ستدفعنا مباشرةً إلى أرض "الذكاء الاصطناعي العام" الموعودة: ذكاء قادر على العمل بأعلى مستوى بشري. صحيح أن سام ألتمان صرّح بأن OpenAI لديها بالفعل فهم لكيفية بناء الذكاء الاصطناعي العام، لكنه لم يُؤكد أن النماذج المنطقية ستوصلنا إلى هناك. في الواقع، يُمكننا التأكد من أن OpenAI تعمل حاليًا على تقنيات أكثر تطورًا.


التداعيات العملية – والتداعيات المستقبلية

النتيجة العملية للدراسة، كما هو الحال دائمًا، هي أن الذكاء الاصطناعي لا يمكن الوثوق به بسهولة. من يظن أنه يمكنك طرح مسائل معقدة عليه، وسيتعامل معها بنفس السهولة التي يتعامل بها مع المسائل البسيطة، فهو مخطئ. هذا درس مهم لكل مستخدم. مجرد إدراكك أن Chat-GPT تعامل بشكل جيد مع منطق سؤال سهل، لا يعني أنه يمكنك طرح سؤال أكثر تعقيدًا يعتمد على المنطق نفسه. يجب عليك التحقق من جميع النتائج التي تقدمها لك هذه المحركات.

ولكننا كنا نعلم ذلك بالفعل.

أما التداعيات المستقبلية فهي أكثر إثارة للاهتمام. ووفقًا للتوقعات الميدانية، تعتزم شركات الذكاء الاصطناعي خلال العامين المقبلين جمع خبراء من جميع المجالات - كيميائيين ومحامين وأخصائيين اجتماعيين وغيرهم. لماذا؟ ليتمكنوا من مناقشة النماذج المنطقية وشرح كيفية التعامل مع المشكلات والتحديات في مجالاتهم. أفترض أنهم سيواصلون القيام بذلك، ولكن أساليب التدريب والشرح ستتغير قليلًا لتستوعب بشكل صريح المشكلات ذات مستوى التعقيد الأعلى.

هناك احتمال أن يُؤخر الاكتشاف الجديد ظهور الذكاء الاصطناعي العام (AGI) قليلًا. لكن الطريق إليه لا يزال طويلًا على أي حال. في أسواق التنبؤات - حيث يراهن الناس على توقعاتهم - لم يُلاحظ أي تغيير يُذكر في الرهانات على تاريخ تطوير الذكاء الاصطناعي العام بعد نشر المقال.

في الختام، هذه المقالة ليست مقالة رائدة أو مُحطِّمة للنماذج التقليدية. إنها تُبرِز وتُسلِّط الضوء على محدودية النماذج المنطقية، وتُوضِّح أن التكنولوجيا ستقطع شوطًا طويلًا قبل أن تبلغ ذروتها.

كما نعلم بالفعل.

لكن على الأقل أعطاني فرصة لشرح كيفية عمل هذه النماذج.


[1] للمثقفين ذوي الخبرة في هذا المجال: نعم، أعلم أن هناك أيضًا منصة RLHF، وهناك أيضًا مزيج من الخبراء، مع تحفظات وتوضيحات أخرى. لكن هيا بنا - نحن نحاول شرح مواد معقدة لعامة الناس هنا، لا إلقاء محاضرة في دورة في معهد التخنيون. علينا التعميم قليلًا والتركيز على التفاصيل المهمة حقًا. كما تعلمون، هذا أحد الأدلة على ذكائنا.