أظهر اختبار مقارن لـ 11 نموذجًا لغويًا أن المخرجات المنظمة تُحسّن العمل مع التعليمات البرمجية، لكنها لا تضمن نتائج موثوقة دون إشراف بشري. * حتى مع المخرجات المنظمة مثل JSON وXML وMarkdown، لا تزال النماذج اللغوية الكبيرة تواجه صعوبة في الحفاظ على الدقة والاتساق، خاصة في المهام المرئية مثل مواقع الويب والصور والفيديو.
أظهرت دراسة جديدة من جامعة واترلو أن الذكاء الاصطناعي لا يزال يواجه صعوبة في بعض المهام الأساسية لتطوير البرمجيات، مما يثير تساؤلات حول مدى موثوقية هذه الأنظمة في مساعدة المطورين. ومع تزايد دمج نماذج اللغة الضخمة في تطوير البرمجيات، يواجه المطورون صعوبة في ضمان دقة واتساق الإجابات التي يُنتجها الذكاء الاصطناعي، وسهولة دمجها في سير العمل الأوسع.
نُشرت الدراسة بعنوان "StructEval: تقييم قدرات برامج الماجستير في القانون على توليد مخرجات هيكلية" في مجلة المعاملات في أبحاث التعلم الآليوتم تقديمها في مؤتمر ICLR 2026.
في الماضي، كانت نماذج اللغة الكبيرة تستجيب للأوامر في تطوير البرمجيات بردود لغوية طبيعية غير مُهيكلة. ولمعالجة هذه المشكلة، قدمت العديد من شركات الذكاء الاصطناعي، بما في ذلك OpenAI وGoogle وAnthropic، "مخرجات مُهيكلة". تُجبر هذه المخرجات نماذج اللغة على العمل بتنسيقات مُحددة مُسبقًا، مثل JSON أو XML أو Markdown، مما يُسهل على كلٍ من البشر وأنظمة البرمجيات قراءة ومعالجة هذه المخرجات.
مع ذلك، تُظهر دراسة مقارنة جديدة من جامعة واترلو أن هذه التقنية لا تزال أقل موثوقية مما كان يأمله العديد من المطورين. فحتى أكثر النماذج تطوراً لم تحقق سوى دقة 75% تقريباً في الاختبارات، بينما حققت النماذج مفتوحة المصدر نتائج تقارب 65%.
قامت الدراسة بفحص 11 نموذجًا لغويًا كبيرًا في 18 تنسيقًا منظمًا للإخراج و44 مهمة مصممة لاختبار مدى التزام الأنظمة بالقواعد الهيكلية المحددة.
"في هذا النوع من الأبحاث، نريد قياس ليس فقط بناء الجملة للرمز، أي ما إذا كان يلتزم بالفعل بالقواعد المعمول بها، ولكن أيضًا ما إذا كانت المخرجات التي تم إنشاؤها لمختلف المهام دقيقة"، قال دونغفو جيانغ، وهو طالب دكتوراه في علوم الكمبيوتر وأحد المؤلفين الرئيسيين للدراسة.
"وجدنا أنه في حين أن النماذج تؤدي أداءً جيدًا في المهام المتعلقة بالنصوص، إلا أنها تواجه صعوبة بالغة في المهام التي تتضمن إنشاء الصور أو مقاطع الفيديو أو مواقع الويب."
كانت الدراسة جهداً تعاونياً شارك فيه الطالب الجامعي جيالين يانغ من جامعة واترلو والدكتور وينهو تشين، الأستاذ المساعد في علوم الحاسوب. كما تضمنت الدراسة تعليقات وملاحظات من 17 باحثاً آخر من واترلو ومن أماكن أخرى حول العالم.
قال تشين: "لقد أجرينا مؤخراً عدداً لا بأس به من مشاريع المقارنة المعيارية المماثلة في مختبراتنا. في جامعة واترلو، يبدأ الطلاب أحياناً كباحثين في مجال الوسوم، ثم ينظمون مشاريع، وفي النهاية يُنشئون دراساتهم المعيارية الخاصة. إنهم لا يستخدمون الذكاء الاصطناعي في أبحاثهم فحسب، بل يقومون أيضاً ببنائه واستكشافه وتقييمه."
يقول الباحثون إنه في حين أن المخرجات المنظمة من نماذج اللغة الكبيرة تمثل خطوة مثيرة للاهتمام لتطوير البرمجيات، إلا أن الأنظمة ليست موثوقة بما يكفي للعمل بدون إشراف بشري.
وقال جيانغ: "قد يكون لدى المطورين مثل هؤلاء الوكلاء الذين يعملون لصالحهم، لكنهم سيظلون بحاجة إلى إشراف بشري كبير".
للمادة العلمية https://arxiv.org/abs/2505.20139
المزيد عن الموضوع على موقع العلوم:
تعليقات 2
"المهام الأساسية"؟ من يحدد ماهية "المهام الأساسية"؟
لكل شخص وجهة نظره الخاصة. بالنسبة للمبرمجين، على سبيل المثال، فإن إنشاء الصور ومقاطع الفيديو أقل أهمية بكثير، ويتم تنفيذ المهام البسيطة والمتوسطة الحجم في البرنامج بشكل موثوق نسبيًا، وإذا لم يكن هناك تصحيح طفيف في التعليمات، فإن كل شيء على ما يرام.
العنوان مُربك بعض الشيء.
هل كان من الصعب الوصول إلى نسبة 75%؟
لأن الوصول إلى نسبة 92.5% سيكون أكثر صعوبة.
وقبل نسبة 98%، تكون الجودة على الأرجح رديئة للغاية.
رؤية أخرى للمستقبل، ولكن المفارقة هنا: التقدم متسارع. فإذا استغرق الوصول إلى 75% عشر سنوات، فسيستغرق الوصول إلى 92.5% خمس سنوات.