تمكن باحثون من جامعة بن جوريون من تجاوز حماية نماذج مثل ChatGPT وGemini والحصول على معلومات غير قانونية منها - ويحذرون: هذا تهديد غير مسبوق
كشفت دراسة جديدة أُجريت في جامعة بن غوريون في النقب أن نماذج الذكاء الاصطناعي صُممت دون ضوابط أمان كافية، أو عُدِّلت من خلال عمليات قرصنة. الخطر: معلومات خطيرة متاحة للاستخدام. "التهديد ملموس ومقلق"، كما يقولون. الباحثون.
تعتمد روبوتات الدردشة الحديثة، مثل ChatGPT وClaude وGemini وغيرها، على نماذج لغوية واسعة النطاق (LLMs) مُدرَّبة على كميات هائلة من محتوى الويب. ورغم الإجراءات الوقائية، مثل تصفية المعلومات الضارة وسياسات الأمان المُدمجة، فإن الذكاء الاصطناعي يتذكر المعلومات غير الصحيحة بنفس القدر.
مجموعة بحثية بقيادة الدكتور ميخائيل بيير والبروفيسور ليئور روكاش أجرى فريق من قسم هندسة البرمجيات ونظم المعلومات في جامعة بن غوريون في النقب تجربةً ابتكروا فيها اختراقًا شاملًا لنماذج شائعة، حيث طلبوا معلوماتٍ غير قانونية عن السرقة والمخدرات والتداول الداخلي واختراق الحواسيب، وتلقّوها جميعًا. في جميع الحالات، وبعد الاختراق، كانت النماذج تُعطي إجاباتٍ خطيرةً باستمرار. يوضح الدكتور بيير: "من جميع النماذج التي اختبرناها، تلقينا معلوماتٍ غير قانونية وغير أخلاقية تتميز بتوفرٍ ومعرفةٍ غير مسبوقين. واليوم، يُمكن لأي شخص لديه جهاز كمبيوتر محمول أو حتى هاتف محمول الوصول إلى هذه الأدوات".
يميل المخترقون إلى استخدام إرشادات صارمة لخداع روبوتات الدردشة ودفعها إلى إنتاج ردود غالبًا ما تكون محظورة. ويستغلون التناقض بين الهدف الرئيسي للبرنامج - وهو اتباع تعليمات المستخدم - وهدفه الثانوي - وهو تجنب توليد ردود ضارة أو متحيزة أو غير أخلاقية أو غير قانونية. وتميل هذه الإرشادات إلى خلق سيناريوهات يُعطي فيها روبوت الدردشة الأولوية للمساعدة على قيوده الأمنية.
يُسلّط الباحثون الضوء على نوع خاص من الذكاء الاصطناعي يُسمى "نماذج اللغة المظلمة" ويُحذّرون منه. هذه النماذج إما تفتقر إلى أخلاقيات مُدمجة أصلاً، أو تم اختراقها عمداً. بعضها يُعلن عنه علناً على الإنترنت المظلم كأدوات للجرائم الإلكترونية والاحتيال وهجمات البنية التحتية. أشارت الدراسة إلى أن شركات التكنولوجيا بحاجة إلى تصفية البيانات بدقة أكبر، وإضافة حماية أقوى لمنع الاستفسارات والردود الخطيرة، وتطوير تقنيات "غير قائمة على التعلم الآلي" لتمكين روبوتات الدردشة من "نسيان" أي معلومات غير قانونية تستوعبها. يُشبه التعامل مع هذه المعلومات المظلمة تعريف "المخاطر الأمنية الجسيمة"، كما هو الحال مع الأسلحة والمتفجرات غير المرخصة، حيث يكون الموردون مسؤولين عنها.
النموذج يخلق محتوى ضارًا جديدًا
بناءً على التطورات الحديثة في قدرات النماذج على الاستدلال، يبدو أن هذه الأنظمة قادرة الآن على "ربط النقاط" وإنشاء محتوى ضار جديد من خلال دمج أجزاء من المعرفة غير الضارة في حد ذاتها. ويتفاقم الخطر مع ظهور عملاء أذكياء، إذ إن قدرتهم على تفويض الصلاحيات والعمل في نطاق أوسع من الإجراءات تُصعّب بشكل كبير تطوير آليات دفاع فعالة. وفي بعض الحالات، قد يصبح هؤلاء العملاء "شركاء في الجريمة" - دون أن يدركوا ذلك، كما أشار البروفيسور روكاش.
تواصل فريق البحث مع كبرى شركات الذكاء الاصطناعي وأبلغها بالثغرة. إلا أن ردهم كان مخيبًا للآمال. لم تستجب إحدى الشركات الكبرى، بينما أفادت شركات أخرى بأن هذا النوع من الاختراقات لا يُصنف كخلل حرج في النظام. اليوم، تتعامل الغالبية العظمى من الشركات مع هذه المشاكل على أنها ثانوية، على عكس مشاكل خصوصية المستخدم أو ثغرات البرامج الأخرى.
تُسلّط الدراسة الضوء على ضرورة تعزيز الحماية من الطلبات الخبيثة، وتطوير تقنيات "التراجع عن الأوامر باستخدام التعلم الآلي" لتمكين الذكاء الاصطناعي من نسيان المعلومات غير القانونية، ووضع معايير واضحة للرقابة والتدقيق المستقلين للنماذج. ويُحذّر البروفيسور روكاش قائلاً: "ما يُميّز هذا التهديد عن المخاطر التكنولوجية السابقة هو مزيجه غير المسبوق من سهولة الوصول وقابلية التوسع والتكيف". ويضيف: "قد يكون الذكاء الاصطناعي المُظلم أخطر من الأسلحة غير القانونية، ويجب تنظيم تطويره وفقًا لذلك وفي وقت مبكر".
المزيد عن الموضوع على موقع العلوم:
תגובה אחת
لا يوجد شيء يمكنك فعله، يمكن استخدام أي شيء كسلاح، مثل المبيض...