اكتشف التحيزات بالفعل في مرحلة البيانات، قبل أن تصل إلى الخوارزمية

يقوم الدكتور يوفال موسكوفيتز، وهو باحث من كلية علوم الحاسوب والمعلومات في جامعة بن غوريون، بتطوير أدوات خوارزمية لتحديد وتصحيح التحيزات في الأنظمة القائمة على البيانات، باستخدام "أصل البيانات"، وهو "السيرة الذاتية" للبيانات طوال عملية المعالجة.

إدارة البيانات المسؤولة مجالٌ يُعنى بنزاهة وشفافية ومساءلة وموثوقية عمليات معالجة البيانات. صورة توضيحية: depositphotos.com
إدارة البيانات المسؤولة هي مجال يتعامل مع العدالة والشفافية والمساءلة والموثوقية في عمليات معالجة البيانات. الرسم التوضيحي: موقع Depositphotos.com

تُجري يوفال موسكوفيتز، الباحثة في كلية علوم الحاسوب والمعلومات بجامعة بن غوريون في النقب، بحثًا مدعومًا بمنحة حصلت عليها من المؤسسة الوطنية للعلوم (ISF) حول إحدى القضايا الملحة في عالم الحوسبة اليوم: كيفية تحديد التحيزات في الأنظمة القائمة على البيانات، وكيفية الحد منها قبل أن تُصبح جزءًا لا يتجزأ من النماذج والخوارزميات. ووفقًا لها، لا تكمن النقطة الأساسية في النموذج نفسه فحسب، بل في سلسلة معالجة البيانات بأكملها - بدءًا من لحظة جمعها، مرورًا بمراحل التنظيف والتصفية، وصولًا إلى مرحلة إدخالها للتدريب أو الحساب.

تعمل موسكوفيتز في مجال إدارة البيانات، وتحديدًا في مجال إدارة البيانات المسؤولة. يهتم هذا المجال بنزاهة وشفافية ومساءلة وموثوقية عمليات معالجة البيانات. فبدلًا من الاكتفاء بالسؤال "هل النموذج عادل؟"، تطرح أيضًا أسئلة أخرى مثل "ماذا حدث للبيانات خلال مراحل المعالجة؟"، و"متى ظهر التحيز؟"، و"هل كان من الممكن تداركه في وقت أبكر؟".

نشأت هذه الحاجة نتيجة تراكم حالات معروفة للتمييز الخوارزمي. تستشهد موسكوفيتز بمثال نظام فرز السير الذاتية الذي طُوّر في أمازون، والذي تعلّم تفضيل المرشحين الذكور والتمييز ضد النساء. ووفقًا لها، لا يظهر هذا التحيز دائمًا بشكل مباشر وواضح. ففي بعض الأحيان، يتعلّم النظام روابط غير مباشرة: كالمؤسسة التعليمية، أو عنوان السكن، أو غيرها من الخصائص المرتبطة تاريخيًا بفئات معينة. بعبارة أخرى، حتى دون "رؤية" الجنس أو العرق بشكل صريح، قد يستخلص النظام أنماطًا تمييزية من البيانات.

السؤال هو: كيف يمكنك تحديد التحيزات في الأنظمة القائمة على البيانات، وكيف يمكنك تقليلها قبل أن تصبح "محصورة" داخل النماذج والخوارزميات؟

تبدأ المشكلة قبل وقت طويل من ظهور النموذج

من أهمّ ما توصل إليه بحث موسكوفيتز هو إمكانية نشوء التحيز قبل مرحلة التدريب بفترة طويلة. إذ تخضع البيانات لعمليات لا حصر لها خلال مسارها: من التصفية والاختيار والتنظيف ودمج الجداول والاستعلامات المختلفة إلى التغييرات الهيكلية. وقد تُغيّر كل عملية من هذه العمليات، على سبيل المثال، تمثيل المجموعات في المجتمع الإحصائي. وبالتالي، حتى لو كانت الخوارزمية النهائية "محايدة" ظاهريًا، فقد تتلقى مدخلات مشوّهة مسبقًا.

لذا، يهدف هذا النهج إلى تحديد التحيزات على طول الطريق، وفي الحالات التي يكون فيها ذلك ممكناً، تصحيحها بطريقة مضبوطة وبأقل قدر من التغيير. أي أنه لا يهدف إلى "إفساد" الحساب الأصلي، بل إلى إجراء تعديلات طفيفة تُعيد تمثيلاً أكثر عدلاً، دون تغيير جوهر الحساب.

 الأصل: مفهوم من الفن انتقل إلى عالم البيانات

تعتمد موسكوفيتز بشكل أساسي على تقنية تُسمى "توثيق البيانات". ينبع مفهوم التوثيق من عالم الفن وعلم الآثار، حيث يشمل توثيق تاريخ العمل الفني: من أنشأه، ومن تداوله، وما هو أصله، وما هو سياقه. يؤثر هذا التوثيق على كلٍ من الثقة في أصالة العمل وقيمته.

في عالم البيانات، يُعدّ مصدر البيانات بمثابة "ملخص" لها: مسار معالجتها، والعمليات التي أُجريت عليها، وعلاقاتها بالبيانات الأخرى. تُستخدم هذه المعلومات كبيانات وصفية حاسوبية، مما يسمح لنا بفهم ليس فقط النتائج النهائية، بل أيضاً أسبابها.

وفقًا لموسكوفيتز، فإن الميزة الكبرى لبرنامج Provenance هي أنه يسمح لك بتحديد النقاط التي يتم فيها إنشاء التحيز بشكل فعال، وفي بعض الحالات أيضًا حساب أصغر تغيير مطلوب لتحسين التمثيل في المخرجات.

مثال المنحة الدراسية: كيفية تغيير الاستعلام "بأقل قدر ممكن"، ولكن مع تحسين التمثيل

لتوضيح الفكرة، يقدم موسكوفيتز مثالاً بسيطاً لا يعتمد على التعلم الآلي: نظام يمنح منحاً دراسية للطلاب، ويختار المستحقين بناءً على معايير تبدو مناسبة تماماً: معدلات تراكمية عالية ودراسة تخصصات العلوم والتكنولوجيا والهندسة والرياضيات. يبدو هذا عادلاً للوهلة الأولى. ولكن إذا كانت هذه التخصصات أقل إتاحة لبعض الفئات في الماضي، فإن تمثيلهم فيها سيكون أقل، وبالتالي سيظهرون بشكل أقل في قائمة المستحقين للمنحة. بعبارة أخرى، حتى عندما تبدو طريقة الاختيار محايدة، فقد تعكس ثغرات موجودة أصلاً في البيانات.

هنا يأتي دور خوارزميتها: إذا حددتَ قيدًا على التمثيل - على سبيل المثال، هدف تمثيل أكثر توازنًا لمجموعات معينة - يمكنك البحث عن تغيير طفيف في الاستعلام بحيث تُحقق المخرجات الهدف، أو على الأقل تقترب منه، دون تغيير جوهري في الغرض من الاستعلام الأصلي. بدلًا من تشغيل العديد من صيغ الاستعلام على البيانات بشكل متكرر (وهي عملية مُكلفة حسابيًا)، يُتيح لك Provenance تحديد أصغر التغييرات وأكثرها فعالية بسرعة.

بالنسبة لها، هذا هو التوازن المهم بالضبط: من ناحية، الحفاظ على الهدف الأصلي للحساب، ومن ناحية أخرى، منع حدوث وضع تحتفظ فيه النتيجة بتحيز غير مرغوب فيه لمجرد طريقة معالجة البيانات.

الرياضيات والخوارزميات وما يمكن حله بكفاءة

تصف موسكوفيتز عملية بحثية تبدأ بمشكلة واقعية، ثم تنتقل إلى صياغة رياضية رسمية، وبعد ذلك فقط إلى تطوير حل خوارزمي. وتدرس متى يمكن حل المشكلة بدقة وكفاءة، ومتى يجب أن تكون التقريبات أو الطرق الاستدلالية كافية.

في الحالات التي يوجد فيها حل دقيق، يمكن أيضًا إثبات صحة الخوارزمية رياضيًا. أما في الحالات الأكثر تعقيدًا، كمشاكل الترتيب على سبيل المثال، فلا يمكن دائمًا بناء خوارزمية فعّالة بنفس الطريقة، وعندها يلزم حلول تقريبية. وتكمن ميزة هذه الحلول في سهولة تطبيقها أحيانًا على مجموعات البيانات الكبيرة، ولكن ثمن ذلك هو صعوبة ضمان مدى قربها من الحل الأمثل.

""الإنصاف" ليس شيئًا واحدًا

تؤكد موسكوفيتز أن العدالة الخوارزمية ليست مفهوماً واحداً. فهناك تعريفات عديدة للعدالة، بل وتتعارض أحياناً. لذا، فهي لا تدّعي وجود "تعريف واحد صحيح"، بل تقترح منهجاً عملياً: اختيار تعريف مناسب للسياق، ثم تطوير خوارزمية تضمن الامتثال للشروط المحددة.

وبعبارة أخرى، فإن بحثها لا يحدد المسألة الأخلاقية المتعلقة بما هو "الإنصاف الحقيقي"، بل يوفر أدوات حسابية يمكن أن تخدم سياسة أو تعريفًا محددًا مسبقًا.

المزيد عن الموضوع على موقع العلوم:

ترك الرد

لن يتم نشر البريد الإلكتروني. الحقول الإلزامية مشار إليها *

يستخدم هذا الموقع Akismet لتصفية التعليقات غير المرغوب فيها. مزيد من التفاصيل حول كيفية معالجة المعلومات الواردة في ردك.