العلم > أعلنت Google AI عن WIT: مجموعة بيانات تربط نصوص الصور والسياق من ويكيبيديا

أعلنت Google AI عن WIT: مجموعة بيانات تربط نصوص الصور والسياق من ويكيبيديا

النظام، الذي يتضمن 11 مليون صورة وسياقاتها بـ 108 لغات، مخصص للتدريب على الذكاء الاصطناعي. سلسلة البيانات متاحة للجمهور وستعقد Google أيضًا مسابقة للتطبيقات المستندة إلى برنامج WIT بالتعاون مع مؤسسة Wikimedia وموقع KEGGLE الإلكتروني.

مثال لتحليل الصورة والسياق من ويكيبيديا لمشروع Google AI WIT. صورة العلاقات العامة

تحتفل شركة Google اليوم بالذكرى السنوية الثالثة والعشرين لتأسيسها. أعلنت Google AI، وهي واحدة من أحدث أقسام الشركة، عن WIT: سلسلة بيانات تربط الصور والنصوص والسياق من ويكيبيديا مفتوحة لعامة الناس للتدريب على الذكاء الاصطناعي.

أصدر كريشنا سرينيفاسان، مهندس البرمجيات وكارثيك رامان، عالم الأبحاث في Google Research، تفاصيل إعلان Google AI عن WIT - سلسلة ضخمة من الصور من ويكيبيديا ومطابقتها للنصوص بالعديد من اللغات - للتدريب على الذكاء الاصطناعي.

على مدونتهم على موقع Google AI يكتب الاثنان: "النماذج الحديثة للصور ووصفها في نصوص غنية متعددة اللغات يمكن أن تساعد في فهم العلاقة بين الصور والنص."

"تقليديًا، تم إنشاء مجموعات البيانات هذه عن طريق التسميات التوضيحية للصور يدويًا، أو مسح الويب واستخراج النص البديل كتسميات توضيحية للصور. في حين أن النهج السابق يسمح بتوليد بيانات ذات جودة أعلى، فإن عملية التفسير اليدوي المكثفة تحد من كمية البيانات التي يمكن إنشاؤها. من ناحية أخرى، يمكن أن يؤدي نهج الاستخراج الآلي إلى مجموعات بيانات أكبر، ولكن هذه تتطلب الاستدلال والتصفية الدقيقة لضمان جودة البيانات أو تشغيل نماذج إعادة القياس لتحقيق أداء قوي. عيب آخر في مجموعات البيانات الحالية هو عدم التغطية بلغات أخرى غير الإنجليزية. ومن الطبيعي أن تدفعنا الوفرة إلى التساؤل: هل من الممكن التغلب على هذه القيود وإنشاء مجموعة بيانات كبيرة وعالية الجودة ومتعددة اللغات تحتوي على مجموعة متنوعة من المحتوى؟"

"نقدم اليوم مجموعة بيانات النصوص والصور (WIT) المستندة إلى ويكيبيديا، والتي تم إنشاؤها عن طريق استخراج نصوص متعددة في أوصاف الصور من مقالات ويكيبيديا وروابط الصور في ويكيميديا. لقد أجرينا تصفية صارمة تضمن فحص مجموعات الصور النصية عالية الجودة فقط. كما هو مفصل في "WIT: مجموعة بيانات الصور والنصوص المستندة إلى ويكيبيديا للتعلم الآلي متعدد اللغات متعدد الأبعاد،" الذي تم تقديمه في SIGIR '21، كانت النتيجة مستودعًا يضم 37.5 مليون عينة من النصوص والصور الغنية، منها 11.5 مليون صورة فريدة وملحقاتها. الأوصاف في 108 لغة. مجموعة بيانات WIT متاحة للتنزيل والاستخدام بموجب ترخيص Creative Commons.

المزايا الفريدة لمجموعة بيانات WIT هي:

الحجم: WIT هي أكبر مجموعة بيانات متعددة الوسائط لأمثلة الصور النصية المتاحة للجمهور.
تعدد اللغات: 108 لغة، تمتلك WIT 10 لغات أكثر من أي مجموعة بيانات أخرى.
المعلومات السياقية: على عكس مجموعات البيانات النموذجية متعددة الوسائط، التي تحتوي على تسمية توضيحية واحدة فقط لكل صورة، تتضمن WIT معلومات تتضمن سياقات على مستوى الصفحة وعلى مستوى القسم.
كيانات العالم الحقيقي: ويكيبيديا، كونها قاعدة معرفية واسعة، غنية بكيانات العالم الحقيقي الممثلة في فريق التكنولوجيا والابتكار.
مجموعة اختبارات صعبة: في أعمالنا الأخيرة التي تلقيناها في EMNLP، أظهرت جميع النماذج الحديثة أداءً أقل بكثير في WIT مقارنة بمجموعات الاختبار التقليدية (على سبيل المثال، انخفاض بحوالي 30 نقطة في الذاكرة).

مجموعة تدريب عالية الجودة ومؤشر تقييم صعب

إن التغطية الواسعة للمفاهيم المتنوعة في ويكيبيديا تعني أن أنظمة التقييم الخاصة ببرنامج المرأة والتكنولوجيا تعمل كمعيار صعب، حتى بالنسبة للنماذج الحديثة. لقد وجدنا أن متوسط درجات الاستدعاء من مجموعات البيانات التقليدية كانت حوالي 80 بالمائة، في حين أعطت مجموعة اختبار تحسين التكنولوجيا نتائج حوالي 40 بالمائة في اللغات ذات الموارد الجيدة وحوالي 30 في اللغات ذات الموارد المنخفضة. نأمل أن يساعد هذا بدوره الباحثين في بناء نماذج أقوى وأكثر قوة.

مجموعة بيانات WIT والمنافسة مع ويكيميديا وكيجل

بالإضافة إلى ذلك، يسعدنا أن نعلن أننا نتعاون مع Wikimedia Research وبعض المتعاونين الخارجيين لتنظيم مسابقة باستخدام مجموعة أدوات اختبارات الذكاء. نحن نستضيف هذه المسابقة في كاجيل المسابقة عبارة عن مهمة استرجاع نص الصورة. بالنظر إلى مجموعة من الصور والتسميات التوضيحية النصية، تتمثل المهمة في استرداد التسميات التوضيحية المناسبة لكل صورة.

لتمكين البحث في هذا المجال، أتاحت ويكيبيديا صورًا بدقة 300 بكسل وحلقات صور مستندة إلى Resnet-50 لنطاق التدريب على اختبار قاعدة البيانات. ستستضيف Kaggle جميع بيانات الصورة بالإضافة إلى مجموعة بيانات WIT نفسها. علاوة على ذلك، سيتمكن المنافسون من الوصول إلى منتدى مناقشة Kaggle لمشاركة التعليمات البرمجية والتعاون. فهو يسمح لأي شخص مهتم بالنمذجة ببدء التجارب وإجرائها بسهولة. نحن متحمسون ونتطلع إلى ما ستنشئه مجموعة بيانات WIT وصور Wikipedia على منصة Kaggle.

لأية أسئلة، يرجى الاتصال wit-dataset@google.com. نود أن نسمع كيف تستخدم مجموعة بيانات فريق تحسين التكنولوجيا." ويستنتج الباحثون.

رابط لسلسلة البيانات على جيثب

للبحث العلمي

المزيد عن الموضوع على موقع العلوم: