تغطية شاملة

تعد رؤية الكمبيوتر عنصرًا مهمًا في العصر المعرفي

هذا ما يقوله تال دروري، مدير قسم تحليلات الوسائط المتعددة في مختبر أبحاث IBM في حيفا، في مقابلة مع موقع حدان ضمن ندوة حول الرؤية الحاسوبية، استضافها المختبر

تال دروري، مدير مختبر Multimeia Analytics في مختبر أبحاث IBM في حيفا. صورة العلاقات العامة
تال دروري، مدير مختبر Multimeia Analytics في مختبر أبحاث IBM في حيفا. صورة العلاقات العامة

قبل حوالي أسبوعين، عُقد مؤتمر COGNITIVE COMPUTING COLLOCVIUM في مركز أبحاث IBM في حيفا والذي تناول رؤية الكمبيوتر. تم تخصيص إحدى الجلسات لتحليلات الوسائط المتعددة.

وفي مقابلة مع موقع هيدان، يوضح تال دروري، مدير قسم تحليلات الوسائط المتعددة، أن هذه فترة ازدهار في مجال الرؤية الحاسوبية.
في مختبري نقوم بتطبيقات مختلفة لتحليلات الكمبيوتر. في مجال الرؤية الحاسوبية، نشارك في التصوير الطبي المعرفي (انظر "مساعد أخصائي الأشعة الذي لا يتعب أبدًا )، التصوير الطبي الذي يعرف كيف يأخذ في الاعتبار عناصر من الصور الطبية وكذلك من البيانات الشاملة مثل السجلات الطبية والاختبارات الحديثة والدراسات الطبية وغيرها. والتحدث مع أخصائي الأشعة وإعطاء النتائج والأفكار بلغته.
المجال الآخر الذي نبحثه في المختبر هو التعرف على الأشياء والواقع المعزز. يرتبط الواقع المعزز مباشرة بالحوسبة المعرفية. إذا كانت الحوسبة المعرفية تجعل من الممكن تحسين تفاعل الشخص مع البيئة، فإن الواقع المعزز هو الوسيلة - لأخذ الواقع كما يراه الشخص وإثرائه. مثال على مثل هذا المشروع تطبيق على جهاز محمول يلتقط صورة رف منتج في سوبر ماركت ويثري الواقع بمعلومات عن القيم الغذائية أو الكوبونات أو أي شيء آخر يتطلب من الكمبيوتر التعرف على المنتج وتوفيره البيانات المتعلقة به. ولكن من الممكن استخلاص المزيد من الفوائد من الواقع المعزز في مجال مثل الصيانة: فالفني الذي يأتي لخدمة آلة ويريد أن تكون كلتا يديه حرتين يرتدي نظارات ذكية لبيئة صناعية وبمساعدتهم يرى كلاً من الجهاز الذي من المفترض أن يقوم بخدمته وجميع البيانات المتعلقة بالمكون - الخصائص، وتاريخ آخر خدمة، وما إلى ذلك.' بالإضافة إلى ذلك، يمكن للنظام إرسال استعلام إلى Watson الذي سيشرح من خلال خبرته السابقة كيفية التعامل مع هذا النوع من الاكتشاف.
وتقوم مجموعة أخرى بالتحقيق في مجال المصادقة البيومترية. لنأخذ على سبيل المثال سيناريو تسجيل الدخول إلى الحساب البنكي من الجهاز المحمول. النظام الذي قمنا بتطويره يعرف كيفية تشغيل الفيديو ويطلب من الشخص التحدث إلى الكاميرا ويقول رقم عشوائي - وهذا للتأكد من أنه لا يقوم فقط بوضع صورة أمام الكاميرا، بالإضافة إلى التعرف على الوجه، الصوت وأحيانًا يطلب منه أيضًا التوقيع على الشاشة. تتيح كل هذه الإجراءات توفير مستوى عالٍ جدًا من المصادقة على الأجهزة المحمولة.
"إن مسألة المصادقة البيومترية لها صلة بالعديد من الاستخدامات، حيث أن معظم تفاعلنا يكون من خلال الهاتف وليس من خلال الكمبيوتر الثابت. ومسألة المصادقة مهمة عند الدخول إلى الأنظمة الحساسة. على سبيل المثال، حتى أثناء الزيارة الفعلية للبنك، عندما يرحب بنا الروبوت في البنك وبصرف النظر عن مجرد إلقاء التحية، سيكون أيضًا قادرًا على التحقق من أنه صاحب الحساب بالفعل. وحتى في السيارات الذكية، ستكون هناك حاجة إلى المصادقة عن طريق التعرف على الوجه أو الصوت حتى لا يتمكن من القيام بذلك سوى أولئك المصرح لهم بقيادة السيارة.

جال آشور من مختبر أبحاث IBM في حيفا يعرض نظام تحليل محتوى الفيديو في مؤتمر عقدته الشركة في لاس فيغاس. الصورة: آفي بيليزوفسكي

فجأة يفهم الكمبيوتر بنفسه ما هو موجود في الفيديو
قام جال آشور، مدير مجموعة تكنولوجيا الفيديو ونظم المعلومات الجغرافية في قسم تحليلات الوسائط المتعددة الذي يديره دروري، بتقديم نظام تحليل محتوى الفيديو في مؤتمر عقدته شركة IBM في لاس فيغاس قبل أسبوع. ويهدف التحليل الحاسوبي للمحتوى إلى إثراء المعلومات المتعلقة به وتسهيل البحث فيه. تستخدم مجموعة آشور نظام تشغيل افتراضي خفيف الوزن يُعرف باسم Dockers لتصفح الفيلم واستخراج محتوياته.

وقال عاشور: "لقد أنشأنا بشكل أساسي حلاً نقوم بتحميل الفيديو من جميع أنواع المصادر، بما في ذلك تطبيق الهاتف الذكي الذي كتبناه والذي يسجل الفيديو أثناء القيادة مع بيانات نظام تحديد المواقع العالمي (GPS) لموقع الصورة". "المصدر الآخر هو الفيديو الذي تم الحصول عليه من كاميرات فيديو السيارات (كاميرا لوحة القيادة) وكاميرات GoPro والمزيد".

 

"إن الميزة الأساسية لنظام تحليل الفيديو هي التعرف على النص (على سبيل المثال علامات الطريق)، وتحويله فعليًا إلى التعرف البصري على الأحرف (OCR). وإذا سجل الفيديو تدريباً تنظيمياً، فيمكنه قراءة النصوص الموجودة في العروض التقديمية، وتحديد وقت ظهورها حتى يسهل الوصول إلى هذه النقطة في المحاضرة."

وفي الختام، قال عاشور إنه "في المستقبل سيكون من الممكن أيضًا إضافة ميزة التعرف على الكلام، أو التعرف على الوجوه وربما حتى تسجيل حياتنا وإرفاق البيانات الوصفية بكل ما نراه حتى نتمكن من البحث في المستقبل ومشاهدة الأحداث ذات الصلة مرة أخرى. ولهذا الغرض، يتطلب الكمبيوتر الذي يعالج البيانات قدرة تحليلية."

كمية مقاطع الفيديو كبيرة جدًا وهناك قيمة كبيرة في فهم الكمبيوتر لمحتوى الفيديو للعثور على الفيديو المناسب والجزء المناسب داخل الفيديو وهو أمر مهم جدًا للعديد من التطبيقات.
"المستقبل معرفي حتى في رؤية الكمبيوتر. أن الأنظمة ستساعد الشخص على الفهم بشكل أفضل والتصرف بشكل أفضل. الرؤية هي جزء من التفاعل الأكثر طبيعية للشخص، إذا تمكنا من مساعدة شخص ما من خلال ما نفهمه، فإن فهم السياق هو نظام معرفي. يلخص دروري.

تعليقات 3

  1. لقد كان حضوري للمؤتمر مثيراً ورائعاً، كما أنني أتفق تماماً مع نظرية السيد طال دروري.

ترك الرد

لن يتم نشر البريد الإلكتروني. الحقول الإلزامية مشار إليها *

يستخدم هذا الموقع Akismat لمنع الرسائل غير المرغوب فيها. انقر هنا لمعرفة كيفية معالجة بيانات الرد الخاصة بك.