تغطية شاملة

تطوير في مختبرات IBM في حيفا: نظام يقوم بتحليل أفلام الفيديو وتقسيمها إلى مشاهد

وقال دانييل روثمان، الباحث في مجال تحليلات الفيديو في مختبر أبحاث آي بي إم: "تعرف التكنولوجيا كيفية أخذ مجموعة من الخصائص التي يقدمها المستخدم والتي تجعل من الممكن تقسيم الفيديو إلى المشاهد التي يتكون منها". في حيفا

واتسون يوجه الأفلام. الرسم التوضيحي: آي بي إم
واتسون يوجه الأفلام. الرسم التوضيحي: آي بي إم

قام مختبر أبحاث IBM (IBM) في حيفا مؤخراً بتطوير نظام يقوم بالتقاط مقاطع فيديو وتحليلها وتقسيمها إلى مشاهد. وتم تقديم النظام في مؤتمر عقدته الشركة هذا الأسبوع في مختبر الأبحاث التابع لها في حيفا.

وقد جمع هذا الحدث خبراء من الأوساط الأكاديمية ومختبرات IBM والأقسام في Blue Giant التي تقدم خدمات الحوسبة المعرفية.

وبحسب تال دروري، مدير قسم تحليل الوسائط المتعددة في مختبر أبحاث IBM في حيفا، فإن هذه هي السنة الثانية على التوالي التي يتناول فيها المؤتمر الرؤية الآلية، وهذه المرة كان التركيز على تكنولوجيا الفيديو.

وقد وصف دانييل روثمان، الباحث في مجال تحليل الفيديو في هذا المختبر، آلية تقسيم مقطع الفيديو إلى المشاهد التي تتكون منه. "هنا، في المختبر في حيفا، قمنا بتطوير التكنولوجيا التي تعرف كيفية أخذ مجموعة من الخصائص التي يقدمها المستخدم والتي تسمح بتقسيم الفيديو إلى المشاهد التي يتكون منها، وفقا لتلك الخصائص".

وقال إن "البرنامج ذكي بما يكفي "لمشاهدة" كل فيلم وفهم ما بداخله". سواء كان ذلك محادثة TED، وهو مثال بسيط، أو مشاهد أكثر تعقيدًا في الأفلام. على سبيل المثال، في مشهد في أحد أفلام هوليوود، لا تكون المعلومات المرئية هي نفسها طوال الوقت. عندما تقوم بتصوير ممثل ثم ممثل آخر أثناء قيامهما بالحوار، فمن الواضح أن الصور مختلفة تمامًا ولكنها لا تزال نفس المشهد. ثم يمكن أن يحدث شيء مختلف تمامًا، وهدف الخوارزمية هو القدرة على استخدام المعلومات لإجراء تقسيم دلالي للمحتوى.

وأشار دروري إلى أن "تقسيم الفيديو إلى مشاهد مختلفة يمكن استخدامه كوحدة بناء لأشياء كثيرة - البحث عن المشاهد والتخطي بينها والمزيد. هناك العديد من الخوارزميات التي تقوم بتحليل الفيديو وعندما يكون غير متجانس، فإنها تواجه مشاكل. إن النظام الذي يعرف كيفية منحهم شريحة متجانسة يجعل التصنيف أسهل."

وأظهر روثمان كلامه بمقطع فيديو طويل يصف إجازة، حيث يسافر الناس في جزء منها في الصحراء، وفي جزء آخر في البحر، وفي الجزء الثالث - في الغابة. وقال: "عندما تقسم الفيلم إلى مشاهد مختلفة، يصبح من الأسهل وصفه".

التطبيقات التي تتيحها تحليلات الفيديو

وكان أحد المتحدثين في هذا الحدث هو بالج جاك، رئيس قسم ذكاء الأعمال في خدمات الفيديو السحابية لشركة IBM. ووصف كيف أن إجراء تحليلات الفيديو باستخدام السحابة يمكّن من تطوير التطبيقات الذكية، والتي ستوفر، على سبيل المثال، إمكانية البحث عن المحتوى ذي الصلة في مقاطع الفيديو.

تم إنشاء قسم Jakages من عمليتي استحواذ لشركة IBM تم إجراؤهما في شهرين متتاليين - Clearapp، الذي تم شراؤه في ديسمبر الماضي، وUstream، الذي تم إجراؤه في يناير والذي جاء منه إلى العملاق الأزرق.

وصف جاك التطبيقات التي يتم إنشاؤها داخل شركة IBM، والتي يمكنها التعرف تلقائيًا على المشاهد باستخدام الحوسبة المعرفية، وأخذ عينات من موقف الجمهور تجاه ما يظهر في الفيديو.

وقال درور بورات من مختبر IBM في حيفا، والذي كان من بين منظمي المؤتمر، إنه "مع زيادة قدرات واتسون المعرفية والحوسبة السحابية، يمكن استخدامها لاكتساب المزيد من الأفكار حول البيانات التي كانت حتى الآن بمثابة ثقب أسود". بالنسبة لنا - بيانات الفيديو. في مؤتمر Wow الذي عقدته شركة IBM منذ حوالي أسبوعين في لاس فيجاس، ذكر العديد من المتحدثين أن الفيديو هو المجال الأسرع نموًا على الإنترنت وأنه خلال خمس سنوات تقريبًا سيشكل حوالي 80% من حركة مرور الشبكة. ومع ذلك، فإن جودة البحث في الفيديو لا تزال تعتمد بشكل أساسي على البيانات التي يقدمها القائمون على تحميله، والتي تقدم في كثير من الحالات بيانات مقتضبة وفي حالات أخرى لا تقدم أي بيانات على الإطلاق.

وأشار بورات إلى تطور آخر لمختبرات IBM في حيفا يعتمد على الحوسبة المعرفية والذي تم تقديمه في المؤتمر – نظارات الواقع المعزز، التي تجعل من الممكن التعرف على الأشياء. "ومن بين التطبيقات المثيرة للاهتمام لهذا التطور: الفني الذي يرتدي نظارات ذكية وينظر إلى آلة أو جهاز يحتاج إلى صيانته، ويرى على الفور في مجال الرؤية زيادة في البيانات، والتي يمكن أن ترشده خطوة بخطوة حول كيفية لخدمة الجهاز. على سبيل المثال، الأسهم التي توضح له أي جزء من الآلة يحتاج إلى الإصلاح وكيف ينبغي عليه القيام بذلك".

كشفت شركة IBM النقاب عن الخدمات السحابية للتعرف على الفيديو وتحليله وتخصيصه

تتيح الخدمات الجديدة، التي تعتمد على Watson، للمؤسسات استخلاص الرؤى من محتوى الفيديو، من أجل تقسيم الجمهور إلى شرائح وتخصيص تجربة المشاهدة لكل عميل

قدمت شركة IBM خدمات جديدة في مجال تكنولوجيا الفيديو، والتي تعتمد على نظامها الحاسوبي المعرفي Watson، في مؤتمر WOW (World Of Watson) الذي عقد مؤخرا في لاس فيغاس. تسمح الخدمات للمؤسسات باستخلاص الأفكار من محتوى الفيديو المتاح لها، من أجل تقسيم الجمهور وتخصيص تجربة المشاهدة لكل عميل.

إن كمية محتوى الفيديو المتوفرة على الإنترنت في تزايد مستمر، ولكن الغالبية العظمى من هذا المحتوى لا يمكن الوصول إليها للبحث باستخدام الأدوات التقليدية، وذلك بسبب الطبيعة غير المنظمة لمحتوى الفيديو، مما يجعل عمليات التطوير والمعالجة والبحث صعبة. تقوم العديد من الشركات بتخزين محتوى الفيديو لأغراض التسويق والتوثيق والتدريب، لكنها غير قادرة على تقديم المحتوى المناسب لجمهور المعرفة المناسب. تعد التكنولوجيا المعرفية هي الخطوة الحاسمة التالية للتنقيب عن البيانات وتحليل المحتوى المعقد الموجود في الفيديو، مما سيسمح للشركات والمؤسسات بفهم هذا المحتوى بشكل أفضل وتزويد المستهلكين بالمحتوى الذي يثير اهتمامهم.

وتقوم الخدمات الجديدة، التي يمكن الوصول إليها من خلال سحابة IBM، بتحليل مقاطع الفيديو التي كانت تتطلب حتى الآن معالجة يدوية. أنها تتيح التحليل في الوقت الحقيقي للأحداث في الفيلم. تجمع الخدمات بين واجهات برمجة تطبيقات Watson (API) وتقنية تدفق الفيديو من IBM، من أجل تتبع التعليقات ومقاطع الفيديو على الشبكات الاجتماعية في الوقت الفعلي تقريبًا، من خلال تحليل المحتوى الذي تم تحميله إليها.

تقوم خدمة التعرف على مشهد الفيديو تلقائيًا بتقسيم الفيلم إلى مشاهد منفصلة، ​​بطريقة تعمل على تحسين عمليات تحديد موقع المحتوى المستهدف وتقديمه. تستفيد التجارب التي أجرتها شركة IBM من التقنيات المعرفية القادرة على فهم الدلالات وأنماط اللغة والصورة، بغرض تحديد جوهر المحتوى والتغييرات في الموضوعات التي يشير إليها الفيديو على مستوى عالٍ. وهكذا، على سبيل المثال، يستطيع النظام بناء حلقات منفصلة من مقاطع الفيديو التي تتعلق بأجزاء مختلفة من المحاضرة أو العرض التقديمي، بطريقة كانت حتى الآن تتطلب المشاهدة بالعين البشرية والنشاط اليدوي.

وبمساعدة الخدمة، يمكنك الحصول على رؤى حول الجمهور. يتم إنتاجها بمساعدة مجموعة من تقنيات الفيديو الخاصة بشركة IBM في السحابة والنظام الأساسي لاستخراج الرؤى من محتوى الوسائط، باستخدام واجهات برمجة Watson. وذلك للمساعدة في تحديد تفضيلات المشاهدين، وذلك من خلال تحليل عادات المشاهدة لديهم على شبكات التواصل الاجتماعي والمشاركات التي يقومون بتحميلها.

ومن الممكن أيضًا تحليل ردود أفعال الجمهور في الأحداث المباشرة، والتي يتم تسجيلها بشكل متزايد بالفيديو في الوقت الفعلي. تجمع الخدمة بين تقنية Watson لتحويل النص إلى كلام وواجهات برمجة تطبيقات Alchemy Language مع تقنية الفيديو من IBM، من أجل توفير المعلومات أثناء الحدث نفسه. تم تصميم هذه التقنية التجريبية لمعالجة الكلام باللغة الطبيعية المتوفرة في لقطات الفيديو، وتحليله مقابل المحتوى الذي رفعه المشاركون في الحدث على شبكات التواصل الاجتماعي، وذلك لتقديم تحليل مفصل لاستجابة الجمهور إلى الحدث المباشر.

ويمكن استخدام هذه القدرة الجديدة لتحسين وضبط الرسائل التي يقدمها المتحدثون على مسرح حدث معين حتى قبل نزولهم منه. وبالتالي، على سبيل المثال، فإن الشركة التي تكشف النقاب عن منتجات جديدة في حدث متعدد المشاركين ستعرف أي من المنتجات أو القدرات تثير الحماس أو الشك في نفس لحظة الكشف عن المنتجات، وتحدد الجوانب التي من الصحيح التركيز عليها.

وُلدت الأدوات الجديدة في قسم تطبيقات الفيديو السحابية، الذي أنشأته شركة IBM في يناير من هذا العام، حيث جمعت قدرات البحث والتطوير الخاصة بها مع أدوات ومعرفة Clearleap وUstream، التي اشترتها الشركة العملاقة الزرقاء.

شاشة نظام تحليل الفيديو IBM. صورة العلاقات العامة
شاشة نظام تحليل الفيديو IBM. صورة العلاقات العامة

تعليقات 2

  1. المقال محدد ولا يتعلق بالثورة التي تحدث الآن (هذه معلومة شعبية وليست رأيي) في مجال الذكاء الاصطناعي.
    منذ عام 2012، حدثت اختراقات، بعضها في الجامعات، وبعضها في IBM في تطوير أجهزة Synapse، وبعضها في الشركات العملاقة GOOGLE، وopenAI التابعة لألون ماسك. يصل الآن الاستشعار والاستدلال بواسطة الخوارزمية إلى دقة تتجاوز دقة البشر في حالات معينة. إن الذكاء الاصطناعي الذي توزعه شركتا GOOGLE وOPENAI يثير التقدير فحسب، بل يثير الخوف أيضًا. على بطاقات الأجهزة مثل مسرعات رسومات الألعاب البسيطة من NVIDIA إلى Synapse من IBM، تستمر حسابات الشبكة العصبية من أسابيع إلى دقائق أو أقل. في المجال النظري، تم إنشاء علم جديد، والذي سرعان ما انتشر كالنار في الهشيم - لقد خرج من بيركلي وستانفورد ومعهد ماساتشوستس للتكنولوجيا: إنه يسمى التعلم العميق. أنه يحتوي على الشبكات العصبية التلافيفية. ويتفق الجميع على أن هذا الاستنتاج المذهل لم يصل إلى الوعي بعد. ولكن أيضًا في هذا المجال، طور الطبيب النفسي جولييلمو تونوني نظرية للوعي تعتمد على نظرية المعلومات الرقمية وبدأ في الإجابة على الأسئلة: متى تصبح الخوارزمية واعية بنفسها، ومتى تبدأ بالقول - أنا خوارزمية، أنا أفهم. بالإضافة إلى ذلك، حاول قياس درجة فهم الشيء. لم يتم قبول عمل تونوني بعد من قبل المجتمع العلمي بأكمله، ولكن من الشائع الاعتقاد بأنه يقدم بعض الأفكار. الموقع يفتقد قليلا للثورة التي تحدث في هذا المجال وهذا مرة أخرى وفقا للخبراء. ليس كل يوم تحدث ثورة. على الفور سيبدأ جميع المتشككين في الاعتراض. الأصدقاء: ما عليك سوى البحث عن التعلم العميق على Google - وسوف تتوصل إلى أي رؤى للاستدلال من صورة يأتي إليها برنامج Google، وما هي لغة البناء من الكتابة على الجدران التي يأتي إليها البرنامج. حتى في الجامعة، يتم تدريس هذه الرياضيات متأخرًا 4 سنوات مقارنة إلى الولايات المتحدة الأمريكية.

ترك الرد

لن يتم نشر البريد الإلكتروني. الحقول الإلزامية مشار إليها *

يستخدم هذا الموقع Akismat لمنع الرسائل غير المرغوب فيها. انقر هنا لمعرفة كيفية معالجة بيانات الرد الخاصة بك.