تغطية شاملة

مساعدة الذكاء الاصطناعي: شاهد "Lost"

التحدي التالي لمحترفي البرمجيات هو فك تشفير الفيديو والصور، الأمر الذي سيؤدي إلى ثورة حقيقية

تحليل الصور. الصورة: خوان هوو، جامعة إدنبرة
تحليل الصور. الصورة: خوان هوو، جامعة إدنبرة

إسرائيل بنيامين

تتم مشاهدة أكثر من مليار مقطع فيديو على موقع مشاركة مقاطع الفيديو YouTube يوميًا، أي أكثر من مليار مقطع فيديو كل ثانية. ومن بين أمور أخرى، لديها مئات الأفلام التي تعزف فيها القطط على البيانو، أو تتداخل مع الآخرين الذين يعزفون على البيانو، أو "تعلق" على الأفلام التي تظهر فيها القطط وآلات البيانو الأخرى، أو تنتقل فقط إلى أصوات الموسيقى... يبدو الأمر كما يلي: إذا نشأت صناعة بأكملها حول أفلام القطط عمومًا وأفلام القطط التي تلعب بشكل خاص، وكانت لهذه الأفلام جمهور كبير: ففيلم نورا، القطة المغنية، على سبيل المثال، تمت مشاهدته ما يقرب من عشرين مليون مرة. إذا كان الأمر كذلك، فإن عشرات الملايين من المتصفحين يقومون بتحميل الأفلام ومشاهدة الأفلام على هذا الموقع وحده، وبالطبع هناك العديد من المواقع الأخرى المخصصة لمحتوى الفيديو.

كيف يصل متصفحي إلى مثل هذه الأفلام؟ وتتلخص إحدى الطرق في البحث عن فيلم عن طريق كتابة استعلام في محرك بحث، والحقيقة أن محرك البحث على موقع يوتيوب يأتي في المرتبة الثانية بعد جوجل في عدد طلبات البحث التي يتلقاها (ما يقرب من أربعة مليارات استعلام في أكتوبر/تشرين الأول 2009). يعمل محرك البحث بطريقة مختلفة تمامًا عن الطريقة التي يتذكر بها الشخص مقاطع الفيديو التي شاهدها.

سوف يتذكر الشخص ما حدث في الفيلم؛ ما ظهر الناس والحيوانات والأشياء؛ كيف كان الجو (على سبيل المثال: فكاهي، درامي)؛ والعديد من التفاصيل الأخرى. لا يشير محرك البحث إلى محتوى الفيديو على الإطلاق، بل يشير فقط إلى النص المرفق بالفيديو، مثل عنوان الفيلم والوصف الذي قدمه الشخص الذي قام بتحميل الفيلم على الموقع. لذلك فإن الباحث عن القطط (كما ذكرنا يتبين أن هناك الكثير منها) سيواجه أحيانًا نتائج غير ذات صلة بالنسبة له، مثل تلك المتعلقة بالموسيقار كات (كات) ستيفنز، ومن المحتمل ألا تظهر الأفلام ذات الصلة على الإطلاق في نتائج البحث.

وهذا نتيجة قيد معروف: على الرغم من عدم وجود بديل لقدرة شبكات الكمبيوتر العالمية على تخزين ومشاركة المحتوى المرئي، إلا أن هذا المحتوى غير شفاف من وجهة نظر الكمبيوتر، الذي يمكنه تخزينه ونقله ولكن لا "يفهم" ذلك. يعد "الفهم"، في هذا السياق، متطلبًا متواضعًا نسبيًا - إنشاء وصف لفظي يحدد الأشياء التي تظهر في الفيديو نفسه، أو العثور على محتوى مرئي يتوافق مع وصف لفظي معين.

هذا الوضع على وشك التغيير. يتم استثمار الكثير من الجهد في فهم مقاطع الفيديو والصور وهي تحقق بالفعل نتائج واعدة. تعد التطورات التالية بتغيير كبير، وليس فقط في تحسين تجربة المستخدم في البحث عن أفلام مضحكة عن القطط: فكما سنرى لاحقاً، سيؤدي فك تشفير الفيديو إلى ثورة قد تكون أكبر وأهم من الثورة التي أحدثتها القدرة على البحث عن النص على شبكة الإنترنت.

مسابقات الرؤية الحاسوبية

لدى المجتمع الكبير من الباحثين الذين يتعاملون مع تحليل المعلومات المرئية العديد من قنوات الاجتماعات والتعاون المتاحة، بما في ذلك بعض المسابقات. دعونا نذكر اثنين منها: أحد التحديات في مسابقة Pascal VOC (الرابط في العمود الجانبي) يتطلب من البرامج المتنافسة الإجابة على أسئلة مثل "هل يوجد حصان في الصورة؟" إذا كانت الإجابة إيجابية، حدد موقع الكائن المحدد - في هذا المثال، مطلوب رسم مستطيل يحتوي على الحصان في الصورة.

ومن بين فئات الكائنات العديدة التي يجب أن يحددها البرنامج أيضًا "الزجاجة"، و"الدراجة النارية"، و"البقرة"، و"طاولة الطعام"، و"الأريكة"، و"الوعاء"، و"التلفزيون". في مسابقة TRECVID (الرابط في نهاية العمود)، والتي يديرها المعهد الوطني الأمريكي للمعايير والتكنولوجيا (NIST)، يوجد تحدي مماثل للتعرف على الكائنات حيث تتضمن فئات الكائنات، من بين أمور أخرى، "مفترق طرق" و"رجل يلعب" و"لاعب كرة قدم" و"الفصل الدراسي".

التحدي الآخر هو البحث، خلال مئات الساعات من الفيديو الذي التقطته الكاميرات الأمنية، عن المقاطع التي تطابق تعريفات مثل "شخص يركض"، و"أشخاص يعانقون"، و"شخص يقف بجوار مصعد تفتح أبوابه لكنه لا يدخل". ". وتتضمن المسابقة أيضًا تحدي البحث ضمن مقاطع الفيديو عن موضوعات مثل "شيء يحترق"، و"يد ترسم أو تكتب"، و"طريق يُرى من الزجاج الأمامي لسيارة متحركة"، وتحدي اكتشاف النسخ: العثور على مقاطع فيديو. والتي من المحتمل أن تكون منسوخة من مصدر آخر.

تقام هذه المسابقات وما شابهها كل عام منذ عدة سنوات، وهناك اتجاه لتحسين النتائج في التحديات المتكررة كل عام، بالإضافة إلى اتجاه لإضافة المزيد من التحديات الصعبة كل عام. تساهم المسابقات، وخاصة نشر المقالات الأكاديمية التي تصف الأساليب والأدوات التي يستخدمها المتنافسون، بشكل كبير في التقدم في هذا المجال.

التعلم المستقل

ومن أجل فك تشفير مقاطع الفيديو، يستخدم المطورون مجموعة كبيرة من الأدوات، معظمها يأتي من مجال الرؤية الحاسوبية: العثور على ملامح أجزاء من الصورة، وربط الخطوط بالأشياء، وفصل الكائنات عن الخلفية، وتحليلها القوام (الألوان والأنماط) لأجزاء مختلفة من الصورة، وتحديد القرائن ثلاثية الأبعاد (على سبيل المثال، عندما يخفي كائن جزءًا من كائن آخر)، والعديد من التقنيات الأخرى. وتضاف إلى هذه التقنيات أدوات لتحليل الأصوات الموجودة في مقطع الفيديو، وذلك جزئيًا بهدف التعرف على الكلمات المنطوقة فيه.

منذ زمن طويل، أصبح من الواضح أنه في مثل هذه البرامج يجب أن يكون هناك عنصر مركزي للتعلم: على سبيل المثال، يصعب على مطوري البرامج تحديد شكل الحصان رياضيًا، ولكن من الممكن برمجة الكمبيوتر للعثور على مثل هذا الشكل. تعريف بحد ذاته من خلال التعلم: إذا قمنا بتغذية الكمبيوتر بما يكفي من صور الخيول (وبالطبع ما يكفي من الصور التي لا تتضمن الحصان) وقمنا بإنشاء برنامج تعليمي مناسب، فإننا نتوقع أن يتعلم الكمبيوتر بنفسه ما هو الحصان يكون. أثناء هذه العملية، يقوم البرنامج بإجراء عدد كبير من الحسابات الرقمية لكل صورة، وبالتالي إنشاء مجموعة من الأرقام التي تميز أجزاء مختلفة من الصورة.

قد تتضمن هذه الخصائص الرقمية الموضع والحجم النسبي للأجزاء الفرعية من العظم المحددة في الصورة، وملمس الأجزاء الفرعية، وحركة العظم بأكمله، وحركة أجزاء من العظم بالنسبة إلى الأجزاء الأخرى. هذا هو المكان الذي يلعب فيه برنامج التعلم دوره ويبحث عن الخصائص المشتركة في معظم صور الخيول والتي تكون غائبة عن معظم الصور التي لا تظهر فيها الخيول.

هذا الوصف تبسيطي للغاية، بالطبع، ويتجاهل العديد من المشكلات: الاختيار الصحيح للخصائص العددية، والتعامل مع زوايا رؤية مختلفة لنفس الكائن (يبدو الحصان مختلفًا إذا نظرت إلى أوراق الشجر من الأمام أو من الجانب، على سبيل المثال) ، أحجام مختلفة (حصان يملأ الصورة بأكملها أو جزء صغير منها فقط)، كائنات مخفية أو مقطوعة بحدود الصورة (على سبيل المثال صورة يظهر فيها رأس الحصان فقط)، الاختلافات داخل الفئة (كيف سيفهم الكمبيوتر أن كل من فصيلة روتويللر وتشيهواهوا ينتميان إلى فئة "كلب"؟)، والمزيد.

إن الحاجة إلى التعلم ليست مفاجئة: فحتى البشر يتعلمون التعرف على معظم الأشياء من أمثلة كثيرة وليس من غرائزهم المتأصلة (قد تكون لدينا قدرة فطرية على التعرف على "الأشياء الشبيهة بالثعبان"، لكننا بالتأكيد لا نملك القدرة الفطرية على ذلك التعرف على السيارات). يدرك منظمو المسابقة ذلك ويقدمون مجموعة كبيرة من نماذج الصور ومقاطع الفيديو. عادة، سيتم إدخال بعض الصور في عملية التعلم، بينما سيتم استخدام جزء آخر لاختبار أداء البرنامج بعد التعلم.

مصادر مقاطع الفيديو "التعليقية".

تخلق عملية التعلم طلبًا على مجموعات كبيرة من الصور والأفلام التي يتم إرفاق "التعليقات" بها: تمامًا كما يتعلم الطفل الصغير التعرف على سيارة من العديد من الأحداث حيث يعرضون له السيارات ويقولون "هذه سيارة"، كذلك فإن برنامج التعلم يحتاج إلى وضع العلامات على الأشياء والإجراءات في الصور والأفلام. توجد بالفعل مثل هذه المستودعات المستخدمة للتعلم والمسابقات مثل تلك المذكورة، ولكن مجتمع البحث الكبير والنشط "متعطش" للمزيد والمزيد من الصور ومقاطع الفيديو ذات العلامات.

قرر البروفيسور بن تاسكار (تاسكار) من جامعة بنسلفانيا تعليم الكمبيوتر مشاهدة المسلسلات التلفزيونية الشهيرة (انظر الروابط في نهاية المقال للحصول على تقرير ومقال تقني) لإشباع نهم البرامج التعليمية. وتضمن أحد المصادر التي استخدمها حوالي مائة حلقة من المسلسل التلفزيوني "Lost" و"CSI".

تحظى هذه المسلسلات بالعديد من المعجبين، ويقضي البعض وقتًا طويلاً في تحميل النصوص والترجمات على الإنترنت. إن عمل هؤلاء المعجبين يجعل من الممكن ربط المتحدثين في كل لحظة من الفيلم: على سبيل المثال، يمكن لمجموعة من النص من نص فيلم "Lost" والترجمة أن توفر المعلومات التي تسألها كيت في ثانية معينة "إذن ما الذي يمنع" أنت؟" فيجيب جاك: «نحن لسنا متوحشين يا كيت. حاليا لا." من هذا فمن المعقول أن نفترض أن الوجوه التي شوهدت في الثواني التي سبقت وبعد ظهور التسميات التوضيحية المناسبة تشمل وجهي جون وكيت.

إن سلسلة طويلة من التحليلات الخوارزمية، والتي تتضمن، من بين أمور أخرى، التركيز على الوجوه وتحديد اللحظات التي تتحرك فيها الشفاه، تؤدي إلى دقة عالية في تحديد المتحدثين: عندما يُطلب من الكمبيوتر تحديد الشخصيات الثمانية الأكثر شيوعًا فقط، فمن الضروري خطأ 6٪ فقط من الوقت. عندما يكون المطلوب تحديد 32 حرفًا تكون نسبة الخطأ 13%.

وماذا بعد؟

تخيل مستقبلاً يتم فيه عرض كل مقطع فيديو على الإنترنت وتحليله بواسطة محركات بحث من الجيل الجديد: محركات بحث الفيديو، جنبًا إلى جنب مع قاعدة البيانات الضخمة للفيديو المتاحة على مواقع مثل YouTube، ومع كاميرات الفيديو التي تغطي بالفعل أجزاء كبيرة من الفيديو. الفضاء العام. يمكن استخدام عمليات البحث هذه من قبل العلماء الذين يضعون كاميرات في الغابات للبحث عن الأنواع النادرة، ولكن بنفس الطريقة، يمكن لجمهور المعجبين أيضًا تلقي رسالة في كل مرة يتم فيها التقاط أحد المشاهير أمام الكاميرا.

سيتمكن الآباء المعنيون من التحقق مما إذا كان طفلهم المفقود قد تم التقاطه بواسطة كاميرا أمنية، وستكون الشرطة قادرة على تلقي تنبيه تلقائي عندما "ترى" الكاميرا أي نشاط عنيف. سيحصل علماء الأنثروبولوجيا وعلماء الاجتماع على أدوات بحثية كمية ونوعية مبتكرة (على سبيل المثال، مقارنات ثقافية للمسافات بين المتحدثين أو الاستجابة لحدث غير عادي)، وسيتم استدعاء الفرق الطبية على الفور إلى المكان الذي سقط فيه شخص ما أو حيث وقع حادث. حصل.

من ناحية أخرى، ستتمكن الأنظمة الشمولية من تحديد المظاهرات العفوية أو الأنشطة الأخرى المشتبه في تقويض النظام، وتوجيه البرنامج لتتبع المشاركين وتوسيع دائرة المشتبه بهم عن طريق إضافة أولئك الذين يلتقون بالمشاركين في الأنشطة المشبوهة. هذه القائمة هي مجرد لمحة بسيطة عما قد يحدث في المستقبل.

واستنادًا إلى انتهاك الخصوصية الذي أصبح بالفعل نتيجة حتمية لمحركات البحث الموجودة، ومعدل التقدم في تحليل الفيديو، يبدو أن هذا المستقبل قد أصبح قريبًا بالفعل، بجوانبه الواعدة والمهددة. دعونا على الأقل نعزي أنفسنا بحقيقة أن العثور على فيلم مضحك عن القطط سيكون أسهل مما هو عليه الآن...

يعمل Israel Binyamini في ClickSoftware لتطوير أساليب التحسين المتقدمة.

קישורים

تعليقات 11

  1. لدى Google تقنية تسمح لك بالتقاط صور للكتب، وهي تحدد نوع الكتاب وتقترح مكان شرائه عبر الإنترنت.
    هناك أيضًا شركة تسمح لك بتصوير الأشخاص والعثور على هوياتهم على Facebook.

    المستقبل يبدو مخيفا

  2. إلى إيال:

    يعتمد مستوى دقة خوارزميات رؤية الكمبيوتر على عدة عوامل.
    تتضمن هذه العوامل عدد الكائنات التي سيتم اكتشافها (ستكون الخوارزمية أكثر نجاحًا في التمييز بين كائنين بدلاً من 2 كائنًا)، وجودة الصورة، وكمية المعلومات (الكائنات الأخرى) والتشويش في الصورة.
    هناك عامل آخر يتعلق بـ "كمية التعلم" المطلوبة للخوارزمية قبل أن تتمكن من التعرف عليها. كلما زاد عدد الأمثلة التي يتم عرضها على الخوارزمية في مرحلة التعلم، كلما زاد نجاحها في مرحلة الكشف.
    النجاح التجاري لخوارزميات الرؤية الحاسوبية حتى الآن يكمن في المهام المستهدفة (مثل التعرف على الوجوه، والتعرف على الممرات أو المركبات، والتعرف على التهجئة) ولا يزال الطريق إلى القدرة على الرؤية مثل طفل يبلغ من العمر عامين حلماً بعيد المنال.

    التقنيات في مجال التعلم الحسابي متنوعة. تعد الشبكات العصبية أحد الأساليب ولكن على حد علمي كان هناك "ضجيج" كبير حولها في السنوات الماضية والآن تغير الوضع قليلاً. التقنيات التي أعرفها هي Support Vector Machines، والشبكات الافتراضية، وطرق إحصائية أخرى مثل Adaboost

    إذا كنت شخصًا برمجيًا - فهناك مكتبة رؤية حاسوبية مكتوبة بلغة c++ تسمى Opencv ومكتوبة فيها العديد من الخوارزميات، من بين خوارزميات أخرى، تلك التي تتيح التعرف على الكائنات الموجودة في الصورة.

  3. شكرًا ميشال، لقد قمت بالاطلاع على الروابط الموجودة أسفل المقالة، ويبدو أن هناك بالفعل برامج يمكنها التعرف بشكل جيد جدًا على الكلاب والقطط والعناصر الأخرى في الصورة. اسمع، هذه الأشياء مذهلة بكل بساطة، وقدرات لم تكن موجودة إلا كانت تعتبر القدرة الحصرية للبشر حتى وقت قريب، وفجأة أصبحت البرمجيات قادرة على القيام بذلك. يوما بعد يوم، أقدر تنبؤات راي كورزويل أكثر فأكثر، وهي تنبؤات تبدو أكثر واقعية مع مرور الوقت.

  4. إيال:
    ومازال الموضوع قيد التحقيق والمقال الحالي يشهد على ذلك. تهدف المسابقات المذكورة فيه إلى تشجيع الأشخاص على تطوير المعرفة ومشاركتها في هذا المجال.
    يشير الرابط الذي قدمته أيضًا إلى أن العرض التوضيحي عبر الإنترنت للاستخدام من قبل عامة الناس لا يزال قيد التطوير.

  5. هذا غير صحيح.
    إنه مثل الجدال بأن الطفل (الذي يتمتع بذكاء طبيعي) يتكون من العديد من الخبراء.
    بالطبع، هذا أيضًا لا ينتمي إلى سؤال إيال، فهو لم يسأل عن الذكاء الاصطناعي بشكل عام، بل عن جزء محدد جدًا من التعرف على الصور (شيء لا يتم تنفيذه على الإطلاق باستخدام نظام خبير، من ناحية، والتي لديها بالفعل إنجازات مثيرة للإعجاب - من ناحية أخرى)

  6. إلى الأيل،

    تكمن مشكلة الذكاء الاصطناعي في عدم القدرة على بناء حواسيب ذات قدرات موازية،
    كما يستطيع العقل البشري .

    كل ما يتم تطويره حتى الآن،
    إنها "برامج متخصصة" وليست ذكاءً اصطناعيًا حقًا.

    لكتابة برامج الذكاء الاصطناعي الحقيقية،
    من الضروري توحيد عدد كبير من البرامج المتخصصة في نظام واحد،
    والتي يمكنك من خلالها استخدام بيانات البرنامج الخبير.

  7. شكرا، يبدو مذهلا! هل هناك برامج تعرف كيفية التمييز بين الكلب والقط ويمكن تنزيلها على جهاز كمبيوتر في المنزل ومقارنتها بالصور العشوائية من Google؟ أود حقا التحقق من ذلك.

  8. سؤال لإسرائيل بنيامين، هل هناك بالفعل برامج حاسوبية تعرف كيف تفرق بين صورة كلب وصورة قطة؟

    أعلم أن من يحب انتقاد موضوع الذكاء الاصطناعي وإظهار أن هذا الموضوع يتخبط في مكانه ولا يتقدم في أي اتجاه، يحب دائما أن يلدغ ويقول إن هذه البرامج لا تعرف حتى كيف تفرق بين صورة كلب وصورة قطة، وهي مهمة يمكن لأي طفل يبلغ من العمر 2-3 سنوات القيام بها بسهولة.

    فهل مثل هذه البرامج موجودة بالفعل؟ ما هو مستوى الدقة في تحديد النسب المئوية؟

    وهل تعتمد على الشبكات العصبية أم على طرق أخرى؟

    شكرا لك، وسأكون ممتنا للغاية للإجابة.

ترك الرد

لن يتم نشر البريد الإلكتروني. الحقول الإلزامية مشار إليها *

يستخدم هذا الموقع Akismat لمنع الرسائل غير المرغوب فيها. انقر هنا لمعرفة كيفية معالجة بيانات الرد الخاصة بك.