تغطية شاملة

جهاز كمبيوتر يقرأ الشفاه

يعمل العلماء في جميع أنحاء العالم على تطوير برامج حاسوبية يمكنها قراءة الشفاه - كما في "Space Odyssey" - مع قدرة على فك التشفير أفضل حتى من قدرة قارئ الشفاه البشري

إسرائيل بنيامين، مجلة "جاليليو".

في فيلم "2001 A Space Odyssey" هناك مشهد حيث يشك رواد الفضاء في أن الكمبيوتر HAL، الذي يتحكم في السفينة، يعرض حياتهم للخطر. يستطيع الكمبيوتر رؤيتهم وسماعهم في كل مكان تقريبًا على متن السفينة، لكنهم يجدون مكانًا تعمل فيه الكاميرات فقط، وهناك يتحدثون عن الموقف. إنهم لا يعرفون أن الكاميرات تسمح للكمبيوتر بقراءة شفاههم. بعد فترة وجيزة، قُتل أحد رواد الفضاء في حادث غريب، واضطر رائد الفضاء الآخر إلى تفكيك HAL للبقاء على قيد الحياة.

هل يمكن لجهاز الكمبيوتر الذي يقرأ الشفاه أن يشكل تهديدًا حقيقيًا؟ اتضح أن الإجابة، على الأقل بالنسبة لبعض الناس، هي نعم. وفي إنجلترا، بدأ فرع التطوير العلمي التابع لوزارة الداخلية برنامجًا بحثيًا مدته ثلاث سنوات مع جامعة إيست أنجليا (إيست أنجليا) وجامعة ساري (ساري)، يهدف إلى تطوير آلات يمكنها تحويل لقطات الفيديو تلقائيًا للأشخاص الذين يتحدثون في نص يحتوي على الكلمات المنطوقة. وتهدف وزارة الداخلية من هذا التعاون إلى دراسة إمكانية استخدام هذه التكنولوجيا لمكافحة الجريمة.

ويحدث أن لدى الشرطة صوراً للمشتبه بهم من مسافة بعيدة، ومن المستحيل سماع ما قيل فيها. وتستخدم الشرطة أحياناً خبراء في قراءة الشفاه، لكن محامي الدفاع نجح في عدة قضايا في التشكيك في قدرات الخبراء والتقليل من أهمية شهادتهم. وتأمل وزارة الداخلية أن تصبح تكنولوجيا قراءة الشفاه أكثر موثوقية وأن ينظر إليها على أنها أكثر موضوعية، وبالتالي زيادة عدد الإدانات وإبعاد المجرمين عن المواطنين الملتزمين بالقانون. بطبيعة الحال، من السهل وصف سيناريوهات التهديد التي تسمح للحكومات بالاستماع إلى المحادثات في أي مكان، باستخدام الكاميرات التي تغطي بالفعل مناطق عامة واسعة.

الجميع يقرأ الشفاه

يمكن استخدام قراءة الشفاه ليس فقط لاكتشاف الأسرار ومحاربة الجريمة. في الواقع، نحن جميعًا نقرأ الشفاه إلى حد كبير، كما يثبت تأثير ماكغورك. يظهر التأثير عندما تشاهد مقطع فيديو حيث ينطق شخص مقاطع معينة، ولكن يتم "لصق" صوت المقاطع الأخرى على الموسيقى التصويرية للفيديو. بالنسبة للمشاهدين، يبدو كما لو تم تشغيل صوت ثالث، وهو في المنتصف: على سبيل المثال، عندما يكون المقطع المصور هو "ga" والمقطع الصوتي هو "bah"، فإننا نميل إلى سماع "da".

هناك أوهام تختفي بعد شرح التأثير، لكن تأثير ماكغورك يبقى حتى بعد مشاهدة الفيديو عدة مرات، بينما نسمع فقط ونرى فقط: بمجرد أن نعود إلى النظر والاستماع، سيعود المقطع إلى نطق "دا" . بالطبع، يدرك معظمنا أهمية قراءة الشفاه حتى بدون حيل تحرير الفيديو: فالميل إلى النظر إلى وجه الشخص الذي نتحدث معه لا يرجع فقط إلى الأدب، بل يتعزز عندما يكون الأمر أكثر صعوبة. للاستماع - على سبيل المثال، في غرفة صاخبة، أو مع أشخاص يعانون من ضعف السمع.

لذلك، يمكن للمرء أن يفكر في استخدامات قراءة الشفاه المحوسبة في المواقف التي لا يكون فيها فهم الكلام المحوسب كافيًا، كما هو الحال في الأماكن الصاخبة. إن تقنية التحكم في الكمبيوتر من خلال الكلام موجودة بالفعل، بل إنها مدرجة في أنظمة تشغيل أجهزة الكمبيوتر الشخصية.

ومع ذلك، لم يتم استخدامه على نطاق واسع - ربما لأنه حساس للضوضاء، وربما لأن الآخرين حساسون للضوضاء التي قد يسببها مثل هذا الاستخدام. "الاتصال الصوتي" الموجود اليوم في العديد من الهواتف المحمولة لا يحظى بشعبية أيضًا، ربما لنفس الأسباب. إذا كان الأمر كذلك، فربما يمكن فهم "الكلام الهادئ" (تحريك الشفاه دون إصدار أصوات) باستخدام كاميرا متصلة بجهاز كمبيوتر أو هاتف. يمكن أيضًا استخدام قراءة الشفاه، كما هو الحال مع العديد من الأشخاص، كأداة تدعم الآلية الرئيسية للتعرف على الكلام، كما اقترحت شركة إنتل في عام 2003.

فهم الكلام

وهناك برنامج من شركة Synface مصمم لضعاف السمع الذين يتحدثون في الهاتف، ويظهر لهم شخصية افتراضية تتحرك شفاههم حسب الأصوات المسجلة. وفي عام 2004، أجريت تجربة بهذه التقنية، وتبين أن الجمع بين السمع على الهاتف ومشاهدة حركات الشفاه للشخصية الافتراضية ساعد 84% من المشاركين ضعاف السمع على إجراء المحادثات الهاتفية بشكل طبيعي.

على عكس Synface، ينصب التركيز في مشروع اللغة الإنجليزية على فهم الكلام. يقوم Synface "بتحريك" شفاه الوجه المعروض على الشاشة بطريقة تتوافق مع المقاطع التي يتم سماعها، دون أن يتطلب ذلك تحديدًا دقيقًا لتلك المقاطع ودون أي محاولة للتعرف على الكلمة المنطوقة. بهذه الطريقة، يبذل Synface جهده الرئيسي على الفهم الطبيعي للمستمع. من ناحية أخرى، فإن هدف المشروع الإنجليزي هو إنشاء نسخة نصية من المحادثة التي تم التقاطها بالكاميرا، وبدون مساعدة فك التشفير البشري - وهو تحدٍ أكبر بكثير.

لماذا يعد هذا تحديًا كبيرًا؟ ويبدو أننا إذا عرفنا سلسلة القوافي التي ينطق بها المتحدث، فكل ما علينا فعله هو ربطها بالكلمات، وهي مهمة قد تبدو سهلة للوهلة الأولى. في الحقيقة الأمر ليس كذلك. سنذكر فقط بعض الأسباب: أولاً، من المتوقع حدوث اختلاف كبير في ترميز الكلمات الخاصة بحركات الشفاه لدى المتحدث (الاختلاف الناتج عن اختلاف اللهجات أو عادات التحدث أو مجرد التحدث بسرعة - فمن المعروف أن الصوت و تعتمد حركات الشفاه المستخدمة للتعبير عن أي مقطع لفظي على المقاطع المنطوقة قبل هذا المقطع وبعده). من المتوقع أيضًا حدوث أخطاء ناتجة عن محدودية جودة الصورة وفك تشفير الصورة.

ونتيجة لذلك، غالبًا ما تختلف المقاطع التي تم فك تشفيرها عن المقاطع التي ينوي المتحدث نطقها. ثانيا، في الكلام العادي لا يوجد فاصل بين الكلمات، وبدون تحديد بداية ونهاية كل كلمة هناك احتمالات كثيرة لفك تشفير كل تسلسل من المقاطع (كما لو كنا نطبع هذه المقالة دون استخدام مسافات وبدون أحرف نهائية) . لفك الكلمات، من الضروري الجمع بين عدة مستويات من التفكير وفك التشفير في وقت واحد، والتي تشمل، من بين أمور أخرى، فهم سياق المحادثة والكلمات التي من المحتمل أن تقال فيها. وللاقتناع بذلك، يكفي أن نتخيل قراءة سلسلة من الكلمات العشوائية من القاموس، وتفحص درجة نجاح قراء الشفاه الخبراء في فك رموز النص: حتى في ظل أفضل الظروف، ستظهر أخطاء كثيرة في مثل هذا الإملاء. ستظهر المزيد من الأخطاء إذا تم نطق مقاطع عشوائية لا تربط أي كلمات.

تعد قراءة الشفاه أكثر صعوبة من فك تشفير الكلام الصوتي: على سبيل المثال، في معظم اللهجات الإنجليزية، حركات الشفاه في الجملة "حيث توجد حياة، يوجد أمل" هي نفس حركات الشفاه في الجملة "أين صابون اللافندر". ويتطلب الاختيار بين الخيارات فهمًا عميقًا للمواقف التي يمكن أن تقال فيها كل جملة.

ولا تزال قدرات أنظمة الذكاء الاصطناعي اليوم بعيدة عن هذا الفهم، على الرغم من إمكانية الاستعاضة عنها أحيانًا بأدوات إحصائية واحتمالية متقدمة (انظر "الكاهن والذكاء الاحتمالي"، "جاليليو" 69)، تساعد على اختيار فك التشفير الصحيح وفقًا لذلك. لتكرار كل كلمة على حدة، وتكرار الكلمات المركبة، واحتمال ظهور الكلمات أو المجموعات في مواقف معينة. على سبيل المثال، السؤال عن صابون اللافندر مناسب لمحادثة في محل عطور أكثر من محادثة في موقف الحافلات، خاصة إذا لم يتم ذكر الصابون في جمل أخرى في تلك المحادثة.

ولذلك، فإن فك تشفير المحادثة في محطة الحافلات ممكن، ولكنه سيحصل على تقدير احتمالي أصغر. في النهاية، سيتم عرض بعض "المداولات" الخاصة بالبرنامج على الشخص الذي يقرأ مخطط المحادثة، لذلك هنا أيضًا نبذل بعض الجهد على الذكاء الطبيعي. وهذا لا يختلف عن عمل أجهزة التسجيل، التي، على الرغم من أنها تتمتع بذكاء طبيعي، فإنها في كثير من الأحيان لا تعرف ما يكفي عن سياق المحادثة والمعرفة والافتراضات المشتركة بين المحاورين. لذلك، يضطرون أحيانًا إلى تقديم عدة خيارات فيما يتعلق بالكلمة التي قيلت، حتى عندما لا يجد المتحاورون أنفسهم، أو أي شخص أكثر دراية بخلفية تلك المحادثة، صعوبة على الإطلاق في تحديد تلك الكلمة.

التحديات والفرص

في الماضي، تم طرح برامج قراءة الشفاه بالفعل، لكن معظمها كان يتطلب ظروفًا بيئية مثالية وظروف تصوير، مثل الإضاءة المناسبة وتوجيه الوجه مباشرة نحو الكاميرا. أما المشروع الإنجليزي فهو أكثر طموحا بكثير، حيث يجب عليه تجنب هذه القيود لتحقيق أهدافه. وبشكل يعكس مستوى التحدي الذي يواجهه، يعرّف الدكتور ريتشارد هارفي (هارفي)، مدير المشروع، البحث بأنه "تجريبي للغاية".

ومع ذلك، سيتمكن هارفي من استخدام الأعمال العديدة التي تم إنجازها في هذا المجال، مثل مقال "تتبع الرأس ثلاثي الأبعاد لنظام قراءة الشفاه المحوسب"، بقلم غاريث لوي وشركائه، والذي تم أخذ الشكل المرافق لهذا العمود منه، والذي يُظهر تتبع موضع الرأس والفم طالما أن الوجه مائل بزاوية لا تزيد عن 30 درجة بالنسبة للكاميرا.

عند مواجهة ظروف تصوير غير مثالية، يتطلب الأمر عدة خطوات معالجة حتى قبل محاولة فك حركات الشفاه: من الضروري تحديد مكان الأشخاص في الصورة، وتحديد موضع الرأس، والتركيز على منطقة الشفاه، ومتابعة حركات الرأس أثناء التحدث، والتعرف قدر الإمكان على تأثير الظلال والأشياء المعتمة، ومعالجة الصورة بطريقة تحيد قدر الإمكان جميع الحركات (ما عدا حركات الشفاه أنفسهم) وتغييرات الإضاءة. سيتم نقل هذه المعلومات إلى عملية تحديد المقاطع التي ينطقها المتحدث. مثل هذه العمليات، كما سبق وصفها، هي عمليات احتمالية، بحيث ترتبط كل حركة بعدة "تخمينات" محتملة فيما يتعلق بالمقطع الذي تم نطقه، وكل تخمين سوف يرتبط باحتمال.

والخطوة التالية هي محاولة تجميع هذه التخمينات من أجل فك تشفير متسق للكلمة المنطوقة بأكملها - وهو ما يتطلب أيضًا إنشاء فرضيات متسقة حول النقاط الزمنية التي تنتهي فيها كلمة واحدة وتبدأ كلمة جديدة. يمكن لهذه الفرضيات بدورها أن توجه عملية فك تشفير المقاطع التالية أو تؤدي إلى تغيير في تقدير الاحتمال للمقاطع التي تم فك تشفيرها بالفعل. هذا بالطبع هو المزيج الكلاسيكي من "من أسفل إلى أعلى" و"من أعلى إلى أسفل" (من أسفل إلى أعلى ومن أعلى إلى أسفل) المعروف أيضًا في علم النفس المعرفي وأبحاث الدماغ وغيرها من مجالات الذكاء الاصطناعي.

إحدى الموارد التي ستساعد المطورين هي المعرفة الواسعة المتراكمة بالفعل حول فك تشفير الكلام: توجد أيضًا عملية التحديد الاحتمالي للمقاطع (بتعبير أدق، تحديد الصوتيات: الصوت هو وحدة أساسية للنطق يمكنها التمييز بين الكلمات (أي أن استبدال صوت بآخر يحول كلمة واحدة إلى كلمة مختلفة) وإنشاء عمليات فك تشفير متماسكة باستخدام قاموس الكلمات الموجودة وتكرارها.
بعيدًا عن استخدامات الشرطة، التي يمكن اعتبارها مساهمة في تحسين حياة المواطن الصادق ولكنها أيضًا تهديد لخصوصيته، ما الذي سيصبح ممكنًا - للأفضل أو للأسوأ - إذا كان لدينا برنامج يمكنه القراءة شفه؟

سيكون المؤرخون قادرين على استخدام هذا للبحث في أرشيفات الأفلام الصامتة، وخاصة "الأفلام المنزلية" التي تم تصويرها بين عامي 1920 و1970، والتي لم يتضمن معظمها تسجيلًا صوتيًا (أفيد مؤخرًا أن قراءة الشفاه بالكمبيوتر للأفلام التي ظهر فيها هتلر) تم تصويره في منزله في جبال الألب خلال الحرب العالمية الثانية؛ وعثر البرنامج، من بين أشياء أخرى، على مقطع يعبر فيه هتلر عن اشمئزازه تجاه هيرمان جورينج).

سيحاول القائمون على التسويق تحديد الاتجاهات والآراء بناءً على لقطات فيديو من الكاميرات التي سيتم وضعها على المواقع المزدحمة. سيحاول الصحفيون معرفة ما يقوله السياسيون حقًا عندما يتم إغلاق الميكروفون (تذكر التصريحات التي التقطتها الميكروفونات والتي لم يقصدها المتحدثون، من السياسيين الإسرائيليين وغيرهم من السياسيين)، وسيجد "المصورون" طريقة جديدة لغزو خصوصية المشاهير. مع كل هذا، كما ذكرنا في بداية العمود، سيتم فتح قنوات جديدة للوساطة بين الناس وبين الناس وأجهزة الكمبيوتر والاتصالات.

نُشرت أصلاً في مجلة "جاليليو".

تعليقات 3

ترك الرد

لن يتم نشر البريد الإلكتروني. الحقول الإلزامية مشار إليها *

يستخدم هذا الموقع Akismat لمنع الرسائل غير المرغوب فيها. انقر هنا لمعرفة كيفية معالجة بيانات الرد الخاصة بك.