تغطية شاملة

المحادثات مع الآلات

واليوم بالفعل، تتحدث البرامج مع الأشخاص وتقودهم إلى مطعم أو إلى العنوان الذي كانوا يبحثون عنه أو إلى اجتماع في المكتب. ولكن لا يزال هناك حد لما يُسمع، ويمكن أن يؤدي سوء الفهم إلى فشل محرج وحتى خطير

الدماغ الاصطناعي: رسم توضيحي ويكيبيديا. رخصة CC (انظر الرابط إلى المصدر في أسفل الصفحة)
الدماغ الاصطناعي: رسم توضيحي ويكيبيديا. رخصة CC (انظر الرابط إلى المصدر في أسفل الصفحة)

إسرائيل بنيامين جاليليو

أم وابنها الصغير يصلان إلى العيادة، ويتم الترحيب بهما عبر شاشة الكمبيوتر. تظهر شخصية أنثوية على الشاشة تمثل البرنامج الذي يستقبل ما يلي. ويبدو أن وجه الشخصية يوجه نظره إلى الأم ثم إلى الطفل، وتتحرك الشفاه بالتنسيق مع الصوت الصادر من مكبرات الصوت: "مرحبا. أنا على اتصال مع أفضل الأطباء في العالم. هل أنت هنا من أجلك أم من أجل الطفل؟"

هذا عرض توضيحي تم تطويره بواسطة مجموعة أبحاث Microsoft للطريقة التي يمكن بها إدارة المراكز الطبية في المستقبل (انظر هنا). ومن الجدير بالذكر أن البرنامج أدرك أن شخصين اقتربا من بعضهما البعض، ووضع رأس كل شخص، وبناء على الاختلافات في الارتفاع قرر أن أحدهما كان طفلا. ولخلق إحساس بالتفاعل، يغير الوجه تعابيره واتجاهه حسب ما يقال.

تقول الأم "الطفل. إنه مصاب بالإسهال"، وترد الشخصية التي تمثل البرنامج: "يؤسفني سماع ذلك". ثم توجه نظرها إلى الطفل، وتتعرف على اسمه وعمره وتتأكد مع الأم من استيعاب المعلومات بشكل جيد، ثم تسأل الطفل "هل شعرت بالتعب مؤخرًا؟" ويستمر البرنامج في طرح المزيد من الأسئلة ذات الصلة بالشكوى، من بينها: هل ظهرت آلام في المعدة أو حمى؟ هل فقد الطفل وزنه مؤخرًا؟ يستخدم البرنامج كلمات مناسبة للشخص الموجه إليه. وبعد أن تسأل الأم: "هل اشتكى من آلام في المعدة؟" وإذا لم يكن متأكدا، فإن البرنامج يسأل الطفل "هل معدتك تؤلمك يا عزيزي؟" وأخيراً أخبرت والدتها أنه لا يوجد سبب للقلق، وحددت موعداً مع الطبيب في اليوم التالي.

المساعد الذي يمكنه التنبؤ بموعد انتهاء المكالمة الهاتفية

تم تطوير هذا العرض التوضيحي من قبل مجموعة إريك هورفيتز (هورفيتز)، وهو عالم في مايكروسوفت، لتوضيح إمكانية التفاعل بين البشر والآلات التي تشبه البشر وتتحدث مثلهم. بالقرب من مدخل مكتب هورفيتز يوجد برنامج مماثل يعمل كنوع من المساعد الشخصي: عندما يصل الزائر، يمكن للبرنامج أن يخبره ما إذا كان هورفيتز متفرغًا، في اجتماع أو يتحدث على الهاتف. ويمكنه أيضًا التنبؤ بموعد انتهاء المكالمة الهاتفية، باستخدام، من بين أمور أخرى، سجل المكالمات الهاتفية الأخرى التي أجراها هورفيتز مع نفس الشخص، ونشاط هورفيتز أثناء المكالمة الحالية. (هل يستخدم الكمبيوتر أثناء ذلك؟)

قد يبدأ البرنامج أيضًا محادثة صغيرة مع الزائر، مذكرًا إياه متى وفي أي سياق التقى بهرويتز آخر مرة، ويسأله عما إذا كان قد شاهد آخر مباراة هوكي لفريق المدينة. إذا طال الانتظار، فإنها تعرف المحادثات التي يمكن مقاطعتها (سمح هورويتز للبرنامج بمقاطعة محادثاته مع المديرين التنفيذيين في Microsoft...) ومتى يحتاج هورويتز إلى التركيز الكامل، على سبيل المثال عندما يتحدث إلى شركاء في بحثه.

المرأة التي تطوعت للمساهمة بوجهها في هذا البرنامج تعمل في شركة مايكروسوفت، وفي بعض الأحيان تقابل أشخاصًا يتعرفون عليها من الشاشة المجاورة لمكتب هورفيتز. تقول إن ذلك يسليها عادةً، ولكن عندما تم استخدام نفس الوجه أيضًا في لعبة معلومات بسيطة تم إعدادها في كافتيريا المبنى، شعرت بعدم الارتياح عندما تغلبت عليها شخصيتها الافتراضية في الإجابة على الأسئلة المقدمة...

يجمع بين تعابير الوجه ويغير لهجة ومعدل الكلام

يوضح البرنامج الذي تم تطويره في مختبر هورويتز مزيجًا من التمثيل المرئي للوجوه الناطقة مع تفاعل اللغة البشرية. يضيف الوجه المصداقية والملموسية للمحادثة، كما يتيح محتوى جديدًا للتواصل غير اللفظي من خلال التحكم في تعبيرات الوجه المحوسبة واتجاه النظرة. إلى جانب التطورات الأخرى في مجال التواصل غير اللفظي والتي تشمل استخلاص الاستنتاجات من نبرة الصوت وتعبيرات الوجه للمشاركين من البشر في المحادثة، وإضافة السلوكيات الإنسانية إلى الكلام المحوسب (تنوع النغمة - نغمة وسرعة الكلام ، وهي عبارة عن مزيج من النطق غير اللفظي مثل "ah" و"hmm..")، تؤدي هذه التطورات إلى وصول المحادثات مع الآلات إلى مستوى عالٍ من النجاح، على الأقل في استخدامات معينة.

أظهرت الدراسات أنه كلما زاد عدد الميزات الإنسانية التي يتضمنها البرنامج، كلما تم تلقي الرسالة التي ينقلها بشكل أفضل. كانت التوصيات المتعلقة بالقضايا الصحية أكثر فعالية عندما قدمت من قبل روبوت موجود فعليًا في الغرفة، وأقل من ذلك عندما قدمت من خلال مقطع فيديو لذلك الروبوت، وحتى أقل من ذلك عندما قدمت من خلال صورة ثابتة للروبوت الذي تتحرك شفاهه فقط.

وحتى بدون هذه التطورات، فإن تكنولوجيا التفاعل المعنية قد حققت بالفعل إنجازات مثيرة للإعجاب. منذ عدة سنوات، أتاحت هذه التكنولوجيا لعميل شركة الطيران الاتصال والقول لمشغل الكمبيوتر: "أريد مقعدين في الدرجة الاقتصادية على متن رحلة بعد غد من دنفر إلى شيكاغو"، حتى لو اختار طلبًا مختلفًا. كلمات، تردد، تكرار، وما إلى ذلك (إذا لم يتم فهم أي كلمة أو إذا لم يشر العميل إلى تفاصيل مهمة، فسيقوم البرنامج بإرشاده بأسئلته).

اليوم، لا يتطلب البرنامج التثبيت على خوادم كمبيوتر كبيرة وسريعة: فالجيل الجديد من نظام الترفيه والاتصالات SYNC، الذي تقوم فورد بتثبيته في بعض السيارات التي تنتجها، قادر على فهم مجموعة واسعة من الأوامر: اختيار عنوان بقول أشياء مثل "أقرب مطعم إيطالي" أو "شارع 14 الجادة السادسة، نيويورك"، متبوعة بـ "خذني إلى هناك"؛ اختيار الموسيقى التي يمكن سماعها على الراديو أو استرجاعها من المحتوى المخزن في السيارة عن طريق نطق اسم قناة الراديو، أو أغنية (أو فنان، أو تسجيل)؛ واستعلامات مثل "آخر النتائج الرياضية" أو "أسعار الوقود". تتوفر هذه الإمكانيات بالعديد من اللغات - الإنجليزية (الولايات المتحدة والمملكة المتحدة)، والفرنسية (الأوروبية والكندية)، والإسبانية، والبرتغالية (الأوروبية والبرازيلية)، والألمانية، والإيطالية، والهولندية، والصينية الماندرين.

حتى أنهم يفهمون الرومانسية

مثال آخر على البرامج التي يتم تنشيطها عن طريق الاستعلامات الصوتية هو Siri، وهو تطبيق لأجهزة iPhone. لا يقوم تطبيق Siri بفك تشفير ما يقال بنفسه: فهو يسجل الطلب ثم يرسله إلى خوادم الكمبيوتر التابعة لشركة Nuance (الشركة التي طورت تقنية SYNC). تقوم أجهزة الكمبيوتر هذه "بترجمة" ما يقال إلى نص يتم إرساله إلى خوادم الكمبيوتر الخاصة بشركة Siri، وتقوم هذه الأجهزة بالخطوة التالية: تخمين مستنير لنية المتحدث وتنفيذ طلبه.

إذا كان الطلب هو "حجز مكانين في مطعم رومانسي على مسافة قريبة من منزلي ليوم غد في الساعة الثامنة مساءً"، فسيشير البرنامج إلى مواقع الويب التي تتعامل مع قائمة المطاعم وتقييمها، وتصفية المطاعم حسب الموقع (يعرف Siri مكان وجود حياة المستخدمين وما يعتبر "مسافة سيرًا على الأقدام")، وابحث عن المطاعم في وصفها أو تظهر كلمة "رومانسي" في مراجعات المتصفحين. بعد ذلك، ستقوم بالتحقق، بالنسبة للمطاعم التي استوفت هذه المعايير، من إمكانية إجراء الحجز في اليوم والوقت المطلوبين، وذلك من خلال التواصل مع المواقع التي توفر خدمة الحجز.

في هذا الوصف يمكنك أن ترى كيف يتم تقسيم العمل بين أجهزة الكمبيوتر والبرمجيات، كل منها تديره شركة مختلفة وفي نماذج أعمال متنوعة، مع الاستفادة من حقيقة أنها جميعها متوفرة في "سحابة" الإنترنت- الخدمات القائمة.

البرمجيات الهشة

كما هو الحال مع الأشخاص، فإن البرنامج الموصوف هنا قادر أيضًا على ارتكاب الأخطاء. ذكر مقال في صحيفة "نيويورك تايمز" أن أحد مستخدمي سيري طلب إجراء حجز في مطعم ياباني معين، لكن سيري أخطأت في فهم اسم المطعم ووجهته إلى خدمة مرافقة متخصصة في الفتيات الآسيويات (أقسم المستخدم على ذلك) مراسل الصحيفة أن هذا لم يكن في نيته).

ومن الممكن أن تكون عواقب سوء الفهم أكثر خطورة، خاصة عندما يصل النظام إلى حدوده القصوى. لنتخيل شخصًا يتصل بنظام الكمبيوتر الخاص بشركة الطيران ويطلب نقل البضائع من نيويورك إلى لندن: كلب متوسط ​​الحجم. إذا كان البرنامج لا يعرف أن هذا ليس طلبًا عاديًا، فقد يشير فقط إلى حجم ووزن الطرد دون الرجوع إلى الظروف البيئية المطلوبة للكلب، والقوانين التي تنظم إدخال الحيوانات إلى إنجلترا، وما إلى ذلك. من الممكن أنه حتى المسؤول البشري لن يعرف ما هي العملية المطلوبة، لكنه سيعلم بالتأكيد أن هذه حالة غير عادية، ويجب تحويلها إلى رعاية الشخص المناسب في شركة الطيران. من الصعب جدًا على برامج اليوم معرفة متى تتجاوز حدود قدرتها وفهمها.

إن خاصية النظام الذي يعمل بنجاح في مناطق معينة ولكنه يفشل دون سابق إنذار خارج تلك الحدود تسمى "الهشاشة" أو "الهشاشة". ويصبح هذا القيد أكثر خطورة كلما زادت ثقتنا بهذا النظام: عندما تكون طبيعة النظام الحاسوبية واضحة وبارزة، كما هو الحال في الحوار الهاتفي من نوع "للطلبات اضغط 1، للاستفسارات اضغط 2"، المستخدم البشري. يطور توقعات منخفضة ويحرص على عدم تجاوز حدود البرنامج (هو بالطبع لا يعرف الحدود بالضبط، لكنه عادة ما يقلل توقعاته إلى ما هو أبعد بكثير مما هو مطلوب). كلما أصبح التفاعل أكثر طبيعية ومريحة، كلما كان من الأسهل نقل عبء التفاهم والحذر إلى النظام. وفي هذا الصدد، فإن البرامج التي تفهم وتستخدم تغيرات النغمات والتعبير عن المشاعر في الكلام وتعبيرات الوجه وما إلى ذلك قد تجعل الشخص الذي يقف أمامها يعاملها كما لو كان إنسانًا أيضًا.

تشرح هذه المشكلات لماذا يكون البرنامج الذي ذكرناه في بداية الأمر والذي يعمل بمثابة سكرتير طبي مجرد توضيح: ماذا سيحدث إذا أخطأ البرنامج عندما حدد موعدًا للفحص في اليوم التالي، ولم يقم بذلك التعرف على الحالة التي تتطلب العلاج الفوري؟ إذا ارتكب البرنامج خطأ وأدى إلى نتائج سلبية، فمن المسؤول قانونا عن الأضرار - المبرمج؟ الطبيب الذي قدم المعرفة للبرنامج؟ الطبيب الذي قام بتثبيت البرنامج في مكتبه؟

كلما كان البرنامج أكثر إقناعًا ونجاحًا، زادت أهمية مساهمته. ولسوء الحظ، قد تكون المخاطر المرتبطة بفشل البرامج أكبر أيضًا. وللتغلب على هذه العوائق، قد لا تحتاج البرمجيات إلى استخدام المنطق فحسب، بل إلى التفكير أيضًا. وهذا بالطبع هو التحدي الأكبر والأبعد مدى في مجال الذكاء الاصطناعي بأكمله.

يعمل Israel Binyamini في ClickSoftware لتطوير أساليب التحسين المتقدمة

تم نشر المقال كاملا في مجلة جاليليو عدد أكتوبر 2010

رابط لمصدر الصورة

ترك الرد

لن يتم نشر البريد الإلكتروني. الحقول الإلزامية مشار إليها *

يستخدم هذا الموقع Akismat لمنع الرسائل غير المرغوب فيها. انقر هنا لمعرفة كيفية معالجة بيانات الرد الخاصة بك.