تغطية شاملة

تحديد الهوية المحوسبة

ويعمل الباحثون في مجال الذكاء الاصطناعي على إمكانية تعليم أجهزة الكمبيوتر كيفية التعرف على البلد الأصلي للشخص من خلال تحليل لهجته

يتحدثون لغات مختلفة (أو لا) المستشارة الألمانية أنجيلا ميركل وحاكم كاليفورنيا أرنولد شوارزنيجر في معرض سيفيت 2009. الصورة: العلاقات العامة
يتحدثون لغات مختلفة (أو لا) المستشارة الألمانية أنجيلا ميركل وحاكم كاليفورنيا أرنولد شوارزنيجر في معرض سيفيت 2009. الصورة: العلاقات العامة

إسرائيل بنيامين مجلة جاليليو

يمكننا في كثير من الأحيان تخمين البلد الأصلي للشخص بعد سماعه يقول بضع كلمات فقط. مثل العديد من القدرات البشرية، تحظى هذه القدرة الآن باهتمام باحثي الذكاء الاصطناعي، الذين يهدفون إلى تعليم أجهزة الكمبيوتر كيفية التنافس مع مهارات التعرف على السلالة البشرية.

ومؤخراً، قدم مختبر لينكولن التابع لمعهد ماساتشوستس للتكنولوجيا (MIT) برمجيات تخطو خطوة مهمة في هذا الاتجاه. يمكن للبرنامج، الذي تم تطويره بواسطة بيدرو توريس-كاراسكيلو (توريس-كاراسكيلو) وشركاؤه في مجموعة تكنولوجيا أنظمة المعلومات في مختبر لينكولن، التمييز بين أزواج لهجات البيانات. على سبيل المثال، الإنجليزية بلكنة "All-American" مقابل الإنجليزية بلكنة هندية، أو الإسبانية المولودة في كوبا مقابل الإسبانية المولودة في بورتوريكو.

وفقًا لتوريس كراسكيلو، يعد هذا البرنامج الأول الذي ينجح في التمييز تلقائيًا بين اللهجات المختلفة في نفس اللغة (على عكس البرنامج الذي يوفر تحليلًا لعينات الكلام لخبير بشري لمساعدته على التمييز بين اللهجات). ويعد هذا الإنجاز خطوة أخرى في التقدم الكبير الذي تم إحرازه في السنوات الأخيرة في التعرف التلقائي على اللغة المنطوقة. المشكلة المقابلة - تحديد اللغة التي كتب بها النص - أسهل، وهناك العديد من الحلول لها. ومن الأمثلة على هذه البرامج برنامج TextCat، الذي يهدف إلى التعرف على 69 لغة مختلفة من النص المكتوب، بما في ذلك اليديشية والويلزية والتاميلية. ومن استخدامات هذه الحلول في محركات البحث، مساعدة المستخدم في البحث عن نصوص بلغة معينة أو تقديم ترجمة إلى لغة المستخدم.

نماذج اللغة

يستخدم TextCat تقنية تسمى "N-Gram". من الممكن باستخدام هذه التقنية توصيف الخصائص الإحصائية لنص ما في لغة معينة عن طريق حساب احتمال ظهور سلسلة من الحروف بطول N، لبعض قيم N، عن طريق مسح النصوص النموذجية في تلك اللغة. عندما يكون N = 1، فإن الاحتمال يعبر عن تكرار الحروف في اللغة المحددة. على سبيل المثال، يظهر الحرف q في اللغة الإنجليزية بتكرار حوالي 0.1%، أما في الإسبانية فيبلغ 0.9% وفي الفرنسية 1.4%. لذلك يمكننا استخدام تكرار حرف q في النص الذي نريد تحديده للاختيار بين الفرضيات أن النص مكتوب باللغة الإنجليزية أو الفرنسية أو الإسبانية (وفي بعض اللغات الأخرى المكتوبة بالأبجدية اللاتينية مثل التركية ، ف غير موجود على الإطلاق). وبطبيعة الحال، يمكن أيضا استخدام ترددات الحروف الأخرى بطريقة مماثلة.

التحليل حسب تكرار الحروف له استخدامات عديدة (كما هو الحال في التشفير، كما وصفها إدغار آلان بو في قصته "الخنفساء الذهبية" بالفعل في عام 1843)، لكنه لا يكفي لتحديد اللغات، لأن اختلافات تردد الحروف الفردية في اختلاف اللغات قد لا يكون كافيا للتمييز بين اللغات القريبة

ولهذا الغرض، من الضروري أيضًا استخدام قيم N أعلى: تحليل N=2 يعطي تكرار أزواج الحروف (على سبيل المثال، في اللغة الإنجليزية تردد الزوج "TH" أعلى 15 مرة من تكرار الزوج "HT")، N=3 يتعامل مع ثلاثة توائم من الحروف، وما إلى ذلك. '. كلما زاد حجم N، زاد حجم الجدول التكراري، وأصبحت بعض السلاسل نادرة جدًا بحيث لا يمكن استخدامها في التحليل الإحصائي للنص القصير الذي نريد الاحتفاظ به، لذلك يجب اختيار N بعناية و"ضغط" الجداول لتضمينها. فقط الحالات المفيدة إحصائيا. (ملاحظة: الأبجدية المستخدمة في اللغة الإنجليزية تحتوي على 26 حرفًا، لكن 262 = 676 زوجًا من الحروف وأكثر من 17,000 ثلاثية؛ صحيح أنه ليست كل الخيارات موجودة في اللغة الإنجليزية - على سبيل المثال، فقط u سيأتي بعد q - لكن علامات الترقيم يجب أيضًا مراعاة العلامات، أولاً وقبل كل شيء المسافة الفاصلة بين الكلمات

عندما يتم تحليل مجموعة من النصوص المعروفة بأنها تنتمي إلى لغة معينة باستخدام طريقة مثل N-Gram، يتم الحصول على "نموذج للغة". يفتقد هذا النموذج بالطبع كل ما هو مهم لتلك اللغة بالنسبة إلى اللغوي أو مستخدم اللغة، وبالتأكيد لا يحتوي على أي تلميح لبناء الجملة (ناهيك عن القواعد). ومع ذلك فهو "نموذج كامل" للغة، أي أنه يحتوي على جميع سمات اللغة التي يمكن التعرف عليها من وجهة نظر تكرار حدوث سلسلة من الحروف (وبالتالي يمكن استخدام النموذج ، على الأقل للتسلية، لتوليد نصوص من الجداول التكرارية باختيار الحرف التالي حسب احتمال ظهور كل حرف بعد الحروف التي اخترناها بالفعل، بالنسبة لـ N=4 نحصل عادة على نص تكون العديد من كلماته غير مفهومة، ولكنها مرئية للقارئ البشري على أنها تنتمي إلى اللغة التي تم إنشاء النموذج منها).

وبمجرد إنشاء مثل هذا النموذج لعدة لغات، فمن الممكن التعرف على نص في لغة غير معروفة من خلال تحليل ترددات N-Grams في ذلك النص ومقارنة هذه الترددات مع الترددات التي تعبر عنها النماذج المعروفة لـ "المرشح" اللغات (تلك اللغات التي لدينا نموذج لها). وبما أنه من غير المرجح أن نجد نموذجًا بنفس التكرار تمامًا للنموذج الموجود في النص الموجود أمامنا، فسوف نستخدم أدوات إحصائية لحساب احتمالية توافق النص مع كل لغة من اللغات المرشحة.

تحديد الهوية عن طريق النموذج الجزئي

وفقًا لتوريس-كراسكيلو، فإن الأساليب التي تخلق نموذجًا كاملاً للغة ليست مناسبة لاكتشاف اللهجات. ويشير إلى أن النموذج ليس مطلوبا أن "يشبه البيانات" (بنفس المعنى أن النموذج الذي تم إنشاؤه عن طريق حسابات التردد لسلسلة الحروف "يشبه" النصوص المأخوذة من لغة معينة، وهذا يعني أن النموذج يمثل البيانات الإحصائية خصائص الترددات في تلك اللغة). وبدلا من ذلك، يكفي أن يتمكن النموذج من التمييز بين اللغات، حتى لو كان يستخدم فقط جزءا صغيرا من ميزات كل لغة لهذا الغرض.

على سبيل المثال، أصوات الحروف المتحركة في الإسبانية الكوبية أطول إلى حد ما من الأصوات المقابلة في الإسبانية البورتوريكية. لسوء الحظ، من الصعب جدًا العثور على مثل هذا الاختلاف الوحيد الذي يكون مهمًا بدرجة كافية للتمييز باحتمال كبير بين لهجتين ومشتركًا بدرجة كافية ليكون من المعقول العثور عليه حتى في مقاطع قصيرة من المحادثة. ولذلك لا بد من إيجاد مجموعة من هذه الاختلافات، والطريقة حاليا ليست عامة: فهي تتطلب إنشاء آلية تمييز لكل زوج من اللهجات. هدف الباحثين هو التوصل إلى عملية عامة يمكنها التمييز بشكل موثوق بين العديد من اللهجات.

ويختلف عمل الباحثين من معهد ماساتشوستس للتكنولوجيا عن الدراسات السابقة لنفس المختبر في مجال التعرف على اللغة من حيث أنه يستخدم وحدات صوتية أصغر. قامت الدراسات السابقة بتحليل عينات الصوت على مستوى الصوت (الصوت - وحدة النطق الأساسية) والشكل الذي استخدم فيه الصوت بلهجات مختلفة (أشكال مختلفة لنطق نفس الصوت، بما لا يغير معنى الصوت). الكلمة الدافعة، تسمى allophones). وقياساً على طريقة التعرف على النص المكتوب، تعاملت الدراسات السابقة مع الصوتيات كما لو كانت حروف اللغة المنطوقة، واستهدفت التعرف على اللغات واللهجات من خلال خصائص الصوتيات وسلسلة الصوتيات.

الدراسات الجديدة "تقسم الذرة" وتختار حروفًا أصغر: مقاطع قصيرة، يبلغ طولها بضعة أجزاء من الألف من الثانية، والتي يتم أخذ عينات منها من الكلام. تعمل هذه الطريقة على تحسين القدرة على التمييز بين أشكال النطق المختلفة قليلاً لنفس الصوت (allophones) وتزيد من احتمالية التعرف على اللهجة من خلال مقاطع قصيرة من المحادثة. وكما سنرى لاحقاً، هناك أسباب عملية لضرورة اكتشاف اللهجة في أقرب وقت ممكن أثناء المحادثة.

الجمع بين GMM وSVM

ولاكتشاف طريقة للتمييز بين اللهجات، يتم تحليل العينات القصيرة باستخدام تقنية قياسية في معالجة الإشارات: تحديد الترددات التي تتكون منها كل عينة، بحيث يصبح طيف الترددات المشاركة في العينة نمطا يمثل الأصوات يتم إجراؤها في المحادثة خلال تلك المللي ثانية (تحاول التقنية أيضًا موازنة الاختلافات بين طبقة أصوات المتحدثين المختلفين الذين يتحدثون بنفس اللهجة).

نظرًا لأن كل عينة لها نمط مختلف قليلاً من شدة الترددات التي تتكون منها، فإن القياس على الحروف أبعد ما يكون عن الكمال: فمعظم اللغات لا تحتوي إلا على بضع عشرات من الحروف، وعلى أي حال هناك اختلافات واضحة بين كل منها زوج من الحروف حتى لو كانت مكتوبة بخط مختلف، ولكن كل نمط من الصوت المنطوق يختلف عن أي نمط آخر، ومن الصعب تحديد المكان الدقيق الذي يحد فيه نوع واحد من الأنماط على نوع آخر: التحولات مستمرة. ولذلك، هناك حاجة إلى تقنيات إحصائية ورياضية أكثر تقدمًا من تقنيات مثل N-Gram المستخدمة للتعرف على اللغة المكتوبة.

يستخدم الباحثون في مختبر لينكولن في معهد ماساتشوستس للتكنولوجيا مزيجًا من اثنين من هذه التقنيات، والتي اكتسبت شعبية كبيرة في السنوات الأخيرة: آلات GMM (نماذج الخليط الغاوسي) وSVM Support Vector). تُظهر كلتا الطريقتين كل نمط كمجموعة من الأرقام، لذلك إذا كان 20 رقمًا يمثل كل عينة، فيمكن اعتبار نقطة واحدة في مساحة ذات 20 بُعدًا بمثابة تعبير عن العينة. الهدف هو إيجاد طريقة للتمييز بين النقاط التي تعبر عن عينات من لهجة واحدة والنقاط المرتبطة بلكنة أخرى. ولهذا الغرض، يجب تقسيم المساحة بين المساحات التي تحتوي على نقاط حصرية (أو شبه حصرية) تمثل عينات من لهجة واحدة، وبين مساحات تحتوي على نقاط مرتبطة باللهجة الأخرى.

تختلف GMM وSVM في التمثيل الرياضي للتوزيع المكاني وطريقة حساب التوزيع الأمثل. بالنسبة لهذا البرنامج، تعد طريقة GMM أبطأ ولكنها أكثر دقة من SVM، وقد وجد أن الجمع بين الطريقتين هو الأكثر دقة - وكان مستوى الخطأ 7٪ فقط. أتساءل ما هو معدل الخطأ للخبير البشري ...

الاستخدامات العملية - خصوصية أقل، مزيد من الأمان؟

وكما ذكرنا، ينضم البرنامج الجديد إلى الحلول الحالية للتعرف على اللغة، سواء كانت منطوقة أو مكتوبة. والاحتمال الآخر هو التعرف على اللغة من خلال تسجيلات الفيديو للمتحدثين، حتى بدون تسجيل الأصوات نفسها. برنامج قراءة الشفاه, تم تطويره في جامعة إيست أنجليا (UEA: جامعة إيست أنجليا). يسمح لك بتحديد اللغة المنطوقة. وأشار أحد رؤساء المجموعة التي طورت البرنامج، البروفيسور ستيفن كوكس (كوكس)، إلى أن النتائج تتوافق مع الحدس بأنه حتى عندما يتحدث نفس الشخص لغات مختلفة، فإن حركات وجهه ستكون مختلفة من لغة إلى أخرى. على سبيل المثال، وجد البرنامج أن "تجعيد الشفاه" أكثر شيوعًا عند التحدث باللغة الفرنسية، بينما يتضمن التحدث باللغة العربية حركات لسان أكثر وضوحًا.

وبعيداً عن النجاح الأكاديمي والتقدم في تقليد قدرة أخرى كانت في السابق ملكية حصرية للبشر، فإن مثل هذه البرامج لها أيضاً استخدامات عملية. وترتبط بعض هذه الاستخدامات على الأقل بالمراقبة والتنصت. المثال الأول، الذي ظهر في تقرير صحفي حول برنامج التعرف على اللهجة، يتعلق بضابط شرطة أمريكي يعترض محادثة باللغة الإسبانية حيث كان تاجر مخدرات يتلقى إخطارًا بشحنة جديدة. يدرك الضابط أن المرسل يتحدث الإسبانية بلكنة أمريكا الجنوبية، ولكن إذا تمكن من ربط اللهجة بدولة معينة، فيمكنه استخدام هذه المعلومات لتوجيه المزيد من التحقيقات.

ويشير التقرير الصحفي نفسه أيضًا إلى المساهمة المحتملة للتعرف على اللهجة في أنظمة الترجمة الآلية من لغة إلى لغة، بحيث ترتكب هذه الأنظمة أخطاء أقل في فهم الكلمات وتستفيد من الفروق الدقيقة التي تنتقل بين البشر بمساعدة اللهجة. من الواضح أنه طالما أن أنظمة الترجمة الآلية لا تزال في عالم الخيال العلمي، فإن معظم التمويل والتحفيز لتطوير التعرف على اللهجات سيأتي من مجالات إنفاذ القانون والدفاع ضد الإرهاب.

وبطريقة مماثلة، فإن تحديد لغة المتحدث في لقطات الفيديو، مثل برنامج قراءة الشفاه الذي طورته نفس المجموعة، قد يحدد على الكاميرات الأمنية (التي تغطي تدريجياً أجزاء كبيرة من الفضاء العام) أشخاصاً ذوي خصائص عرقية لا تختلف عنهم. وترتبط سلطات إنفاذ القانون والأمن بالجماعات الإجرامية والإرهابية، حتى عندما تكون الغالبية العظمى من المنتمين إلى هذه المجموعات العرقية أبرياء من أي جريمة. من ناحية، يعد هذا خطوة أخرى في تعزيز القدرة على حماية الجمهور، ومن ناحية أخرى، يعد اقتحامًا مثيرًا للقلق لخصوصية جزء من هذا الجمهور على الأقل. وفي هذه المعضلة تختار كل دولة لنفسها التوازن الذي يبدو لقيادتها أنه الأصح والأخلاقي، لكن ليس من الواضح على الإطلاق ما إذا كانت القيادة تزود مواطني الدولة بالمعلومات حول عملية اتخاذ القرار ونتائجها.

حتى لو كنا نعيش في عالم مثالي حيث لا توجد تهديدات بالجريمة والإرهاب، فمن المفيد أن نأخذ في الاعتبار أنه في معظم الحالات، فإن حقيقة أننا نتعرف على نظرات الآخرين قد تقودنا إلى استنتاجات نمطية - إيجابية أو سلبية - حول هؤلاء الأشخاص.

وحتى عندما لا يؤدي تحديد الأصل إلى العنصرية، فإن الأمر يتطلب في بعض الأحيان اتخاذ قرار واعي لتجاهل الصور النمطية المقبولة والتركيز على الفرد الذي أمامنا. واليوم، فإن معظم تعاملاتنا مع أجهزة الكمبيوتر والبرامج لا تعرضنا لهذا الخطر، كما يعبر عن ذلك الرسم الكارتوني الذي نرى فيه كلبًا يجلس أمام شاشة الكمبيوتر ويقول لصديقه "على الإنترنت، لا أحد يعرفك". هم كلب". ومع ذلك، فمن الممكن بالفعل العثور في بعض الأحيان على معاملة مختلفة بناءً على الأصل أو الحالة الاجتماعية، مثل مواقع الويب التي ترفض البيع أو تقديم المعلومات لمتصفحي الإنترنت الذين يعيشون في بلدان معينة، أو شركات التأمين التي تعتمد برامجها لتقييم المخاطر على البيانات الاجتماعية والاقتصادية، بما في ذلك مكان الإقامة. هل سيكون من الصحيح أن نعلم أجهزة الكمبيوتر لدينا أيضًا كيفية التعرف على الأصل واللهجة، بطريقة قد تؤدي إلى سلوك يتوافق مع هذا التعرف؟

يعمل Israel Binyamini في ClickSoftware لتطوير أساليب التحسين المتقدمة

תגובה אחת

  1. هاهاها هذا يذكرني بفيلم ماتريكس حيث لا يتحدث العميل سميث بلهجة،
    يليق بالآلة أصواته الإنجليزية كما هو مكتوب. 😉

ترك الرد

لن يتم نشر البريد الإلكتروني. الحقول الإلزامية مشار إليها *

يستخدم هذا الموقع Akismat لمنع الرسائل غير المرغوب فيها. انقر هنا لمعرفة كيفية معالجة بيانات الرد الخاصة بك.