تغطية شاملة

البحث عن الكلمات في الموسيقى التصويرية للفيديو، والتعرف على صوت المتصلين بالبنوك

سيقام اليوم الحدث السنوي لـ AVIOS Israel، الحدث السنوي السادس في مجال تقنيات الكلام، وقد أجرينا مقابلات مع اثنين من مقدمي التطورات المثيرة للاهتمام له: محرك بحث صوتي ونظام التعرف على الكلام البيومتري

شعار جمعية AVIOS إسرائيل
شعار جمعية AVIOS إسرائيل

اليوم، سيُعقد في RG المؤتمر السنوي لـ AVIOS Israel (مجتمع الإدخال/الإخراج الصوتي التطبيقي)، والذي يجمع الشركات العاملة في مجال التعرف على الصوت والإخراج الصوتي لأنظمة الكمبيوتر. قبل المؤتمر، أجريت مقابلات في نشرة ديلي ميل الإخبارية مع مديري شركتين تعملان على تطوير تقنيات التعرف على الكلام. وننقل هاتين المقالتين إلى قراء موقع المعرفة أيضًا.

البحث عن كلمة في الفيديو

ستقدم NSC في مؤتمر Avius تقنية نقلتها من عالم التجسس ومركز الاتصال إلى جميع مستخدمي الإنترنت - القدرة على العثور على كلمة منطوقة داخل ملف صوتي أو مسار صوت فيديو والانتقال مباشرة إلى القسم ذي الصلة "، يوضح الدكتور عامي مويال، الرئيس التنفيذي للشركة

دكتور عامي مويال، الرئيس التنفيذي لشركة NSC، ماذا ستقدم في المؤتمر؟

"ستقدم NSC (RT Natural Speech Communication) في مؤتمر Avios محرك البحث في الملفات الصوتية: www.snipp.tv يقوم المستخدم بكتابة كلمات البحث ويقوم المحرك بالبحث عنها في ملفات صوتية أو مسارات صوتية لملفات فيديو مفهرسة مسبقاً ويعرض النتائج وهي عبارة عن ملفات تم نطق كلمة البحث فيها. الإنترنت مليء بمحتوى الفيديو، ولكن حتى الآن كانت الطريقة الوحيدة للبحث عنها هي البحث في النصوص المصاحبة - فمن قام بتحميل الملف اختار الكتابة. وعند ظهور نتائج البحث كان من الضروري مشاهدة الأفلام كاملة. نحن نتعامل مع الملف الصوتي كما لو كان ملفًا نصيًا ونستطيع أن نوصل المستخدم إلى النقطة التي تم فيها نطق الكلمة التي كتبها، حتى لو كانت أفلامًا طويلة، وبالتالي يمكن للمستخدم أن يقرر ما إذا كان المحتوى مناسبًا له ".

كيف وصلت إلى هذا التطور المبتكر الذي يبدو أنه مستوحى من أفلام جيمس بوند؟

لقد عملت في مجال التعرف على الكلام منذ ما يقرب من 20 عامًا، وبالنسبة لي فإن تطوير استخدام تقنية التعرف على الكلام في المجالات الأخرى أمر طبيعي. أرى بالتأكيد عملية توسيع استخدام التعرف على الكلام خارج مجال الاتصال بين الإنسان والآلة إلى مجالات أخرى - خاصة على مستوى دمج التكنولوجيا في عالم البحث. منذ تأسيسنا، شاركنا في تطوير محرك التعرف على الكلام. إن تفردنا يكمن في تنفيذ المحرك على خوادم Blades المخصصة. يتيح هذا المحرك معالجة كميات كبيرة من المعلومات في الوقت الفعلي وفي وضع عدم الاتصال، بمجموعة واسعة من اللغات مع أداء التعرف العالي جدًا.

في السنوات الأخيرة، ركزنا بشكل أساسي على البحث عن الكلمات الرئيسية، أي القدرة على العثور على كلمة معينة ضمن مجموعة من الكلام. ومن الطبيعي أن من يستخدم مثل هذه الأساليب هم مؤسسات معينة في السوق الأمنية تسجل المحادثات بكميات كبيرة وترغب في تحليلها تلقائيًا للعثور على المحادثات التي تستحق التركيز عليها. لقد تمكنا من تحقيق أداء جيد حتى في حالة وجود اضطرابات ضوضاء أو تشوهات أخرى للقناة أثناء إجراء التحديد باللغات الفريدة التي يتطلبها سوق الأمان. السوق الثاني الذي يستخدم هذا هو صناعة مراكز الاتصال. تسجل المنظمات المحادثات وتسعى لاستخراج ذكاء الأعمال منها. ومن هنا وصلنا إلى التطوير الذي يعد أبرز ما لدينا اليوم - محرك البحث عن محتوى الوسائط المتعددة على الإنترنت."

كيف يعمل هذا النظام؟

"نظرًا لوجود طوفان من محتوى الفيديو على الإنترنت، فإن محرك بحث tv.Snipp يسمح للمستخدم بكتابة الكلمة كما هو الحال في أي محرك بحث. كل ملف يمر معنا بعملية فهرسة أولية، وبذلك نكون قادرين على عرض نتائج البحث في أقل من ثانية، حتى لو كانت عشرات ومئات من ملفات الفيديو التي قيلت فيها الكلمة. يستطيع النظام استهداف النقطة داخل الفيديو التي تم نطق الكلمة فيها. وبهذه الطريقة، نوفر على المستخدم الحاجة إلى سماع أو رؤية جميع الملفات، ونتيح له عملية بحث سريعة جدًا. لا يزال الموقع في المرحلة التجريبية ونحن نؤمن بشدة بنهجنا وحلنا. لقد قمنا بتحميل ملفات فيديو إلى الموقع من مزودين مهمين بما في ذلك رويترز وفوكس وتريبيون".

هل تقدمت جوجل؟

"عند إطلاق محرك بحث للوسائط المتعددة يعتمد على تقنية التعرف على الكلام، فقد أطلقنا بالفعل موقعًا إلكترونيًا قبل جوجل، ولكن بما أن الجميع في الصناعة يعلمون أنه يجب علينا وضع النظام في عالم البحث في الوسائط المتعددة، فأنا أفترض أن جميع محركات البحث تعمل عليه، ميزتنا هي أن التكنولوجيا تعمل في مجالات أخرى، لذلك أطلقنا الموقع بالفعل. الموقع موجود منذ بضعة أسابيع وبدأ المدونون في أماكن مختلفة بالتعليق عليه وكانت الردود إيجابية ومشجعة، كتب البعض أن موقعنا لا يقدم إجابة لفيضان الفيديو فحسب، بل يقدم أيضًا بحثًا حقيقيًا داخل الفيديو. معدل الزيارات إلى الموقع آخذ في الازدياد."

ما هو التطور القادم؟

"بنظرة شاملة، فإن الحل الذي لدينا مناسب لإجراء بحث في محتوى الوسائط المتعددة في أي سوق يوجد به محتوى الوسائط المتعددة. على سبيل المثال، سوق منتجي المحتوى الذين يمكنهم الحصول منا على خدمات البحث أو خدمات إنشاء العلامات التلقائية لمحتواهم. على سبيل المثال، سوق الشركات الذي سيقوم بتوسيع قاعدة بيانات المحتوى الخاصة به من النص إلى الوسائط المتعددة وسيحتاج بالتأكيد إلى إمكانات لفهرسة محتوى الوسائط المتعددة والبحث فيه.

ومن منظور السوق العالمية، يبدو أن موضوع البحث الصوتي يكتسب زخماً والمرجع هو واجهة صوتية حيث سيقول المستخدم كلمة وسيقوم النظام بالبحث عنها في قاعدة البيانات الخاصة به.

"سيصبح التعرف على الصوت البيومتري جزءًا لا يتجزأ من نظام إدارة المخاطر"

هكذا يقول ألموغ علي راز، الرئيس التنفيذي لشركة PerSay، التي ستقدم في Avios أنظمتها التي تخدم البنوك وشركات الاتصالات ومقدمي الرعاية الصحية والمنظمات الأمنية

كتب ألموغ علي راز، الرئيس التنفيذي لشركة بيرسي، عن الشركة.

"تقوم شركة PerSay بتطوير وتصنيع وتسويق أنظمة التعرف على المتحدثين البيومترية، القادرة على إنتاج التوقيعات الصوتية للعملاء والموظفين. يتم بعد ذلك استخدام هذه التوقيعات الصوتية لتحديد الأشخاص عند الوصول إلى مراكز الخدمة وإجراء العمليات الحساسة. الشركة التي بدأت قبل بضع سنوات كشركة فرعية من شركة Verint، التي طورت التكنولوجيا للمؤسسات الأمنية، توفرها حاليًا للعملاء في المؤسسات المصرفية والاتصالات والرعاية الصحية والمؤسسات الكبيرة التي تستخدمها في تطبيقات مثل إعادة تعيين كلمات المرور و الأجهزة الأمنية والحكومية."

ما هي التحديات التي تواجه تطوير النظام؟

"التحديات هي تحديات خوارزمية. نحن مطالبون بتطوير برمجيات قادرة على معالجة صوت المستخدم وإيجاد خصائصه الفريدة وتمييزه عن الأصوات الأخرى. التحدي الثاني هو بناء نظام قادر على أخذ الخوارزمية التي تعمل في المختبر، وتنفيذها في بيئة تكنولوجيا معلومات معقدة. عندما يكون أصحاب المصلحة في تنفيذ منتج مثل منتجنا في مركز خدمة العملاء بالبنك هم موظفو أمن المعلومات، وموظفو خدمة العملاء، والعمليات، وتكنولوجيا المعلومات، والاتصال الهاتفي، وعادة ما يكونون أيضًا متخصصين في تكامل الأنظمة لأن النظام يحتاج إلى التكامل في بيئة تكنولوجية. وسر نجاح الشركة هو تفوقها في هاتين المعلمتين - دقة تحديد أنظمتها مقارنة بالمنافسين - بشكل رئيسي في العالم، بالإضافة إلى سهولة استيعاب أنظمتها.

ما هي مميزات النظام بالنسبة للمؤسسات التي تستخدمه؟

"تعطي أنظمتنا العديد من القيم المضافة للمؤسسات. أولاً، تعمل على تحسين مستوى الأمان عن طريق إضافة طبقة بيومترية وبالتالي تمكين المصادقة متعددة العوامل. بالإضافة إلى ذلك، فإنها تعمل على تحسين تجربة العملاء من خلال عدم الاضطرار إلى طرح الأسئلة من قبل ممثلي الخدمة أو تذكر كلمات المرور المعقدة. بالإضافة إلى كل هذا، تعمل أنظمة الشركة على تحسين كفاءة المؤسسات من خلال تقصير أوقات الاتصال في مراكز الخدمة وتمكين أتمتة العمليات اليدوية الحساسة مثل إعادة تعيين كلمات المرور. إحدى مزايا تقنية تحديد هوية المتحدث هي حقيقة أنه يمكن تطبيقها عبر جميع قنوات اتصال العملاء مع المؤسسات، ويمكن استخدام هذه التقنية لتحديد الأشخاص الذين يتصلون بمراكز الخدمة، أو يقومون بإجراءات على الإنترنت أو يستخدمون الأجهزة المحمولة. والميزة الأخرى التي تتميز بها أنظمتنا هي أنها لا تعتمد على اللغة أو اللهجة."

هل النظام آمن من المنتحلين؟

"نعم. بالإضافة إلى ذلك، تتمتع الشركة أيضًا بإمكانيات ليس فقط للتحقق من الهوية ولكن أيضًا لتحديد موقع المحتالين في الوقت الفعلي بناءً على المقارنة بقاعدة بيانات التوقيع الصوتي المسجلة مسبقًا. على سبيل المثال، في مركز خدمة أحد البنوك، إذا قام شخص ما بلدغ المؤسسة وتمكن من سحب الأموال من الحسابات وتم تسجيل المحادثات التي أجراها مع البنك، فيمكنك استخدام التسجيل وإنشاء توقيع صوتي سيحدد موقعه في المرة القادمة المكالمات."

من هم عملاؤك؟

"يشمل عملاء الشركة بعض البنوك الرائدة في العالم، وشركات الاتصالات، والمنظمات الأمنية وغيرها، ولكن التركيز ينصب بشكل أساسي على الخدمات المصرفية. لقد قمنا بتطوير مجموعة مخصصة من المنتجات للبنوك التي تتيح التعرف على كلمة المرور الصوتية وأيضًا أثناء المحادثة الطبيعية، على سبيل المثال، مع ممثل الخدمة في البنك. نحن نتصدر هذا المجال في العالم من حيث عدد المنشآت وحجمها. ومن قطاع الاتصالات، يمكننا أن نذكر شركة Bell Canada، على سبيل المثال، اختار أكثر من 750 من عملائها التعريف عن أنفسهم باستخدام كلمة مرور صوتية، وفي العام الأول سجلنا ملايين التعريفات."

ما هو مستقبل تقنية التعرف على الكلام البيومترية؟

"في المستقبل، نرى أن مسألة تحديد هوية المتحدث البيومترية تصبح جزءًا لا يتجزأ من إدارة المخاطر في وصول العملاء إلى المؤسسات. سيكون لكل واحد منا توقيع أو مجموعة من التوقيعات الصوتية التي ستمكن من حماية الخصوصية المثلى والوصول الفعال إلى التطبيقات والخدمات عن بعد."

تم نشر المقالات لأول مرة في نشرة ديلي ميل الإخبارية لمجموعة People and Computers (The People)

تعليقات 6

  1. سيكون هذا فعالاً للفهرسة ولكن ليس في الواقع بالنسبة لكلمات المرور حيث يمكن لأي شخص تسجيلك في مناسبات لا حصر لها ومن ثم استخدام التسجيل

  2. كل من لديه Office 2007 لديه برنامج ONENOTE هناك، والذي، من بين أشياء أخرى، يسمح لك بالتسجيل مباشرة من الميكروفون. يوجد مكون يسمى Microsoft Search 4 يعرف كيفية تحليل الملف (ليس في الوقت الفعلي) وتحويله إلى نص.

  3. أعتقد أن الأمر سيستغرق وقتًا حتى تتمكن الشركات في هذا المجال من ترسيخ نفسها في السوق وتحسين منتجاتها، وعندها فقط ستتمكن من الانتقال إلى السوق الخاصة وتقديم الحلول للمستخدم المنزلي.

    ومن ناحية أخرى، من الجيد أن نعرف أن لإسرائيل موطئ قدم في هذا المجال.

  4. ومع فائق احترامي، وهناك قدر كبير من الاحترام والتقدير، ما زلنا لا نرى مثل هذه البرامج متكاملة للمستخدم المنزلي. قد تكون التكنولوجيا موجودة ولكن أجهزة الكمبيوتر لا تزال أضعف من أن تدعمها. قد تكون هناك حاجة لمثل هذه الشفرات لتفعيل هذا السحر؛ لكن الكتلة الحيوية الرئيسية التي ستحتاج إلى استهلاك المنتج موجودة خلف جهاز كمبيوتر، وبالتالي فإن وتيرة التطوير، كما يبدو لي كمستخدم نهائي، ليست مرضية. أتذكر أنه عندما ظهر نظام التشغيل Windows XP، قمت بعد ذلك بتنزيل برنامج ثقيل يسمى Dragon (إذا لم أكن مخطئًا) لتجربته. لقد قمت بتدريبها لمدة أسبوع كامل على التعرف على صوتي أثناء قراءة النصوص ذات مستويات الصعوبة المختلفة. لا شيء ساعد. أدى البرنامج إلى إبطاء جهاز الكمبيوتر، وفتح التطبيقات فجأة دون أن يغرد أي شخص ولم يتعرف على أي شيء تقريبًا. وفي محاولة أخرى هذا العام، رأيت أنه لم يتغير شيء.

    نأمل أن يعمل المهندسون وقتًا إضافيًا وأن يجلبوا بالفعل هذه الأخبار الرائعة لاستخدام الصوت كأداة اتصال مع الكمبيوتر. تماما مثل ستار تريك.

    تحيات أصدقاء،
    عامي بشار

ترك الرد

لن يتم نشر البريد الإلكتروني. الحقول الإلزامية مشار إليها *

يستخدم هذا الموقع Akismat لمنع الرسائل غير المرغوب فيها. انقر هنا لمعرفة كيفية معالجة بيانات الرد الخاصة بك.