في المختبر الصوتي الأكثر تطوراً من نوعه في إسرائيل، في كلية الهندسة في بار إيلان، يقوم الدكتور شارون غانوت وزملاؤه بإجراء تجارب على فك التشفير المحوسب لمحادثات متعددة المشاركين والتي تتحرك باستمرار وتبتلع أصواتهم ضجيج الخلفية والمحادثات الأخرى
كم مرة وجدت نفسك تضع سماعة الأذن الخاصة بك بالقرب من سماعة الهاتف، حتى أنك تضغط على زر مكبر الصوت، ورغم كل جهودك إلا أنك لا تستطيع سماع محدثك جيدًا؟ ووضعك أفضل، مقارنة بشخص ضعيف السمع حيث يقوم النظام بتضخيم صوت السماعات، ولكن في نفس الوقت الضوضاء أيضًا.
مشكلة معالجة إشارات الكلام تشغل بال الدكتور شارون غانوت من كلية الهندسة في جامعة بار إيلان منذ أن كان هو نفسه طالب دراسات عليا. يقوم جانوت وطلابه وكذلك طلاب ما بعد الدكتوراه من الخارج الذين يأتون إلى مختبره، بتطوير مجموعة من الخوارزميات التي تشترك في الحاجة إلى استقبال إشارة الكلام في بيئة صاخبة وتحسينها - بدءًا من مكبر صوت واحد موجود في مكان واحد ويصاحبه ضوضاء عالية، وانتهاءً بالعديد من المتحدثين الذين يتواجدون في بيئة صاخبة ولا يقفون في مكانهم.
بدأ المختبر، وهو أحد أكثر المختبرات تطوراً وفريدة من نوعها في العالم، عمله هذا العام في كلية الهندسة، وهو الذي يتيح لجانا والعاملين في مختبره مرونة كبيرة في إجراء تجارب معقدة في معالجة إشارات الكلام.
"المشكلة التي تزعجني، والتي تأخذ أشكالا وتعقيدات مختلفة، هي استقبال إشارة الكلام في بيئة بها اضطرابات وتحسينها. يمكن أن تنشأ الاضطرابات من ضجيج في الخلفية، ومحادثات إضافية بالقرب من مكبرات الصوت، وكذلك من صدى شديد (على سبيل المثال، داخل جهاز الاستقبال). إن تقديم إجابة لهذه المشكلة سيساعد في حل مشاكل الاتصال من نوع التوجيه التلقائي للكاميرا إلى مكبر الصوت في مؤتمر عبر الفيديو، وتحسين المعينات السمعية للصم وما شابه ذلك، "يشرح غانوت. . "في الخطوة الأولى، أتلقى إشارة كلام، والتي ألتقطها بمساعدة واحد أو أكثر من الميكروفونات. وحتى اليوم، بعض السيارات الفاخرة مجهزة بأربعة مكبرات صوت بدون استخدام اليدين، حتى أتمكن من استخدام المعلومات من أربعة ميكروفونات إلى تنفيذ المهام التي أريد القيام بها."
"المشكلات التي أواجهها كثيرة ومعقدة. أولا، إشارة الكلام في حد ذاتها إشارة طبيعية، لا يمكن تشكيلها كما نشاء، وبالتالي لا يوجد نموذج جيد لها يمكن إدخاله إلى الحاسوب. إشارة الكلام هي تتميز بعدد من الظواهر ثانيًا، تتغير خصائصها مع مرور الوقت، علاوة على ذلك، تتراوح شدتها من شدة منخفضة جدًا إلى شدة قوية جدًا (أو العكس) على فترات قصيرة، وبالطبع لا يمكن تجاهل العوامل البيئية صوتيًا، يتم التعبير عن البيئة المعقدة في مجموعة كبيرة جدًا من الانعكاسات، وذلك بسبب تأثير الموجات الصوتية على كائنات مختلفة وبالطبع، هذه المجموعة الكبيرة هي التي تخلق الشعور بالتردد، على الرغم من أن هذا يسهل الخوارزميات بشكل كبير.
ظاهرة الإرجاع في الغرفة هي ظاهرة نقيسها عادة برقمين. الأول هو زمن الصدى، ويقاس بالثواني. هذا هو مقدار الوقت الذي تستغرقه الإشارة، منذ لحظة خروجها من فم المتحدث، لتستمر في التردد في الغرفة. بالنسبة للأذن البشرية، فإن 300-200 مللي ثانية هو وقت تسوس معقول. هذه الظروف شائعة، على سبيل المثال، في غرف المكاتب. عندما يصل وقت الاضمحلال إلى نصف ثانية، نبدأ في الشعور بعدم الراحة.
من أجل تحييد الصدى، يوضح غانوت، أن الخوارزمية مطلوبة لربط النظام الصوتي المعقد الذي يربط النقطة التي تم إرسال الخطاب فيها والنقطة التي تم استقباله فيها. تحتوي خوارزمية التصفية على العديد من المعاملات، والتي يزيد عددها مع وقت الصدى.
"إن أي تأثير لإشارة الكلام على أي عظمة في الغرفة سيؤدي إلى انعكاسها منها وبالتالي وصولها بتأخير معين نسبة إلى وصولها المباشر من المتحدث الأصلي. وإذا أضفنا تأخيرات كثيرة من هذا النوع فإننا سوف الحصول على نظام كثيف للتأخير يتلاشى مع زيادة المرات الرقم الثاني هو نسبة القوى بين الوافد الرئيسي والوافدين الآخرين في الغرف العادية على مسافة حوالي متر ونصف بين السماعة والحساس ، يتم تحديد شدة التكرارات مسيطر."
هناك ظاهرة إشكالية أخرى في الأنظمة الصوتية وهي حقيقة أنها تتغير بسرعة. عندما يتحرك مكبر الصوت بضعة سنتيمترات، نحصل على استجابة مختلفة تمامًا للغرفة.
ميكروفون واحد، بيئة صاخبة
"المشكلة الكلاسيكية، التي تم التعامل معها بدرجات متفاوتة من النجاح لما يقرب من 40 عامًا، هي محاولة تنظيف ضوضاء الإشارة التي يلتقطها ميكروفون واحد. دعنا نشير إلى مثال ميكروفون الهاتف المحمول الذي يلتقطه السائق محاولة إملاء رقم للاتصال به، حتى لو أغلقنا النوافذ، ستظل البيئة صاخبة تمامًا، وفي الخلفية هناك ضجيج مستمر، أو على الأكثر ضجيج يتغير ببطء، قادم من مكيف الهواء ومحرك السيارة. سيكون الحل الوسط دائمًا بين تنظيف الضوضاء والتشويه كلما قمنا بإزالة الضوضاء، كلما أصبح الأمر أكثر معدنية."
"لم يتم حل أي مشكلة في هذا المجال بشكل كامل، لذلك لا يزال من المستحيل حذف كلمة ضجيج من القاموس، على الرغم من وجود تحسينات كبيرة"، يلاحظ غانوت، الذي قدم مساهمتين في الموضوع: "المساهمة الأولى تترك الإشارة المستقبلة في المجال الزمني والثانية تشير إليها في المجال الترددي."
الحل لتنظيف الضوضاء في المجال الزمني تم تطويره من قبل غانوت في رسالة الماجستير الخاصة به، بتوجيه من البروفيسور إيهود وينشتاين والبروفيسور ديفيد بورستين من جامعة تل أبيب.
"أحاول أن أقدم نموذجًا إحصائيًا لإشارة الكلام وتغيرها بمرور الوقت. إذا كنت أعرف إشارة الكلام النظيف المعينة، فيمكنني بسهولة تقدير معلماتها المميزة. والمشكلة هي أنني لا أعرف الإشارة المحددة التي أريد نظيف (وإلا فلن يكون هناك شيء يمكن تنظيفه...). أنا أعرف فقط إشارة الكلام المصحوبة بالضوضاء. إذا همس لي شخص ما بالمعلمات الدقيقة، فيمكنني تشغيل مرشح مثالي وتنظيف إشارة الكلام من المرشح الذي قمت بتنشيطه يسمى مرشح كالمان، والذي سمي على اسم العالم المجري الأمريكي رودولف كالمان
الطريقة الثانية لتنظيف الإشارة من الضوضاء هي باستخدام مجال التردد. تعمل الأذن البشرية أيضًا في نطاقات ترددية مختلفة. هناك خلايا حسية في الأذن الداخلية، كل منها مسؤول عن نطاق ترددي مختلف" (انظر: حاييم سومر، "الأذن والصوت"، "جاليليو 127). "الشكل الآخر الذي نستخدمه لتنظيف ضوضاء الإشارة في مجال التردد هو حقيقة أن الأذن البشرية ليست حساسة للكثافات بطريقة خطية. فهي تحتوي على نوع من المقياس اللوغاريتمي. عندما تكون الشدة منخفضة، سنلاحظ بوضوح الاختلافات في الشدة، وعندما تكون الشدة عالية، لن نلاحظ هذه الاختلافات."
"أقوم بتحويل إشارة الكلام إلى مستوى التردد وأريد إنشاء نموذج لها يميزها عن الضوضاء. ولتحقيق هذا النموذج أقوم بتدريب الكمبيوتر. وأخذ قاعدة بيانات للعديد من جمل الكلام النظيفة، التي لا علاقة لها بـ أحاول تنظيف أي طريقة للمتحدث، واستخرج من هذه المجموعة الكبيرة نموذجًا إحصائيًا يتمكن من توصيف أي إشارة كلامية، كل هذا قبل تشغيل الخوارزمية على مشكلة معينة عند الاقتراب من إشارة جديدة أحاول القيام بها نظيفة، وأغتنم العينات الصاخبة ومقارنتها بالنموذج الذي تعلمته عن الكلام النظيف، وبناء على هذه المقارنة تقرر أي من النماذج الموجودة في قاعدة البيانات هو الأكثر ملاءمة للإشارة المحددة التي تلقيتها للتو، بعد اختيار النموذج المناسب، أعرف كيف لتنظيف إشارة الكلام من الإشارة المزعجة بها."
والهدف هو تنفيذ هذه الخوارزميات في أجهزة صغيرة، مثل الهاتف المحمول أو أداة السمع. تشوه هذه الخوارزمية الصوت أكثر قليلاً مقارنة بالخوارزمية في البعد الزمني، لكن حملها الحسابي منخفض جدًا ومكيف خصيصًا للمعينات السمعية. تم تنفيذ هذا العمل أيضًا بالاشتراك مع البروفيسور ديفيد بورستين من جامعة تل أبيب.
مشكلة الميكروفونات المتعددة
يتابع غانوت ويشرح العملية: "بعد استنفاد مشكلة استقبال الإشارة بميكروفون واحد وتصفيتها من الضوضاء، قررنا استخدام الجانب المكاني أيضًا، لأن الشخص لديه أيضًا أذنان. ومع ذلك: جهاز محوسب النظام ليس له حدود، ويمكن استخدام مجموعة غير محدودة من الميكروفونات بدلاً من ذلك في ميكروفون واحد، وباستخدام مجموعة من الميكروفونات اكتسبنا ميزة الاتجاه إذا كان الميكروفون الواحد حساساً بنفس الطريقة لجميع الاتجاهات، أو على الأقل إلى المفتاح زاوية واسعة، وبالتالي فإن مجموعة الميكروفونات لديها قدرة فصل مكانية نريد استخدامها للتمييز بين الإشارة المطلوبة التي تأتي من اتجاه معين أو من نقطة معينة وإشارة الضوضاء التي تأتي من مكان آخر."
"عندما أتحدث إلى شخص على يميني، فمن الواضح أن الأذن اليمنى ستستقبل إشارة الكلام قبل الأذن اليسرى، ولذلك يمكن استخدام الفوارق الزمنية بين استقبال الإشارة في كلتا الأذنين لتقدير مكان المتحدث في المشكلات الصوتية المعقدة، يمكن القيام بذلك باستخدام مجموعة من الميكروفونات، عندما يشير الاختلاف النسبي بين وصول الإشارات إلى الميكروفونات المختلفة إلى اتجاه الإشارة.
يمكننا الاستفادة من حقيقة أن الضوضاء والإشارة المطلوبة لن تصل أبدًا من نفس النقطة للتركيز على المحادثة التي نريدها من ليلة الأصوات. ستأتي المحادثة من مكان معين، بينما سيأتي الضجيج من مكيف الهواء، أو من محادثة على طاولة قريبة. ستسمح لنا المعلومات المكانية بالحصول على أداء أفضل بكثير. عند محاولة متابعة محاضر يتجول في قاعة أنا وآنا، وعدم استخدام الميكروفون اللاسلكي، لا بد من دراسة البيئة الصوتية المتغيرة. نقوم بذلك باستخدام مجموعة من الميكروفونات المنتشرة في جميع أنحاء الغرفة، ونقوم بتغذية الإشارات المستقبلة إلى خوارزمية تعرف كيفية الحفاظ على الإشارة المطلوبة ورفض جميع الإشارات المزعجة القادمة من الجوانب.
"ولتحقيق ذلك، أستخدم فكرتين: الفكرة الأولى هي أنه بدلاً من محاولة ربط النظام بأكمله الذي يربط السماعة بالميكروفون، وهو نظام معقد، أقوم فقط بربط العلاقة النسبية بين استقبال السماعة وسماعة الصوت. والفكرة الثانية هي الاستفادة من حقيقة أن إشارة الكلام تتغير بمعدل مرتفع مقابل الضوضاء التي تتغير بمعدل منخفض. وبهذه الطريقة أحقق فصلًا جيدًا بين الإشارتين.
"حتى لو لم تحل الخوارزمية المشكلة تمامًا، فإنها على الأقل حسنت جودة الكلام بشكل كبير. مؤخرًا، أضفنا العديد من التحسينات. أحدها، بالتعاون مع البروفيسور إسرائيل كوهين من التخنيون، أتاح معالجة أفضل للضوضاء التي التغيير مع مرور الوقت، مثل مرور شاحنة عندما تكون نافذة سيارتنا مفتوحة، والثاني، مع رونين تالمون، وهو طالب يعمل بالتعاون مع يسرائيل كوهين، يتيح العلاج في غرف ذات أوقات تردد أطول بكثير. يستخدم غانوت وشركاؤه المختبر المتطور والفريد من نوعه في إسرائيل لاختبار أي مجموعة ميكروفون وأي مصدر للضوضاء أو الكلام الذي يطلبونه.
هناك مشكلة معقدة نحاول تحليلها في المختبر تسمى مشكلة "حفلة الكوكتيل": يتحدث عدة أشخاص في نفس الوقت في الغرفة، وأحيانًا أثناء المشي وبوجود ضوضاء في الخلفية، وعلينا عزل أحدهم محادثة من ليلة المحادثات. وظيفة الخوارزمية هي فصل السماعات المطلوبة وعزلها عن الأصوات والضوضاء الأخرى. تحتوي الخوارزمية على العديد من التطبيقات، على سبيل المثال كوسيلة مساعدة لضعاف السمع. في هذا التطبيق، من الممكن التركيز على المحادثة التي تجري مع مكبرات الصوت أمام مرتدي المعينة السمعية.
هناك مشكلة أخرى مثيرة للاهتمام يتم تناولها في المختبر الجديد وهي إلغاء الصدى. الكثير من الصدى يزعج المستمعين، وقد يؤدي أيضًا إلى إتلاف أنظمة التعرف التلقائي على الكلام. ويوضح أحد الأمثلة الموجودة على الموقع قمع الأصداء البعيدة من إشارات الكلام الواردة من مسافة 250 سم.
تم تنفيذ هذا العمل بالتعاون مع البروفيسور كوهين والدكتور إيمانويل هابيتس، اللذين قاما بتدريب ما بعد الدكتوراه في مختبر الدكتور جينوت. الدكتور هيبيتس موجود الآن في إمبريال كوليدج لندن.
مشكلة أخرى هي مشكلة الصدى الصوتي: يريد أحد المتحدثين على الهاتف على أحد جانبي المحادثة سماع محاوره من الطرف الآخر من الخط، ولكنه يسمع صوته أيضًا بعد عودته من الطرف الآخر. في مجموعة أبحاث جينوت، بالاشتراك مع مجموعة من هولندا (بقيادة الدكتور بيت سومان (أجنبي) وطالب الدكتوراه آنذاك الدكتور هيبتس)، تم تطوير خوارزمية قادرة على التعامل بفعالية مع إلغاء الصدى ، في نفس الوقت الذي يتم فيه تحسين جودة الإشارة المرسلة من الهاتف البعيد عن طريق تقليل الضوضاء، مثل طنين مكيف الهواء ومروحة الكمبيوتر، وتقليل مستوى الصدى فيها.
المختبر الصوتي الأكثر تطوراً في إسرائيل
هذا العام، بدأ المختبر الصوتي المتطور في إسرائيل العمل في كلية الهندسة بار إيلان، تحت تخطيط ومسؤولية الدكتور شارون غانوت.
يبدو المختبر الذي تم إنشاؤه بتصميم الدكتور جينوت والموجود في كلية الهندسة للوهلة الأولى وكأنه استوديو تسجيل في شركة تسجيل، معزول صوتيًا عن محيطه. إن القدرة على التحكم في مستوى الصدى في الغرفة هو ما يجعل المختبر وحدة فريدة من نوعها. يتكون السقف والأرضية والجدران من مجموعة من الألواح التي يمكن ضبطها لتردد الإشارة أو امتصاصها، بحيث يمكنك الحصول على مجموعة كبيرة من الغرف ذات الطابع الصوتي المختلف في هذه الغرفة المفردة.
ويتيح الجهاز التسجيل باستخدام 24 ميكروفونا في نفس الوقت، ونقل ثماني إشارات من مكبرات الصوت في نفس الوقت.
شرط
- الإشارة هي وصف لتغير ظاهرة فيزيائية كدالة لمتغيرها (عادة دالة للزمن). يقوم النظام بتحويل الإشارة عند مدخله إلى إشارة أخرى عند مخرجه. في النظام الصوتي، يقوم النظام بإنشاء عدد كبير من التأخيرات والتباطؤات لإشارة الإدخال (الكلام عند خروجه من الفم) لاستقبال إشارة خرج الرنين (الكلام كما يتم استقباله عن طريق الأذن أو الميكروفون). سيتم تمثيل الإشارات والأنظمة باستخدام الدوال الرياضية.
- فورييه (جان بابتيست جوزيف فورييه 1768-1830) كان فيزيائيًا وعالم رياضيات فرنسيًا. ومن بين وظائفه الأخرى، انضم إلى حملات نابليون للغزو في مصر، وتم تعيينه في مناصب إدارية عليا في الحكومة الفرنسية في مصر. كجزء من بحثه حول انتقال الحرارة، ادعى في عام 1822 (بدون إثبات) أن أي دالة دورية (حتى لو لم تكن مستمرة) يمكن كتابتها كسلسلة لا نهائية من الدوال المثلثية (جيب الجيب وجيب التمام) التي تردداتها هي تردد الإشارة الدورية ومضاعفاتها المتكاملة. تسمى هذه الترددات التوافقيات ويسمى العمود الناتج عمود فورييه. وفي وقت لاحق، تم توسيع المفهوم ليشمل التعامل مع الإشارات ذات الدورات اللانهائية (أي الوظائف العامة غير الدورية). ويمكن إثبات أن هذه الإشارات يمكن تسجيلها كسلسلة من التوافقيات المعروفة باسم تحويل فورييه.
- الموجة هي ظاهرة فيزيائية تعتمد على الزمان والمكان. والمثال المألوف لنا جميعًا هو أمواج البحر. وإذا نظرنا إلى لحظة معينة سنرى مجموعة من "التلال" و"الوديان" من بداية الموجة حتى خط الشاطئ. إذا ركبنا على عوامة (عند نقطة معينة) فسوف نرتفع ونهبط كدالة للوقت. لذا فإن أمواج البحر تتغير في الزمان والمكان. يمكن إثبات أن ضرب الطول الموجي (المسافة بين التلال على طول محور الموضع) في التردد (معدل الارتفاع والهبوط على العوامة) يساوي سرعة انتشار الموجة. الصوت عبارة عن موجة وسرعة انتشارها لا تتجاوز 342 مترًا في الثانية (حسب درجة الحرارة وضغط الهواء). تنتشر الموجة الصوتية نتيجة للتغيرات في ضغط جزيئات المادة، لذلك لا يوجد الصوت في الفراغ.
- إنشاء إشارة الكلام: أصل إشارة الكلام هو الهواء الذي يتم الزفير من الرئتين. ويشق هذا الهواء طريقه نحو الفم (وأحيانًا الأنف أيضًا). إذا بدأت الحبال الصوتية في العمل، فسيتم مقاطعة تدفق الهواء بشكل متقطع وبدلاً من التدفق المستمر سنحصل على نبضات. يتم تلقي إشارة دورية. تحدد المسافة بين النبضات (المعروفة باسم درجة الصوت) درجة الصوت. يستخدم تجويف الفم لكتابة الرنين المتغير للموجة الصوتية. ويمكن التحكم بترددات الرنين (وتسمى الصيغ) عن طريق تغيير موضع اللسان والشفتين، حيث تحدد ترددات الرنين الصوت الذي يتم التحدث به، وتخرج موجة الصوت من تجويف الفم وتنتشر عبر الهواء حتى تصل إلى المتلقي: الإنسان الأذن أو الميكروفون، الذي يحول الموجة الصوتية إلى إشارة عصبية أو كهربائية على التوالي.
يمكنك الاستماع إلى العديد من الأمثلة على التسجيلات على الموقع الإلكتروني لمختبر الدكتور جينوت في رابط عرض الملفات الصوتية.
تعليقات 6
عيران. أنت على حق. كنت أنوي الإشارة إلى أن الدماغ قد حل المشكلة التكنولوجية المعروضة هنا. إنه لأمر مخز أنه لا يزال من غير الممكن الخوض في تعقيدات الدماغ للتحقق من كيفية قيامه بذلك (بالإضافة إلى العديد من الأشياء الأخرى).
L3- يبدو الأمر كما لو أنه من المثير للاهتمام أن رابين قُتل في ميدان رابين...
الأسماء متشابهة لسبب بسيط وهو أن المشكلة واحدة.
أقترح أنه قبل تعيين الدرجات للمختبرات، عليك التحقق على أساس أهلية المختبر، ومستوى دقته، ونوع المعلومات الصوتية التي يمكن استخلاصها منه.
من أجل إنتاج وقت تردد متغير، لا تحتاج إلى الكثير من المعرفة والتكنولوجيا، وفي نفس الوقت يعد إنشاء المجالات الصوتية ورسم خرائطها ومعايرتها والحفاظ على استقرارها مهمة أكثر صعوبة، وهذا بالإضافة إلى العديد من المهام الأخرى المعلمات، يمكن أن تشهد على مستوى المختبر.
أقترح عليك زيارة موقعين صوتيين يقعان في مدينة أور يهودا في Optoacoustics Ltd. وIsosound Labs Ltd. اللذان يمتلكان المرافق الأكثر احترافية في إسرائيل، مع شهادات بهذا الخصوص.
ومن المثير للاهتمام أن ما يشار إليه في المقال بمشكلة حفلة الكوكتيل - مشكلة تركيز الميكروفونات على المتحدث المطلوب من ليلة مكبرات الصوت والضوضاء الأخرى هو اسم خاصية طبيعية في دماغ الإنسان تسمى الكوكتيل تأثير الحفلة الذي بموجبه يستطيع الشخص التركيز على متحدث معين، حتى في بيئة مليئة بالمحادثات والضوضاء الأخرى.
يستحق بضعة حفريات... هل وجدت النفط بعد؟ O_O
مقالة ممتازة وشاملة جدا.