تغطية شاملة

الهدوء بعد العاصفة

في المختبر الصوتي الأكثر تطوراً من نوعه في إسرائيل، في كلية الهندسة في بار إيلان، يقوم الدكتور شارون غانوت وزملاؤه بإجراء تجارب في فك التشفير المحوسب لمحادثات متعددة المشاركين والتي تتحرك باستمرار وتبتلع أصواتهم بواسطة الصوت. ضجيج الخلفية والمحادثات الأخرى

المختبر الصوتي في جامعة بار إيلان. الصورة: شارون غانوت
المختبر الصوتي في جامعة بار إيلان. الصورة: شارون غانوت

كم مرة وجدت نفسك تضع سماعة الأذن الخاصة بك بالقرب من سماعة الهاتف، حتى أنك تضغط على زر مكبر الصوت، ورغم كل جهودك إلا أنك لا تستطيع سماع محدثك جيدًا؟ ووضعك أفضل، مقارنة بشخص ضعيف السمع حيث يقوم النظام بتضخيم صوت السماعات، ولكن في نفس الوقت الضوضاء أيضًا.

مشكلة معالجة إشارات الكلام تشغل بال الدكتور شارون غانوت من كلية الهندسة في جامعة بار إيلان منذ أن كان هو نفسه طالب دراسات عليا. يقوم جانوت وطلابه وكذلك طلاب ما بعد الدكتوراه من الخارج الذين يأتون إلى مختبره بتطوير مجموعة متنوعة من الخوارزميات التي تشترك في الحاجة إلى تلقي إشارة الكلام في بيئة صاخبة وتحسينها - بدءًا بمتحدث واحد في مكان واحد ويصاحبه ضجيج عالٍ، وينتهي بوجود العديد من المتحدثين في بيئة صاخبة وعدم وقوفهم في مكانهم.

بدأ المختبر، وهو أحد أكثر المختبرات تطوراً وفريدة من نوعها في العالم، عمله هذا العام في كلية الهندسة، وهو الذي يتيح لجانا والعاملين في مختبره مرونة كبيرة في إجراء تجارب معقدة في معالجة إشارات الكلام.

"المشكلة التي تزعجني، والتي تأخذ أشكالا وتعقيدات مختلفة، هي استقبال إشارة الكلام في بيئة مليئة بالاضطرابات وتحسينها. يمكن أن تحدث الاضطرابات بسبب الضوضاء في الخلفية، أو المحادثات الأخرى بالقرب من مكبرات الصوت، بالإضافة إلى الصدى الشديد (على سبيل المثال داخل جهاز الاستقبال). إن تقديم إجابة لهذه المشكلة سيساعد في حل مشاكل الاتصال مثل التوجيه التلقائي للكاميرا إلى مكبر الصوت في مؤتمر الفيديو، وتحسين المعينات السمعية للصم، وما شابه ذلك"، يوضح غانوت. "في الخطوة الأولى، أتلقى إشارة كلام، والتي ألتقطها بمساعدة ميكروفون واحد أو أكثر. وحتى اليوم، تم تجهيز بعض السيارات الفاخرة بأربعة مكبرات صوت بدون استخدام اليدين، حتى أتمكن من استخدام المعلومات من أربعة ميكروفونات لأداء المهام التي أريد القيام بها.

"المشاكل التي تواجهني كثيرة ومعقدة. أولا، إشارة الكلام في حد ذاتها هي إشارة طبيعية، لا يمكن تشكيلها كما نرغب، وبالتالي لا يوجد نموذج جيد لها يمكن إدخاله إلى الحاسوب. تتميز إشارة الكلام بعدة ظواهر. ثانياً، تتغير خصائصه مع مرور الوقت؛ علاوة على ذلك، تتغير شدتها من شدة منخفضة جدًا إلى شدة قوية جدًا (أو العكس) في فترات زمنية قصيرة؛ وبطبيعة الحال، لا يمكن تجاهل العوامل البيئية. كل بيئة مختلفة صوتيا. يتم التعبير عن البيئة المعقدة من خلال مجموعة كبيرة جدًا من الأصداء، وذلك بسبب تأثير الموجات الصوتية على الأجسام المختلفة وبالطبع الجدران. هذه المجموعة الكبيرة هي التي تخلق إحساسًا بالصدى. عندما تكون الغرفة "تردد صدى" للغاية أو خالية تمامًا من الصدى، يشعر المستمع البشري بذلك كشعور بعدم الراحة، على الرغم من أن هذا يجعل الأمر أسهل بكثير بالنسبة للخوارزميات.

ظاهرة الإرجاع في الغرفة هي ظاهرة نقيسها عادة برقمين. الأول هو زمن الصدى، ويقاس بالثواني. هذا هو مقدار الوقت الذي تستغرقه الإشارة، منذ لحظة خروجها من فم المتحدث، لتستمر في التردد في الغرفة. بالنسبة للأذن البشرية، فإن 300-200 مللي ثانية هو وقت تسوس معقول. هذه الظروف شائعة، على سبيل المثال، في غرف المكاتب. عندما يصل وقت الاضمحلال إلى نصف ثانية، نبدأ في الشعور بعدم الراحة.

من أجل تحييد الصدى، يوضح غانوت، أن الخوارزمية مطلوبة لربط النظام الصوتي المعقد الذي يربط النقطة التي تم إرسال الخطاب فيها والنقطة التي تم استقباله فيها. تحتوي خوارزمية التصفية على العديد من المعاملات، والتي يزيد عددها مع وقت الصدى.

"إن أي تأثير لإشارة الكلام على أي عظمة في الغرفة سيؤدي إلى انعكاسها عنها وبالتالي وصولها بتأخير وتأخير معين مقارنة بوصولها المباشر من المتحدث الأصلي. إذا أضفنا العديد من هذه التأخيرات، فسنحصل على نظام كثيف من التأخيرات التي تتلاشى في أوقات أطول بشكل متزايد. الرقم الثاني هو نسبة الطاقة بين الوافد الرئيسي والوافدين الآخرين. وفي الغرف العادية، على مسافة حوالي متر إلى متر ونصف بين السماعة وجهاز الاستشعار، تصبح شدة الانعكاسات هي المهيمنة."

هناك ظاهرة إشكالية أخرى في الأنظمة الصوتية وهي حقيقة أنها تتغير بسرعة. عندما يتحرك مكبر الصوت بضعة سنتيمترات، نحصل على استجابة مختلفة تمامًا للغرفة.

ميكروفون واحد، بيئة صاخبة

"المشكلة الكلاسيكية، التي تم التعامل معها بدرجات متفاوتة من النجاح لمدة 40 عامًا تقريبًا، هي محاولة تنظيف ضوضاء الإشارة التي يلتقطها ميكروفون واحد. دعنا نشير إلى مثال ميكروفون الهاتف المحمول الذي يحاول السائق إملاء رقم للاتصال به. حتى لو أغلقنا النوافذ، ستظل البيئة صاخبة تمامًا، وفي الخلفية هناك ضجيج مستمر، أو على الأكثر ضجيج يتغير ببطء، قادم من مكيف الهواء ومحرك السيارة. سيكون الحل الوسط دائمًا بين إزالة الضوضاء وتشويه الكلام. كلما قمنا بتنظيف الضوضاء، كلما بقي لدينا صوت معدني أكثر."

"لم يتم حل أي مشكلة في هذا المجال بشكل كامل، لذلك لا يزال من غير الممكن حذف كلمة ضجيج من القاموس، على الرغم من وجود تحسينات كبيرة"، يلاحظ غانوت، الذي قدم مساهمتين في الموضوع: "المساهمة الأولى تترك الإشارة المستقبلة في المجال الزمني والثانية تشير إليها في المجال الترددي."

الحل لتنظيف الضوضاء في المجال الزمني تم تطويره من قبل غانوت في رسالة الماجستير الخاصة به، بتوجيه من البروفيسور إيهود وينشتاين والبروفيسور ديفيد بورستين من جامعة تل أبيب.
"أحاول تقديم نموذج إحصائي لإشارة الكلام وتغيرها مع مرور الوقت. إذا كنت أعرف إشارة الكلام النظيف المحددة، فيمكنني بسهولة تقدير معلماتها المميزة. المشكلة هي أنني لا أعرف الحرف المحدد الذي أريد مسحه (وإلا فلن يكون هناك شيء لمسحه...). لا أعرف سوى إشارة الكلام المصحوبة بالضوضاء. إذا همس لي شخص ما بالمعلمات الدقيقة، فيمكنني تشغيل مرشح مثالي وتنظيف إشارة الكلام من الضوضاء. المرشح الذي استخدمته يسمى مرشح كالمان، والذي سمي على اسم العالم المجري الأمريكي رودولف كالمان

الطريقة الثانية لتنظيف الإشارة من الضوضاء هي باستخدام مجال التردد. تعمل الأذن البشرية أيضًا في نطاقات ترددية مختلفة. هناك خلايا حسية في الأذن الداخلية، كل منها مسؤول عن نطاق ترددي مختلف" (انظر: حاييم سومر، "الأذن والصوت"، "جاليليو 127). "الحقيقة الأخرى التي نستخدمها لتنظيف ضوضاء الإشارة في مجال التردد هي حقيقة أن الأذن البشرية ليست حساسة للكثافات بطريقة خطية. لديها نوع من مقياس لوغاريتمي. عندما تكون الشدة منخفضة، سنلاحظ بوضوح الاختلافات في الشدة، وعندما تكون الشدة عالية، لن نلاحظ هذه الاختلافات."

"أقوم بتحويل إشارة الكلام إلى مستوى التردد وأريد إنشاء نموذج لها يميزها عن الضوضاء. لتحقيق هذا النموذج أقوم بتدريب الكمبيوتر. آخذ قاعدة بيانات تضم العديد من جمل الكلام النظيفة، التي لا علاقة لها بأي شكل من الأشكال بالمتحدث الذي أحاول تنظيفه، واستخرج من هذه المجموعة الكبيرة نموذجًا إحصائيًا قادرًا على وصف أي إشارة كلامية. كل هذا قبل تشغيل الخوارزمية على مشكلة معينة. عند الاقتراب من إشارة جديدة أحاول تنظيفها، آخذ العينات المزعجة وأقارنها بالنموذج الذي تعلمته عن الكلام النظيف، وبناء على هذه المقارنة أقرر أي من النماذج الموجودة في قاعدة البيانات هو الأكثر ملاءمة للإشارة المحددة لقد التقطت للتو. وبعد اختيار النموذج المناسب، أعرف كيفية استخدامه لتنظيف إشارة الكلام من الإشارة المزعجة."

والهدف هو تنفيذ هذه الخوارزميات في أجهزة صغيرة، مثل الهاتف المحمول أو أداة السمع. تشوه هذه الخوارزمية الصوت أكثر قليلاً مقارنة بالخوارزمية في البعد الزمني، لكن حملها الحسابي منخفض جدًا ومكيف خصيصًا للمعينات السمعية. تم تنفيذ هذا العمل أيضًا بالاشتراك مع البروفيسور ديفيد بورستين من جامعة تل أبيب.

مشكلة الميكروفونات المتعددة

يتابع غانوت ويشرح العملية: "بعد الوصول إلى مشكلة استقبال الإشارة بميكروفون واحد وتصفيتها من الضوضاء، قررنا استخدام الجانب المكاني أيضًا، حيث أن الشخص لديه أذنان أيضًا. ومع ذلك: فالنظام المحوسب ليس له حدود، ومن الممكن استخدام مجموعة غير محدودة من الميكروفونات بدلاً من ميكروفون واحد. باستخدام مجموعة من الميكروفونات اكتسبنا ميزة الاتجاهية. إذا كان ميكروفون واحد حساسًا بنفس الطريقة لجميع الاتجاهات، أو على الأقل لمفتاح زاوي واسع، فإن مجموعة من الميكروفونات لديها قدرة فصل مكانية نريد استخدامها للتمييز بين الإشارة المطلوبة القادمة من اتجاه معين أو من نقطة معينة وإشارة ضجيج قادمة من مكان آخر."

"عندما أتحدث إلى شخص على يميني، فمن الواضح أن الأذن اليمنى ستستقبل إشارة الكلام قبل الأذن اليسرى. ولذلك، من الممكن استخدام الفروق الزمنية بين استقبال الإشارة في كلتا الأذنين لتقدير مكان وجود المتحدث. وفي المشاكل الصوتية المعقدة، يمكن القيام بذلك باستخدام مجموعة من الميكروفونات، حيث يشير الاختلاف النسبي بين وصول الإشارات إلى الميكروفونات المختلفة إلى اتجاه الإشارة.

يمكننا الاستفادة من حقيقة أن الضوضاء والإشارة المطلوبة لن تصل أبدًا من نفس النقطة للتركيز على المحادثة التي نريدها من ليلة الأصوات. ستأتي المحادثة من مكان معين، بينما سيأتي الضجيج من مكيف الهواء، أو من محادثة على طاولة قريبة. ستسمح لنا المعلومات المكانية بالحصول على أداء أفضل بكثير. عند محاولة متابعة محاضر وهو يتجول في قاعة أنا وآنا، وعدم استخدام الميكروفون اللاسلكي، لا بد من دراسة البيئة الصوتية المتغيرة. نقوم بذلك عن طريق مجموعة من الميكروفونات المنتشرة في جميع أنحاء الغرفة، وتغذية الإشارات المستقبلة إلى خوارزمية ستعرف كيفية الحفاظ على الإشارة المطلوبة وتقليل جميع الإشارات المتداخلة القادمة من الجوانب.

"ولتحقيق ذلك أستخدم فكرتين: الفكرة الأولى هي أنه بدلاً من محاولة ربط النظام بأكمله الذي يربط السماعة بالميكروفون، وهو نظام معقد، أقوم فقط بربط الاتصال النسبي بين استقبال الإشارة في الميكروفونات المختلفة. أما الفكرة الثانية فهي الاستفادة من حقيقة أن إشارة الكلام تتغير بمرور الوقت بمعدل مرتفع على عكس الضوضاء التي تتغير بمعدل منخفض. وبهذه الطريقة أحقق قدرة فصل جيدة بين الإشارتين."

"حتى لو لم تحل الخوارزمية المشكلة تمامًا، فإنها على الأقل حسنت جودة الكلام بشكل كبير. لقد أضفنا مؤخرًا العديد من التحسينات. أحدهما، بالتعاون مع البروفيسور إسرائيل كوهين من التخنيون، مكّن من التعامل بشكل أفضل مع الضوضاء التي تتغير بمرور الوقت، مثل شاحنة عابرة عندما تكون نافذة سيارتنا مفتوحة. والثاني، مع رونين تالمون، وهو طالب يعمل بالتعاون معي ومع إسرائيل كوهين، يتيح العلاج في غرف ذات أوقات تردد أطول بكثير. الآن يستطيع الدكتور غانوت وشركاؤه استخدام المختبر المتطور والفريد من نوعه في إسرائيل لتجربة أي مجموعة ميكروفونات وأي مصدر للضوضاء أو الكلام الذي يطلبونه.

هناك مشكلة معقدة نحاول تحليلها في المختبر تسمى مشكلة "حفلة الكوكتيل": يتحدث عدة أشخاص في نفس الوقت في الغرفة، وأحيانًا أثناء المشي وبوجود ضوضاء في الخلفية، وعلينا عزل أحدهم محادثة من ليلة المحادثات. وظيفة الخوارزمية هي فصل السماعات المطلوبة وعزلها عن الأصوات والضوضاء الأخرى. تحتوي الخوارزمية على العديد من التطبيقات، على سبيل المثال كوسيلة مساعدة لضعاف السمع. في هذا التطبيق من الممكن التركيز على المحادثة التي تجري في مكبرات الصوت أمام وجه مرتدي المعينة السمعية.

هناك مشكلة أخرى مثيرة للاهتمام يتم تناولها في المختبر الجديد وهي إلغاء الصدى. الكثير من الصدى يزعج المستمعين، وقد يؤدي أيضًا إلى إتلاف أنظمة التعرف التلقائي على الكلام. ويوضح أحد الأمثلة الموجودة على الموقع قمع الأصداء البعيدة من إشارات الكلام الواردة من مسافة 250 سم.
تم تنفيذ هذا العمل بالتعاون مع البروفيسور كوهين والدكتور إيمانويل هابيتس، اللذين قاما بتدريب ما بعد الدكتوراه في مختبر الدكتور جانوت. الدكتور هيبيتس موجود الآن في إمبريال كوليدج لندن.

هناك مشكلة أخرى وهي مشكلة الصدى الصوتي: حيث يرغب أحد المتحدثين على الهاتف على أحد جانبي المحادثة في سماع مخاطبه من الطرف الآخر من الخط، ولكنه يسمع صوته أيضًا بعد عودته من الطرف الآخر. في مجموعة أبحاث جينوت، بالاشتراك مع مجموعة من هولندا (برئاسة الدكتور بيت سومان (أجنبي) وطالب الدكتوراه آنذاك الدكتور هيبتس)، تم تطوير خوارزمية قادرة على التعامل بفعالية مع إلغاء الصدى ، في نفس الوقت الذي يتم فيه تحسين جودة الإشارة المرسلة من الهاتف البعيد عن طريق تقليل الضوضاء، مثل طنين مكيف الهواء ومروحة الكمبيوتر، وتقليل مستوى الصدى فيها.

المختبر الصوتي الأكثر تطوراً في إسرائيل

هذا العام، بدأ المختبر الصوتي المتطور في إسرائيل العمل في كلية الهندسة بار إيلان، تحت تخطيط ومسؤولية الدكتور شارون غانوت.
إن المختبر الذي أنشئ على تصميم الدكتور جينوت والموجود في كلية الهندسة يبدو للوهلة الأولى وكأنه استوديو تسجيل في شركة تسجيلات، معزول صوتيا عن محيطه. إن القدرة على التحكم في مستوى الصدى في الغرفة هو ما يجعل المختبر وحدة فريدة من نوعها. يتكون السقف والأرضية والجدران من مجموعة من الألواح التي يمكن ضبطها لتردد الإشارة أو امتصاصها، بحيث يمكنك الحصول على مجموعة كبيرة من الغرف ذات الطابع الصوتي المختلف في هذه الغرفة المفردة.
ويتيح الجهاز التسجيل باستخدام 24 ميكروفونا في نفس الوقت، ونقل ثماني إشارات من مكبرات الصوت في نفس الوقت.

شرط

  • الإشارة هي وصف لتغير ظاهرة فيزيائية كدالة لمتغيرها (عادة دالة للزمن). يقوم النظام بتحويل الإشارة عند مدخله إلى إشارة أخرى عند مخرجه. في النظام الصوتي، يقوم النظام بإنشاء عدد كبير من التأخيرات والتباطؤات لإشارة الإدخال (الكلام عند خروجه من الفم) لاستقبال إشارة خرج الرنين (الكلام كما يتم استقباله عن طريق الأذن أو الميكروفون). سيتم تمثيل الإشارات والأنظمة باستخدام الدوال الرياضية.
  • فورييه (جان بابتيست جوزيف فورييه 1768-1830) كان فيزيائيًا وعالم رياضيات فرنسيًا. ومن بين وظائفه الأخرى، انضم إلى حملات نابليون للغزو في مصر، وتم تعيينه في مناصب إدارية عليا في الحكومة الفرنسية في مصر. كجزء من بحثه حول انتقال الحرارة، ادعى في عام 1822 (بدون إثبات) أن أي دالة دورية (حتى لو لم تكن مستمرة) يمكن كتابتها كسلسلة لا نهائية من الدوال المثلثية (جيب الجيب وجيب التمام) التي تردداتها هي تردد الإشارة الدورية ومضاعفاتها المتكاملة. تسمى هذه الترددات التوافقيات ويسمى العمود الناتج عمود فورييه. وفي وقت لاحق، تم توسيع المفهوم ليشمل التعامل مع الإشارات ذات الدورات اللانهائية (أي الوظائف العامة غير الدورية). ويمكن إثبات أن هذه الإشارات يمكن تسجيلها كسلسلة من التوافقيات المعروفة باسم تحويل فورييه.
  • الموجة هي ظاهرة فيزيائية تعتمد على الزمان والمكان. والمثال المألوف لنا جميعًا هو أمواج البحر. وإذا نظرنا إلى لحظة معينة سنرى مجموعة من "التلال" و"الوديان" من بداية الموجة إلى الساحل. إذا ركبنا على عوامة (عند نقطة معينة) فسوف نرتفع ونهبط كدالة للوقت. لذا فإن أمواج البحر تتغير في الزمان والمكان. يمكن إثبات أن ضرب الطول الموجي (المسافة بين التلال على طول محور الموضع) في التردد (معدل الارتفاع والهبوط على العوامة) يساوي سرعة انتشار الموجة. الصوت عبارة عن موجة وسرعة انتشارها لا تتجاوز 342 مترًا في الثانية (حسب درجة الحرارة وضغط الهواء). تنتشر الموجة الصوتية عن طريق التغيرات في ضغط جزيئات المادة، وبالتالي لا يوجد الصوت في الفراغ.
  • إنشاء إشارة الكلام: أصل إشارة الكلام هو الهواء الذي يتم الزفير من الرئتين. ويشق هذا الهواء طريقه نحو الفم (وأحيانًا الأنف أيضًا). إذا بدأت الحبال الصوتية في العمل، فسيتم مقاطعة تدفق الهواء بشكل متقطع وبدلاً من التدفق المستمر سنحصل على نبضات. يتم تلقي إشارة دورية. تحدد المسافة بين النبضات (المعروفة باسم درجة الصوت) درجة الصوت. يستخدم تجويف الفم لكتابة الرنين المتغير للموجة الصوتية. يمكن التحكم في ترددات الرنين (وتسمى الصيغ) عن طريق تغيير موضع اللسان والشفتين. تحدد ترددات الرنين العجلة المنطوقة. تخرج موجة الصوت من تجويف الفم وتنتشر عبر الهواء حتى تصل إلى جهاز الاستقبال: أذن الإنسان أو الميكروفون، الذي يحول موجة الصوت إلى إشارة عصبية أو كهربائية على التوالي.

يمكنك الاستماع إلى العديد من الأمثلة على التسجيلات على موقع معمل الدكتور جانوت في رابط عرض الملفات الصوتية.

تعليقات 6

  1. عيران. أنت على حق. كنت أنوي الإشارة إلى أن الدماغ قد حل المشكلة التكنولوجية المعروضة هنا. إنه لأمر مخز أنه لا يزال من غير الممكن الخوض في تعقيدات الدماغ للتحقق من كيفية قيامه بذلك (بالإضافة إلى العديد من الأشياء الأخرى).

  2. L3- يبدو الأمر كما لو أنه من المثير للاهتمام أن رابين قُتل في ميدان رابين...
    الأسماء متشابهة لسبب بسيط وهو أن المشكلة واحدة.

  3. أقترح أنه قبل تعيين الدرجات للمختبرات، عليك التحقق على أساس أهلية المختبر، ومستوى دقته، ونوع المعلومات الصوتية التي يمكن استخلاصها منه.
    من أجل إنتاج وقت تردد متغير، لا تحتاج إلى الكثير من المعرفة والتكنولوجيا، وفي نفس الوقت يعد إنشاء المجالات الصوتية ورسم خرائطها ومعايرتها والحفاظ على استقرارها مهمة أكثر صعوبة، وهذا بالإضافة إلى العديد من المهام الأخرى المعلمات، يمكن أن تشهد على مستوى المختبر.
    أقترح عليك زيارة موقعين صوتيين يقعان في مدينة أور يهودا في Optoacoustics Ltd. وIsosound Labs Ltd. اللذان يمتلكان المرافق الأكثر احترافية في إسرائيل، مع شهادات بهذا الخصوص.

  4. ومن المثير للاهتمام أن ما يشار إليه في المقال بمشكلة حفلة الكوكتيل - مشكلة تركيز الميكروفونات على المتحدث المطلوب من ليلة مكبرات الصوت والضوضاء الأخرى هو اسم خاصية طبيعية في دماغ الإنسان تسمى الكوكتيل تأثير الحفلة الذي بموجبه يستطيع الشخص التركيز على متحدث معين، حتى في بيئة مليئة بالمحادثات والضوضاء الأخرى.

ترك الرد

لن يتم نشر البريد الإلكتروني. الحقول الإلزامية مشار إليها *

يستخدم هذا الموقع Akismat لمنع الرسائل غير المرغوب فيها. انقر هنا لمعرفة كيفية معالجة بيانات الرد الخاصة بك.