Blind Two-Channel Speech Source Separation Based on Localization
Subject Areas : electrical and computer engineeringHassan Alisufi 1 , M. Khademi 2 * , Abbas Ebrahimi moghadam 3
1 - Ferdosi University
2 - Ferdowsi University of Mashhad
3 - Ferdosi University
Keywords: Angular spectrogram, generalized cross correlation, blind speech separation,
Abstract :
This paper presents a new method for blind two-channel speech sources separation without the need for prior knowledge about speech sources. In the proposed method, by weighting the mixture signal spectrum based on the location of the speech sources in terms of distance to the microphone, the speech sources are separated. Therefore, by forming an angular spectrum by generalized cross-correlation function, the speech sources in the mixture signal are localized. First, by creating an angular spectrogram by generalized cross-correlation function, the speech sources in the mixture signal are localized. Then according to the location of the sources, the amplitude of the mixture signal spectrum is weighted. By multiplying the weighted spectrum by the values obtained from the angular spectrograms, a binary mask is constructed for each source. By applying the binary mask to the amplitude of the mixture signal spectrum, the speech sources are separated. This method is evaluated on SiSEC database and the measurement tools and criteria contained in this database are used for evaluation. The results show that the proposed method is comparable in terms of the criteria available in the database to the competing ones, has lower computational complexity.
[1] S. Haykin and Z. Chen, "The cocktail party problem," Neural Comput., vol. 17, no. 9, pp. 1875-1902, Sept. 2005.
[2] K. Itakura, et al., "Bayesian multichannel audio source separation based on integrated source and spatial models," IEEE/ACM Trans. Audio Speech Lang. Process., vol. 26, no. 4, pp. 831-846, Apr. 2018.
[3] Y. Xie, K. Xie, Z. Wu, and S. Xie, "Underdetermined blind source separation of speech mixtures based on K-means clustering," in Proc. Chinese Control Conf., CCC'19, pp. 42-46, Guangzhou, China, 27-30 Jul. 2019.
[4] M. S. Brandstein and H. F. Silverman, "A robust method for speech signal time-delay estimation in reverberant rooms," in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP'97, vol. 1, pp. 375-378, Munich, Germany, 21-24 Apr. 1997.
[5] Z. Ding, W. Li, and Q. Liao, "Dual-channel speech separation by sub-segmental directional statistics," in Proc. Int. Conf. on Wireless Communications, Signal Processing and Networking, WiSPNET'16, pp. 2287-2291, Chennai, India, 23-35 Mar. 2016.
[6] X. Li, Z. Ding, W. Li, and Q. Liao, "Dual-channel cosine function based ITD estimation for robust speech separation," Sensors, vol. 17, no. 6, Article No.: 1447, 13 pp. 2017.
[7] T. Maitheen and M. S. Lekshmi, "Enhancement of DUET blind source separation using wavelet," International Research Journal of Engineering and Technology, vol. 4, no. 5, pp. 3551-3553, May 2017.
[8] X. Zhang and D. Wang, "Binaural reverberant speech separation based on deep neural networks," in Proc. Interspeech, vol. pp. 2018-2022, Stockholm, Sweden, 20-24 Aug. 2017.
[9] S. U. N. Wood, et al., "Blind speech separation and enhancement with GCC-NMF," IEEE/ACM Trans. Audio, Speech Lang. Process., vol. 25, no. 4, pp. 745-755, Apr. 2017.
[10] Y. Yu, W. Wang, J. Luo, and P. Feng, "Localization based stereo speech separation using deep networks," in Proc. IEEE Int. Conf. Digit. Signal Process, pp. 153-157, Singapore, Singapore, 21-24 Jul. 2015.
[11] S. U. N. Wood and J. Rouat, "Unsupervised low latency speech enhancement with RT-GCC-NMF," IEEE J. Sel. Top. Signal Process., vol. 13, no. 2, pp. 332-346, May 2019.
[12] C. Knapp and G. Carter, "The generalized correlation method for estimation of time delay," IEEE Trans. Acoust., vol. 24, no. 4, pp. 320-327, Aug. 1976.
[13] M. A. J. Sathya and S. P. Victor, Noise Reduction Techniques and Algorithms for Speech Signal Processing, .
[14] A. P. Klapuri, "Multipitch estimation and sound separation by the spectral smoothness principle," in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP'01, vol. 5, pp. 3381-3384, Salt Lake City, UT, USA, 7-11 May 2001.
[15] C. Blandin, A. Ozerov, and E. Vincent, "Multi-source TDOA estimation in reverberant audio using angular spectra and clustering," Signal Processing, vol. 92, no. 8, pp. 1950-1960, Aug. 2012.
[16] F. Nesta, M. Omologo, and P. Svaizer, "A novel robust solution to the permutation problem based on a joint multiple TDOA estimation," in Proc. IWAENC, 4 pp., Seattle, WA, USA, 14-17 Sept. 2008.
[17] B. Loesch and B. Yang, "Blind source separation based on time-frequency sparseness in the presence of spatial aliasing," in Proc. 9th Int Conf. on Latent Variable Analysis and Signal Separation, 8 pp., St. Malo, France, 27-30 Sept. 2010.
[18] N. Madhu, C. Breithaupt, and R. Martin, "Temporal smoothing of spectral masks in the cepstral domain for speech separation," in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP'08, vol. 1, pp. 45-48, Las Vegas, NV, USA, 30 Mar- 4 Apr. 2008.
[19] [Online]. Available: www.itu.com
[20] [Online]. Available: https://sisec.wiki.irisa.fr.
[21] C. Fevotte, R. Gribonval, and E. Vincent, BSS_EVAL Toolbox User Guide--Revision 2.0, 2005.
[22] A. Liutkus, et al., "The 2016 signal separation evaluation campaign," in Proc. Int. Conf. on Latent Variable Analysis and Signal Separation, pp. 323-332, Grenoble, France, Feb. 2017.
نشریه مهندسی برق و مهندسی كامپیوتر ایران، ب- مهندسی کامپیوتر، سال 19، شماره 1، بهار 1400 59
مقاله پژوهشی
تفکیک کور منابع گفتار دوکاناله بر اساس مکانیابی
حسن علیصوفی، مرتضی خادمی و عباس ابراهیمیمقدم
چكیده: در این مقاله یک روش جدید برای تفکیک کور منابع گفتار دوکاناله، بدون نیاز به دانش قبلی در مورد منابع گفتار آمده است. در روش پیشنهادی، با وزندادن به طیف سیگنال ترکیبشده بر اساس فاصله منابع گفتار با میکروفون، تفکیک منابع گفتار انجام میشود. بنابراین ابتدا با تشکیل اسپکتوگرام زاویهای توسط تابع همبستگی متقابل تعمیمیافته، منابع گفتار موجود در سیگنال ترکیبشده مکانیابی میشوند. سپس با توجه به موقعیت مکانی منابع از نظر فاصله با میکروفونها، اندازه طیف سیگنال ترکیبشده، وزندهی میشود. با ضرب اندازه طیف وزن داده شده در مقادیر حاصل از اسپکتوگرام زاویهای و مقایسه آنها با هم، برای هر منبع یک نقاب باینری ساخته میشود. با اعمال نقاب باینری به اندازه طیف سیگنال ترکیبشده، منابع گفتار موجود در آن از هم جدا میشوند. این روش روی دادههای پایگاه داده SiSEC آزمایش و از ابزار سنجش و معیارهای موجود در این پایگاه، برای ارزیابی استفاده شده است. نتایج نشان میدهد که روش پیشنهادی، از جهت معیارهای موجود در پایگاه مذکور با روشهای رقیب قابل مقایسه بوده و پیچیدگی محاسباتی کمتری دارد.
کلیدواژه: اسپکتوگرام زاویهای، تابع همبستگی متقابل تعمیمیافته، تفکیک کور منابع گفتار.
1- مقدمه
تفکیک صدا در مهمانی2 یک مسئله معروف در حوزه تفکیک منابع گفتار است [1]. صداهای ترکیبشده با هم، باید به نحوی از هم جدا شوند که تا حد امکان از اعوجاج و مصنوعیشدن صدا جلوگیری شود و تداخل صداهای مزاحم از بین برود.
وجود صداهای مزاحم در ارتباط تلفنی، امری آزاردهنده است که با حذف آنها میتوان ارتباط بهتری ایجاد کرد. با پیشرفت الگوریتمهای تفکیک صدا و جداسازی بهتر منابع گفتار موجود در سیگنال ترکیبشده از هم، عملکرد ارتباطات تلفنی نیز قابل بهبود است. همچنین با تجهیزکردن سمعک یا هدفون به جداکننده صدا، میتوان صدای اصلی را از تداخلهای مزاحم و یا نویز محیط جدا کرد و درک شنیداری افراد کمشنوا را افزایش داد. ابزارهای تشخیص گوینده و تشخیص گفتار نیز میتوانند صدای اصلی را از بین صداهای دیگر جدا کنند و این امر باعث افزایش عملکرد آنها میشود.
روشهای متعددی در حوزه تفکیک منابع گفتار وجود دارد. در برخی از روشهای تفکیک منابع گفتار، بایستی تعداد منابع موجود در سیگنال ترکیبشده کوچکتر یا مساوی تعداد میکروفون باشد [2]. روشهای دیگری مانند [3] محدودیت قبل را ندارند ولی برای گفتار ترکیبشده بدون انعکاس مناسب هستند. در این تحقیق، دو چالش مهم در تفکیک منابع گفتار بررسی میشود. یک چالش، مربوط به زمانی است که تعداد منابع موجود در سیگنال ترکیبشده از تعداد میکروفونها بیشتر باشد و چالش دیگر وقتی است که محیط ضبط صدا، مشابه با محیطهای واقعی، انعکاس صدا داشته باشد [4]. اگر سیگنال ترکیبشده دریافتی دوکاناله (دومیکروفونه) باشد، از اختلاف شدت و اختلاف زمانی بین دو کانال، میتوان برای غلبه بر چالشهای مذکور استفاده کرد [5] و [6]. در بسیاری از تحقیقات اخیر از ترکیب مکانیابی [7] با یکی از ابزارهای شبکه عصبی [8] یا تجزیه نامنفی ماتریس [9]، تفکیک منابع گفتار انجام شده است.
مراجع [8] و [10] از ترکیب مکانیابی منابع و شبکه عصبی عمیق برای تفکیک منابع گفتار استفاده کردهاند. در گفتار دوکاناله، اختلاف فاز و اختلاف شدت بین دو کانال، ورودیهای شبکه عصبی عمیق هستند. هرچه شبکه عصبی با دادههای بیشتری آموزش ببیند، تفکیک منابع گفتار به صورت بهتری انجام میشود. وابستگی به آموزش، مهمترین ضعف این روش است. همچنین اگر اختلاف بین دادههای آموزش و آزمایش زیاد باشد، عملکرد شبکه عصبی پایین میآید. این روش برای محیطهای واقعی که در آن انعکاس صدا وجود دارد مناسب است.
مراجع [2]، [9] و [11] از ترکیب مکانیابی منابع و تجزیه نامنفی ماتریس برای تفکیک منابع گفتار استفاده کردهاند. با استفاده از اختلاف زمانی بین دو کانال، میتوان منابع موجود در سیگنال ترکیبشده را از طریق یافتن تأخیر زمانی بین دو کانال برای هر منبع، مکانیابی کرد. در برخی از روشهای مکانیابی، فقط از اختلاف زمانی بین دو میکروفون برای مکانیابی منابع استفاده میشود و چون اساس عملکرد روشهای مذکور محاسبه اختلاف فاز است، نیازی به محاسبه اختلاف شدت بین دو میکروفون نیست [2]. استفاده از اطلاعات مکانی و تجزیه نامنفی ماتریس سیگنال ترکیبشده، تفکیک منابع گفتار را به خوبی انجام میدهد. تجزیه نامنفی ماتریس، ابزاری مناسب برای تفکیک منابع گفتار همزمان است و تداخل را به مقدار قابل قبولی حذف میکند ولیکن پیچیدگی محاسباتی این رویکرد زیاد است [9].
در این تحقیق یک روش جدید برای تفکیک منابع گفتار موجود در یک سیگنال ترکیبشده دوکاناله ارائه شده که تفکیک منابع گفتار موجود در سیگنال ترکیبشده را بر اساس فاصله آنها از میکروفونهای 1 و 2 انجام میدهد. در روش پیشنهادی برای مکانیابی منابع، از تابع همبستگی
شکل 1: منبع 1 بین دو میکروفون است و صدای آن در لحظه به میکروفون 1 و در لحظه به میکروفون 2 میرسد. منابع 2 و 3 به ترتیب دارای تأخیر و هستند.
متقابل تعمیمیافته 3(GCC) استفاده شده است [12]. همچنین از فیلتر میانگین به عنوان یک پیشپردازش برای هموارسازی طیف سیگنال ترکیبشده جهت بهبود مکانیابی منابع استفاده میشود [13] و [14]. این روش دارای پیچیدگی محاسباتی کمی بوده و به اطلاعات قبلی از منابع گفتار نیازمند نیست.
در بخش بعدی، مبانی مکانیابی با تابع همبستگی متقابل تعمیمیافته که روش پیشنهادی بر مبنای آن است، بررسی میشود. روش پیشنهادی در بخش 3 شرح داده میشود. ارائه نتایج شبیهسازی و مقایسه با روشهای دیگر در بخش 4 انجام میگردد و نتیجهگیری کلی در بخش 5 بیان میشود.
2- مکانیابی منابع گفتار با روش GCC-PHAT
با توجه به این که در روش پیشنهادی این مقاله، مکانیابی منابع بر مبنای روش مشهور و پرکاربرد 4GCC-PHAT میباشد، لازم است ابتدا روش مذکور مختصراً معرفی گردد. اگر سیگنال ترکیبشده ورودی دوکاناله باشد، از اختلاف زمانی بین کانالها برای مکانیابی منابع گفتار موجود در سیگنال ترکیبشده استفاده میشود. تأخیر در حوزه زمان معادل جابهجایی فاز در حوزه فرکانس است و GCC-PHAT از این موضوع و با تشکیل اسپکتوگرام زاویهای، برای یافتن تأخیر زمانی بین دو میکروفون استفاده میکند [12]. به عنوان مثال شکل 1 وضعیت قرارگرفتن سه منبع گفتار و دو میکروفون را نشان میدهد. همان طور که در این شکل دیده میشود، منبع شماره 1 بین دو میکروفون قرار گرفته و صدای آن در لحظه به میکروفون شماره 1 و با تأخیر به میکروفون 2 میرسد. اگر فاصله بین دو میکروفون و سرعت صدا باشد آن گاه با توجه به شکل 1، بیشترین تأخیر زمانی (از نظر جبری) بین دو میکروفون و کمترین تأخیر است.
شکل 2 بلوک دیاگرام روش GCC-PHAT [12] را برای مکانیابی (یافتن تأخیر زمانی بین دو میکروفون) نشان میدهد. در این روش تبدیل فوریه هر دو سیگنال ترکیبشده ورودی محاسبه میشود. از آنجا که سیگنال گفتار، غیر ایستان است، از تبدیل فوریه زمانکوتاه (STFT) برای محاسبه طیف آن استفاده شده است. مطابق شکل 2، و دو سیگنال ترکیبشده ورودی در حوزه زمان و و به ترتیب تبدیل فوریه زمانکوتاه (متغیرهای و به ترتیب بیانگر زمان و فرکانس هستند) کانالهای 1 و 2 میباشند. در این روش یکی از میکروفونها (مثلاً میکروفون 1) به عنوان مبنا در نظر گرفته میشود. سپس مزدوج مختلط را محاسبه کرده و به ازای مقادیر مختلف تأخیر بین و ، اسپکتوگرام زاویهای سهبعدی طبق (1) محاسبه میشود [12]
(1)
فاز عبارت (برای ایدهآل) صفر و قسمت حقیقی آن یک میشود ولی در عمل به علت وجود تداخل و انعکاس این مقدار کمتر از یک است. بنابراین برای محاسبه تأخیر بین دو کانال، فقط قسمت حقیقی عبارت فوق در نظر گرفته میشود. برای تعیین اختلاف زمانی منابع، بایستی حاصلجمع را روی ابعاد فرکانس و زمان محاسبه کرد. شکل 3 نمایش دوبعدی (یعنی حاصلجمع روی بعد فرکانس) و شکل 4 نمایش یکبعدی (یعنی حاصلجمع روی ابعاد فرکانس و زمان) را نشان میدهند. سه خط تیرهرنگ در شکل 3 نشاندهنده سه منبع گفتار در این شکل است. رابطه (2) نحوه یافتن تأخیر زمانی برای هر منبع را نشان میدهد [12]
(2)
در این رابطه تعداد منابع و تأخیر زمانی منبع ام است. این رابطه به تعداد منابع، نقاط ماکسیمم دارد. سه نقطه ماکسیمم در شکل 4، بیانگر وجود سه منبع گفتار و محل حداکثرشدن آنها، نشاندهنده تأخیر زمانی بین دو میکروفون برای هر منبع است. وقتی فاصله بین دو میکروفون زیاد است، GCC-PHAT یک ابزار مناسب برای مکانیابی منابع است. با افزایش تعداد منابع، اگر دو میکروفون به هم نزدیک باشند و از روش GCC-PHAT برای مکانیابی منابع استفاده شود، آن گاه تعداد نقاط حداکثر از تعداد منابع بیشتر و یافتن تأخیر منابع دچار ابهام میشود [15]. برای حذف نقاط حداکثر خطا از توابع سیگموئید استفاده میشود که مهمترین آنها tanh است [16]. بنابراین وقتی دو میکروفون نزدیک هستند، برای جلوگیری از بروز خطا در یافتن تأخیر زمانی از مدل غیر خطی طبق (3) استفاده میشود [15] و [17]
(3)
در این رابطه یک ضریب وزنی و عددی مثبت است که با تغییر آن میتوان دقت مکانیابی را تغییر داد. در این تحقیق برای دادههای ناشی از دو میکروفون نزدیک به هم، از این مدل غیر خطی استفاده شده است.
3- روش پیشنهادی
شکل 5 بلوک دیاگرام روش پیشنهادی را نشان میدهد. در روش پیشنهادی از فیلتر میانگین برای کاهش اثر تداخل و بهبود مکانیابی برای تفکیک منابع گفتار موجود در سیگنال ترکیبشده دوکاناله استفاده میشود. این فیلتر در بخش 3-1 معرفی میشود. مکانیابی منابع گفتار نیز توسط روش GCC-PHAT انجام میشود. مؤثرترین بخش در این روش، دادن وزن مناسب به طیف سیگنال ترکیبشده بر اساس مکان منابع نسبت به دو میکروفون است. این موضوع در بخش 3-2 توضیح
[1] این مقاله در تاریخ 22 تير ماه 1398 دریافت و در تاریخ 28 بهمن ماه 1399 بازنگری شد.
حسن علیصوفی، گروه برق، دانشکده مهندسی، دانشگاه فردوسی مشهد، مشهد، ایران، (email: hassan_alisoofi@um.ac.ir).
مرتضی خادمی (نویسنده مسئول)، گروه برق، دانشکده مهندسی، دانشگاه فردوسی مشهد، مشهد، ایران، (email: khademi@um.ac.ir).
عباس ابراهیمیمقدم، گروه برق، دانشکده مهندسی، دانشگاه فردوسی مشهد، مشهد، ایران، (email: a.ebrahimi@um.ac.ir).
[2] . Cocktail Party Problem
[3] . Generalized Cross Correlation
[4] . GCC-Phase Transform
شکل 2: بلوک دیاگرام روش GCC-PHAT [10].
شکل 3: نمایش دوبعدی اسپکتوگرام زاویهای روی ابعاد و که سه خط تیرهرنگ بیانگر تأخیر زمانی سه منبع گفتار هستند.
شکل 4: نمایش یکبعدی اسپکتوگرام زاویهای روی بعد که سه نقطه مشخصشده، تأخیر زمانی سه منبع گفتار را نشان میدهند.
شکل 5: بلوک دیاگرام روش پیشنهادی.
داده میشود. در بخش 3-3 تولید نقاب باینری و در بخش 3-4 بازسازی منابع گفتار تفکیکشده بررسی میشوند.
3-1 فیلتر میانگین
تداخل امواج صوتی باعث ایجاد تغییرات شدید در طیف سیگنال گفتار میشود. بنابراین در این مقاله از فیلتر میانگین به عنوان یک پیشپردازش برای هموارکردن طیف سیگنال ترکیبشده جهت بهبود مکانیابی منابع استفاده میشود. همچنین استفاده از فیلتر میانگین باعث کاهش اثر تداخل در منابع بازسازیشده میگردد [13] و [18]. مطابق شکل 5 فیلتر میانگین در دو جا استفاده شده است. در مورد اول، ورودی فیلتر، طیف مختلط سیگنال ترکیبشده ورودی است و چون تغییرات قسمت حقیقی و موهومی طیف گفتار شبیه هم است لذا فیلتر میانگین مطابق (4) به هر فریم زمانی قسمت حقیقی و موهومی به صورت جداگانه اعمال میشود
(4)
در این رابطه اندیس کانال و خروجی فیلتر میانگین است. این فیلتر به صورت تجربی و برای حصول تفکیک بهتر کانالها به دست آمده و در این فیلتر هر نمونه، از نمونه قبلی و بعدی آن تأثیر میبیند. تأثیر نمونههای بیشتر باعث افزایش محاسبات میشود و در برخی موارد، باعث کاهش کیفیت صدای خروجی میگردد. ضمناً اوزان فیلتر چنان انتخاب میشود که باعث سادگی محاسبات میشود. یعنی ضرایب وزنی، توانهای منفی از عدد دو انتخاب شدهاند که این موضوع باعث سادگی در پیادهسازی سختافزاری میگردد. در مورد دوم و طبق (5) فیلتر میانگین به اندازه تبدیل فوریه اعمال میشود
(5)
که در آن، اندازه طیف هموارشده است. بعد از هموارسازی طیف سیگنال ترکیبشده، مکانیابی منابع گفتار انجام میشود، با این تفاوت که به جای و از و استفاده میگردد. با توجه به تأخیر زمانی پیداشده برای هر منبع ، مطابق روش [12]، از اسپکتوگرام زاویهای به ازای به دست میآید یعنی
(6)
3-2 وزندهی کانالها بر اساس مکان منابع
بعد از مکانیابی منابع گفتار و یافتن ها، میتوان با وزندادن مناسب
به باعث بهبود کیفیت صدای خروجی شد. روش کار این است: منبعی که به میکروفون 1 نزدیکتر باشد، ضرایب تقریب طیف آن منبع برای کانال 1 تقویت میگردند و بالعکس ضرایب تقریب طیف آن برای کانال 2 تضعیف میشوند و عکس همین موضوع برای منبعی که به میکروفون 2 نزدیک است نیز برقرار است. اگر منبعی در محدوده میانی بین دو میکروفون باشد، ضرایب تقریب طیف آن منبع برای هر دو کانال بدون تغییر است. رابطه زیر نحوه یافتن وزنهای مناسب را نشان میدهد
(7)
در این رابطه و به ترتیب ضرایب وزنی کانالهای 1 و 2 هستند. همان طور که مشاهده میشود محدوده میانی بین دو زمان و در نظر گرفته شده است. ذکر این نکته لازم است که برای سادهترشدن الگوریتم، وقتی دو عدد برای و در نظر گرفته میشود و وقتی فقط جای و عوض میشود. بعد از اختصاص و ، و وزندهی میشوند و در فاز منابع ضرب میشوند. و فاز وزن داده شده کانالهای 1 و 2 هستند و از (8) به دست میآیند
(8)
وزندادن به سیگنال ترکیبشده بر اساس مکان منابع و ضرب آن در برای ساختن نقاب باینری است. هرچه و بهتر انتخاب شوند، نقاب باینری ساختهشده به سمت نقاب ایدهآل نزدیکتر است و تفکیک منابع بهتر انجام میشود. انتخاب و بهینه، توسط آزمایش شنیداری منطبق بر استاندارد ITU [19] انجام میشود.
3-3 نقاب باینری
هدف از محاسباتی که تا کنون انجام گردید، اختصاص نقاط زمان- فرکانس طیف سیگنال ترکیبشده به منابع گفتار بر اساس فاصله آنها نسبت به دو میکروفون است. این بدان معنی است که برای هر کانال از هر منبع، یک نقاب باینری ساخته میشود تا بتواند مقادیر زمان فرکانس منبع ام را جدا کرده و تداخل بقیه منابع را حذف کند. با مقایسه مقادیر و برای منابع مختلف، میتوان نقابهای باینری و را به ترتیب برای کانال اول و دوم منبع ام ایجاد کرد. این مقایسه برای تمام نقاط زمان- فرکانس انجام میشود. اگر یک نقطه زمان- فرکانس مربوط به منبع ام و کانال ام باشد، مقدار آن یک و در غیر این صورت مقدار آن صفر است. رابطه (9) نحوه ساختن نقاب باینری (نقاب باینری منبع ام و کانال ام) را نشان میدهد. بقیه نقابها به طور مشابه ساخته میشوند
(9)
نقاب باینری هر کانال، وظیفه حذف تداخل همان کانال را دارد یعنی تداخلهای مزاحم را برای کانال 1 و منبع ام حذف میکند. به طور مشابه تداخلهای مزاحم را برای کانال 2 و منبع ام حذف میکند. چون نقابها ایدهآل نیستند بنابراین هنگام بازسازی گفتار خروجی، برخی تداخلها فقط در یک سمت شنیده میشوند. برای بهترشدن عملکرد نقابگذاری در حذف تداخل، نقاب کانالهای 1 و 2 به دست آمده از (9) به ازای هر منبع در هم ضرب میشوند
(10)
که نقاب باینری منبع ام است. این نقاب در هر دو کانال اندازه طیف سیگنال ترکیبشده ضرب میشود و صدای منبع ام را جدا و تداخلهای مزاحم را حذف میکند.
3-4 بازسازی منابع
بعد از آن که برای هر منبع، نقاب باینری ساخته شد، مطابق شکل 5 نقاب مذکور در ضرب میشود و تخمینی از اندازه طیف منابع را میدهد
جدول 1: تأثیر تغییرات ضرایب وزنی و بر روی معیارهای ارزیابی SIR، SDR و SAR به صورت میانگین وقتی فاصله بین دو میکروفون 5 سانتیمتر است.
معیار | ضرایب وزنی | |||
SIR | SDR | SAR |
|
|
24/7 | 23/2 | 03/5 | 1 | 1 |
32/10 | 57/1 | 04/4 | 8/0 | 2/1 |
38/11 | 01/1 | 98/3 | 6/0 | 4/1 |
91/11 | 85/0 | 81/3 | 4/0 | 8/1 |
50/12 | 64/0 | 65/3 | 2/0 | 2 |
جدول 3: نتایج مقایسه روش پیشنهادی با روش رقیب و نقاب باینری ایدهآل با معیارهای SIR، SDR و SAR به صورت میانگین که روی دادههای 1dev 2016 SiSEC اجرا شده است. نمرات بالاتر نشاندهنده تفکیک بهتر منابع گفتار است.
معیار زمان | معیارهای تفکیک | ||||
4 گوینده | 3 گوینده | SIR | SDR | SAR | روش |
74/5 | 08/5 | 46/1 | 99/3 | روش پیشنهادی | |
60/851 | 82/644 | 90/5 | 00/3 | 18/6 | GCC-NMF [11] |
- | - | 33/9 | 99/8 | 31/9 | IBM [19] |
(11)
در این رابطه در هر دو کانال ضرب میشود. نقاب ساختهشده برای هر منبع، در اندازه طیف هموارشده ضرب گردیده است. در این تحقیق، فاز هر نمونه زمان- فرکانس، همان فاز سیگنال ترکیبشده در نظر گرفته میشود. در انتها با افزودن فاز سیگنال ترکیبشده به مقادیر اندازه و عکس تبدیل فوریه زمانکوتاه شکل زمانی منابع موجود در سیگنال ترکیبشده به دست میآید
(12)
بدیهی است که سیگنال ترکیبشده ورودی دوکاناله بود و سیگنال خروجی منابع تفکیکشده نیز دوکاناله است.
4- نتایج شبیهسازی و بحث
برای ارزیابی روش پیشنهادی در این مقاله از دادهها و معیارهای ارزیابی پایگاه داده 1SiSEC استفاده شده است [20]. این پایگاه شامل انواع مختلفی از سیگنال ترکیبشده است. در این مقاله سیگنال ترکیبشده از چند گوینده همزمان و سیگنال ترکیبشده از یک گوینده در محیط نویزی بررسی میشود. ، شامل 16 سیگنال گفتار ترکیبشده بوده که به صورت زنده ضبط شدهاند و تعداد منابع موجود در سیگنالهای ترکیبشده 3 یا 4 است. در این دادهها، سیگنال گفتار، ترکیبشده از گفتار سه زن، سه مرد، چهار زن و چهار مرد وجود دارد. همچنین انواع مختلفی از صداهای فوق از نظر فاصله بین دو میکروفون و زمان انعکاس اتاق موجود است. سیگنال ترکیبشده، با فاصله بین دو میکروفون 5 سانتیمتر و 100 سانتیمتر و همچنین با زمان
جدول 2: تأثیر تغییرات ضرایب وزنی و بر روی معیارهای ارزیابی SIR، SDR و SAR به صورت میانگین وقتی فاصله بین دو میکروفون 100 سانتیمتر است.
معیار | ضرایب وزنی | |||
SIR | SDR | SAR |
|
|
87/5 | 2/2 | 11/5 | 1 | 1 |
03/6 | 70/1 | 51/4 | 7/0 | 5/1 |
85/6 | 36/1 | 95/3 | 5/0 | 2 |
09/7 | 28/1 | 78/3 | 3/0 | 5/2 |
25/8 | 20/1 | 65/3 | 1/0 | 3 |
انعکاس اتاق 130 میلیثانیه و 250 میلیثانیه ساخته شده است. فرکانس نمونهبرداری سیگنالهای فوق 16000 هرتز و طول سیگنال 10 ثانیه است. سیگنالهای گفتار مرجع (ایزولهشده) نیز در پایگاه داده برای ارزیابی الگوریتم تفکیک موجود است.
پایگاه داده SiSEC، یک برنامه آماده با کد Matlab به نام BSS_EVAL برای ارزیابی الگوریتم تفکیک در اختیار محققان قرار داده است [21]. سه معیار اصلی در این برنامه، نسبت سیگنال به اعوجاج 2(SDR)، نسبت سیگنال به تداخل 3(SIR) و نسبت سیگنال به مصنوعیشدن 4(SAR) است.
در این مقاله برای محاسبه ، سیگنال گفتار در پنجره هنینگ به طول 1280 نمونه و مقدار پرش 128 نمونه که به صورت تجربی به دست آمدهاند، ضرب شده و از حاصلضرب، تبدیل فوریه 2048 نقطهای گرفته شده است. وقتی فاصله دو میکروفون از هم 5 سانتیمتر است، در (3) ضریب برای مکانیابی منابع استفاده شده است. از آنجا که تغییر فاصله بین دو میکروفون باعث تغییر ضرایب وزنی میشود، روش پیشنهادی برای فاصله بین دو میکروفون، 5 سانتیمتر و 100 سانتیمتر، جدا ارزیابی شده است. جداول 1 و 2 معیارهای ارزیابی را به ازای وزنهای مختلف و ، برای فاصله بین دو میکروفون 5 سانتیمتر و 100 سانتیمتر روی دادههای نشان میدهند. وقتی فاصله بین دو میکروفون 5 سانتیمتر است، و بوده و وقتی فاصله بین دو میکروفون 100 سانتیمتر است و میباشد. برای یافتن ضرایب وزنی و بهینه، 100 حالت مختلف از تغییرات و آزمایش شده که در جداول 1 و 2 فقط 5 حالت آن نمایش داده شده است. تعیین و بهینه توسط آزمایش شنیداری منطبق بر استاندارد ITU [19] انجام شده است. یعنی به ازای مقادیر مختلف و ، سیگنال منابع گفتار استخراج گردیده و توسط افراد شرکتکننده در آزمون شنیداری ارزیابی گردیده است. مقادیر و بهینه، وقتی فاصله بین دو میکروفون 5 سانتیمتر است، و و برای فاصله 100 سانتیمتر میکروفونها، و است. البته میتوان با افزایش و کاهش ، تداخل بیشتری را حذف کرد (افزایش SIR) ولی این امر باعث افزایش اعوجاج (کاهش SDR) و مصنوعیشدن (کاهش SAR) صدای خروجی میشود. لذا باید یک مصالحه بین معیارهای ارزیابی صورت پذیرد.
نتایج ارزیابی و مقایسه زمان اجرای روش پیشنهادی با روش
GCC-NMF [13] و IBM [22] در جدول 3 آورده شده است. روش (IBM) به معنای اعمال نقاب باینری ایدهآل است. مقایسه جدول 3 نشان میدهد روش پیشنهادی در مقایسه با روش GCC-NMF عملکرد بهتری در حذف تداخل دارد که مهمترین دلیل آن، وزندادن مناسب به سیگنال میکروفونها بر اساس مکان منابع گفتار است. اگرچه صدای خروجی در روش پیشنهادی دارای اعوجاج و مصنوعیشدن بیشتری است (کاهش SDR و SAR)، اما این موضوع اثر کمتری نسبت به تداخل روی کیفیت شنیداری انسان دارد. در جدول 3 مقایسه زمان اجرای هر دو الگوریتم با سختافزار یکسان برای سیگنال ترکیبشده، شامل سه گوینده و چهار گوینده آورده شده است. زمان اجرای روش پیشنهادی بسیار کمتر است و افزایش تعداد منابع موجود در سیگنال ترکیبشده از سه به چهار باعث افزایش 12 درصدی زمان اجرا در روش پیشنهادی و افزایش 32 درصدی در روش رقیب است. همچنین روش GCC-NMF به مقادیر اولیه که به ماتریسهای پایه و ضرایب داده میشود وابسته است و هر بار اجرای آن باعث خروجی متفاوت میشود.
5- نتیجهگیری
در این مقاله روشی جدید معرفی گردید که تفکیک منابع گفتار را بر اساس موقعیت مکانی منابع گفتار و فاصله آنها از دو میکروفون انجام میدهد. از فیلتر میانگین برای هموارکردن طیف و کاهش اثر تداخل استفاده میشود. وجود ضرایب وزنی باعث بهبود کیفیت تفکیک منابع گقتار میشود. این روش بدون نیاز به آموزش و اطلاعات قبلی از منابع گفتار، تفکیک منابع گفتار موجود در سیگنال ترکیبشده را انجام میدهد و همچنین دارای پیچیدگی محاسباتی کمتری نسبت به رقیبان است. این روش برای 3 و 4 گوینده همزمان و با وجود انعکاس محیط آزمایش شده است. در دادههایی که دو میکروفون به هم نزدیک هستند (فاصله 5 سانتیمتر)، حذف تداخل به خوبی انجام میشود و این موضوع اهمیت روش پیشنهادی را در مکالمات تلفن همراه نشان میدهد.
مراجع
[1] S. Haykin and Z. Chen, "The cocktail party problem," Neural Comput., vol. 17, no. 9, pp. 1875-1902, Sept. 2005.
[2] K. Itakura, et al., "Bayesian multichannel audio source separation based on integrated source and spatial models," IEEE/ACM Trans. Audio Speech Lang. Process., vol. 26, no. 4, pp. 831-846, Apr. 2018.
[3] Y. Xie, K. Xie, Z. Wu, and S. Xie, "Underdetermined blind source separation of speech mixtures based on K-means clustering," in Proc. Chinese Control Conf., CCC'19, pp. 42-46, Guangzhou, China, 27-30 Jul. 2019.
[4] M. S. Brandstein and H. F. Silverman, "A robust method for speech signal time-delay estimation in reverberant rooms," in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP'97, vol. 1, pp. 375-378, Munich, Germany, 21-24 Apr. 1997.
[5] Z. Ding, W. Li, and Q. Liao, "Dual-channel speech separation by sub-segmental directional statistics," in Proc. Int. Conf. on Wireless Communications, Signal Processing and Networking, WiSPNET'16, pp. 2287-2291, Chennai, India, 23-35 Mar. 2016.
[6] X. Li, Z. Ding, W. Li, and Q. Liao, "Dual-channel cosine function based ITD estimation for robust speech separation," Sensors, vol. 17, no. 6, Article No.: 1447, 13 pp. 2017.
[7] T. Maitheen and M. S. Lekshmi, "Enhancement of DUET blind source separation using wavelet," International Research Journal of Engineering and Technology, vol. 4, no. 5, pp. 3551-3553, May 2017.
[8] X. Zhang and D. Wang, "Binaural reverberant speech separation based on deep neural networks," in Proc. Interspeech, vol. pp. 2018-2022, Stockholm, Sweden, 20-24 Aug. 2017.
[9] S. U. N. Wood, et al., "Blind speech separation and enhancement with GCC-NMF," IEEE/ACM Trans. Audio, Speech Lang. Process., vol. 25, no. 4, pp. 745-755, Apr. 2017.
[10] Y. Yu, W. Wang, J. Luo, and P. Feng, "Localization based stereo speech separation using deep networks," in Proc. IEEE Int. Conf. Digit. Signal Process, pp. 153-157, Singapore, Singapore, 21-24 Jul. 2015.
[11] S. U. N. Wood and J. Rouat, "Unsupervised low latency speech enhancement with RT-GCC-NMF," IEEE J. Sel. Top. Signal Process., vol. 13, no. 2, pp. 332-346, May 2019.
[12] C. Knapp and G. Carter, "The generalized correlation method for estimation of time delay," IEEE Trans. Acoust., vol. 24, no. 4, pp. 320-327, Aug. 1976.
[13] M. A. J. Sathya and S. P. Victor, Noise Reduction Techniques and Algorithms for Speech Signal Processing, .
[14] A. P. Klapuri, "Multipitch estimation and sound separation by the spectral smoothness principle," in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP'01, vol. 5, pp. 3381-3384, Salt Lake City, UT, USA, 7-11 May 2001.
[15] C. Blandin, A. Ozerov, and E. Vincent, "Multi-source TDOA estimation in reverberant audio using angular spectra and clustering," Signal Processing, vol. 92, no. 8, pp. 1950-1960, Aug. 2012.
[16] F. Nesta, M. Omologo, and P. Svaizer, "A novel robust solution
to the permutation problem based on a joint multiple TDOA estimation," in Proc. IWAENC, 4 pp., Seattle, WA, USA, 14-17 Sept. 2008.
[17] B. Loesch and B. Yang, "Blind source separation based on time-frequency sparseness in the presence of spatial aliasing," in Proc. 9th Int Conf. on Latent Variable Analysis and Signal Separation, 8 pp., St. Malo, France, 27-30 Sept. 2010.
[18] N. Madhu, C. Breithaupt, and R. Martin, "Temporal smoothing of spectral masks in the cepstral domain for speech separation," in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP'08, vol. 1, pp. 45-48, Las Vegas, NV, USA, 30 Mar- 4 Apr. 2008.
[19] [Online]. Available: www.itu.com
[20] [Online]. Available: https://sisec.wiki.irisa.fr.
[21] C. Fevotte, R. Gribonval, and E. Vincent, BSS_EVAL Toolbox User Guide--Revision 2.0, 2005.
[22] A. Liutkus, et al., "The 2016 signal separation evaluation campaign," in Proc. Int. Conf. on Latent Variable Analysis and Signal Separation, pp. 323-332, Grenoble, France, Feb. 2017.
حسن علیصوفی مدرک کارشناسی برق گرایش مخابرات خود را در سال 1381 از دانشگاه شهید باهنر کرمان اخذ نموده است. پس از آن مدرک کارشناسی ارشد مخابرات، گرایش سیستم را در سال 1398 از دانشکاه فردوسی دریافت کرد. زمینهی علاقمندی ایشان پردازش سیگنال تصویر و صدا است.
مرتضي خادمي تحصيلات خود را در مقاطع كارشناسي و كارشناسي ارشد مهندسي برق بهترتيب در سالهاي 1364 و 1366 در دانشگاه صنعتي اصفهان به پايان رسانده است. ايشان از سال 1366 تا 1370 به عنوان عضو هيات علمي (مربي) در دانشگاه فردوسي مشهد به كار مشغول بود. پس از آن به دوره دكتراي مهندسي برق در دانشگاه ولونگونگ (استراليا) وارد گرديده و در سال 1374 موفق به اخذ درجه دكترا در مهندسي برق از دانشگاه مذكور گرديد. دكتر خادمي از سال 1374 مجدداً در دانشكده مهندسي دانشگاه فردوسي مشهد مشغول به فعاليت گرديد و اينك نيز استاد اين دانشكده است. زمينههاي علمي مورد علاقه نامبرده شامل موضوعاتي مانند مخابرات ويدئويي، فشردهسازي ويدئو، پردازش تصوير، پردازش سيگنالهاي پزشكي و پنهانسازي اطلاعات در ويدئو ميباشد.
عباس ابراهيمي مقدم مدرك كارشناسي و كارشناسي ارشد برق گرايش مخابرات خود را به ترتيب از دانشگاههاي صنعتي شريف و صنعتي خواجه نصير اخذ كرده است. ايشان مدرك دكتري خود را از دانشگاه مكمستر كانادا دريافت كرده و از سال 1390 در دانشگاه فردوسي مشهد مشغول تدريس و تحقيق ميباشد. زمينههاي تحقيقاتي مورد علاقه ايشان پردازش گفتار، پردازش تصوير و ويديو، بينايي ماشين و پردازش سيگنالهاي حياتي ميباشد.
[1] . Signal Separation Evaluation Campaign
[2] . Source Distortion Ratio
[3] . Source Interference Ratio
[4] . Source Artifact Ratio