تشخیص سرطان سینه با رویکرد متوازنسازی مجموعه دادهها
زینب عباسی
1
(
دانشكده مهندسی، مرکز آموزش عالی محلات، محلات، ایران
)
کلید واژه: دادههای نامتوازن, نمونهبرداری فزاینده, oversampling, تشخیص خودکار بیماری.,
چکیده مقاله :
یکی از چالشهای بزرگ در تشخیص خودکار بیماریها، وجود مجموعه دادههای نامتوازن است. عدم توازن در کلاسهای داده، باعث شکست در تشخیص صحیح بیماری توسط سیستمهای تشخیصی میشود. این پژوهش الگوریتم جدیدی برای انتخاب و متوازن سازی نمونهها پیشنهاد داده که بر پایه الگوریتم ReliefF، یک الگوریتم انتخاب ویژگی، است. در الگوریتم پیشنهادی، ابتدا نمونهها بر اساس شاخص مشابهت با نمونههای همکلاسی و کلاس مخالف، وزندهی میشوند. پس از رتبهبندی نمونهها بر اساس وزن آنها، مجموعه داده با استفاده از روش نمونهبرداری فزایندهمتوازن میشود. الگوریتم ارائه شده توانایی کار با مجموعه دادههای چند کلاسه و انواع دادههای رشتهای و عددی و وجود مقادیر مفقود را دارد. علاوه بر این، به دلیل امکان انجام محاسبات به طور موازی برای هر نمونه، سربار محاسباتی کمتری نسبت به سایر الگوریتمهای متوازنسازی دارد. این الگوریتم میتواند دادهها را به طور کامل متوازن کرده و نمونههای با اهمیت را تکثیر کند. الگوریتم پیشنهادی روی سه مجموعه سرطان سینه ویسکانسین (WBCD)، مجموعه تشخیصی سرطان سینه ویسکانسین (WDBCD) و مجموعه سرطان سینه SEER اجرا شده است و سپس مجموعههای متوازن شده با الگوریتمهای مختلف طبقهبندی شدند. نتایج طبقهبندی نشاندهنده کارایی روش پیشنهادی و افزایش صحت تشخیص بیماری هستند.
چکیده انگلیسی :
Imbalanced datasets are one of the major challenges in the automatic diagnosis of diseases. The imbalance in data classes leads to failures in diagnosis, which can be particularly dangerous for diseases such as breast cancer. In this study, a modified version of the ReliefF algorithm, which is a feature selection algorithm, is proposed. The modifications have been made to select and balance instances effectively. The proposed algorithm balances the number of instances in breast cancer datasets to improve diagnosis. In this algorithm, instances are weighted and ranked. After ranking them, the dataset is balanced using the proposed oversampling method based on the instance weights. This algorithm has been applied to two breast cancer datasets: Wisconsin Breast Cancer Dataset (WBCD) and Wisconsin Diagnostic Breast Cancer Dataset (WDBCD). The balanced dataset was then classified using various classification algorithms. The classification results show that performance evaluation metrics have improved compared to the classification of the original data. The best results obtained in WBCD dataset are Accuracy = 98.04%, G-Mean = 98.00% and in WDBCD dataset are Accuracy = 98.31%, G-Mean = 98.35%. The obtained results indicate the effectiveness of the proposed algorithm in breast cancer diagnosis.