امروزه در بسیاری از مسایل دنیای واقعی همچون شبکههای اجتماعی، با جریان داده مواجه هستیم که در هر لحظه داده جدیدی به مجموعه دادههای موجود اضافه میشود. از آنجا که کارایی بیشتر الگوریتمهای دادهکاوی با افزایش ابعاد دادهها کاهش مییابد، تحلیل این جریان دادهها در سالها چکیده کامل
امروزه در بسیاری از مسایل دنیای واقعی همچون شبکههای اجتماعی، با جریان داده مواجه هستیم که در هر لحظه داده جدیدی به مجموعه دادههای موجود اضافه میشود. از آنجا که کارایی بیشتر الگوریتمهای دادهکاوی با افزایش ابعاد دادهها کاهش مییابد، تحلیل این جریان دادهها در سالهای اخیر به یکی از مسایل مهم در دادهکاوی تبدیل شده است. روشهای انتخاب ویژگی در جریان دادههای برخط، روشهای کارآمدی هستند که با حذف ویژگیهای افزونه و نامربوط باعث کاهش ابعاد کلان دادهها و در نتیجه بهبود کارایی الگوریتمها میشوند. از چالشهای اساسی در رابطه با الگوریتمهای انتخاب ویژگی برخط، در دسترس نبودن همه دادهها قبل از شروع الگوریتم، مقیاسپذیری، دقت ویژگیهای انتخابشده و اندازه زیرمجموعه انتخابی را میتوان نام برد. تا کنون الگوریتمهای انتخاب ویژگی موجود تنها توانستهاند بخش محدودی از این چالشها را به صورت همزمان مرتفع کنند. به همین منظور در این مقاله یک راهکار انتخاب ویژگی برخط به نام MMIOSFS با استفاده از اطلاعات متقابل ارائه دادهایم که حد واسط بهتری را میان چالشهای ذکرشده به دست میآورد. در روش پیشنهادی در ابتدا مجموعه ویژگیها با استفاده از تکنیک متغیرهای تصادفی توأم به یک ویژگی نگاشت و سپس اطلاعات متقابل ویژگی جدید با برچسب به عنوان میزان ارتباط مجموعه ویژگیهای اولیه در نظر گرفته میشود. کارایی روش پیشنهادی با چند الگوریتم انتخاب ویژگی برخط با استفاده از دستهبندهای مختلف مورد ارزیابی قرار گرفته و نتایج به دست آمده نشان میدهد الگوریتم پیشنهادی معمولاً حد واسط بهتری میان چالشها به دست میآورد.
پرونده مقاله