خوشهبندی یکی از تکنیکهای مهم کشف دانش در پایگاه دادههای مکانی است. الگوریتمهای خوشهبندی مبتنی بر چگالی یکی از روشهای اصلی برای خوشهبندی در دادهکاوی هستند. الگوریتم DBSCAN پایه روشهای خوشهبندی مبتنی بر چگالی است که علیرغم مزایایی که دارد دارای مشکلاتی نظیر سخت چکیده کامل
خوشهبندی یکی از تکنیکهای مهم کشف دانش در پایگاه دادههای مکانی است. الگوریتمهای خوشهبندی مبتنی بر چگالی یکی از روشهای اصلی برای خوشهبندی در دادهکاوی هستند. الگوریتم DBSCAN پایه روشهای خوشهبندی مبتنی بر چگالی است که علیرغم مزایایی که دارد دارای مشکلاتی نظیر سختبودن تعیین پارامترهای ورودی و عدم توانایی کشف خوشههای با چگالی متفاوت نیز است.
در این مقاله الگوریتمی ارائه شده که برخلاف الگوریتم DBSCAN، قابلیت تشخیص خوشههای با چگالی متفاوت را دارد. این الگوریتم همچنین خوشههای تودرتو و چسبیده به هم را نیز به خوبی تشخیص میدهد. ایده الگوریتم پیشنهادی به این صورت است که ابتدا با استفاده از تکنیکی چگالیهای مختلف مجموعه داده را تشخیص داده و برای هر چگالی یک شعاع Eps تعیین میکند. سپس الگوریتم DBSCAN جهت اعمال بر روی مجموعه داده، با پارامترهای به دست آمده تطبیق داده میشود. الگوریتم پیشنهادی بر روی مجموعه دادههای استاندارد و مصنوعی تست شده است و نتایج به دست آمده با نتایج حاصل از الگوریتم DBSCAN و پنج بهبود الگوریتم DBSCAN شامل: VDBSCAN، VMDBSCAN، LDBSCAN، DVBSCAN و MDDBSCAN که همگی برای رفع مشکل تغییرات چگالی الگوریتم DBSCAN ارائه شدهاند، بر اساس معیارهای ارزیابی روشهای خوشهبندی مقایسه شدهاند. نتایج ارزیابیها نشان میدهد که الگوریتم پیشنهادی از دقت بالا و درصد خطای پایینی برخوردار بوده و نتایج بهتری نسبت به سایر الگوریتمها داشته است.
پرونده مقاله
افزایش حجم پایگاه دادهها، مسئله کاهش ویژگی را ایجاد و پراهمیت میسازد. از این رو در علم دادهکاوی، یکی از زیربخشهای مهم، مسئله کاهش ابعاد (انتخاب ویژگی) میباشد که در آن زیرمجموعهای از ویژگیهایی که بیشترین تأثیر را بر روی الگوهای پنهان داده اصلی دارند انتخاب میشوند چکیده کامل
افزایش حجم پایگاه دادهها، مسئله کاهش ویژگی را ایجاد و پراهمیت میسازد. از این رو در علم دادهکاوی، یکی از زیربخشهای مهم، مسئله کاهش ابعاد (انتخاب ویژگی) میباشد که در آن زیرمجموعهای از ویژگیهایی که بیشترین تأثیر را بر روی الگوهای پنهان داده اصلی دارند انتخاب میشوند. در سالهای اخیر، تئوری مجموعه راف به عنوان یکی از ابزارهای موثر و کارآمد در کاهش ویژگی مورد توجه محققان قرار گرفته است. در این مقاله الگوریتم رقابت لیگ فوتبال برای اولین بار به منظور حل این مسئله مورد استفاده قرار گرفته شده است. توانایی فرار از بهینهای موضعی، امکان بهرهگیری از اطلاعات بازیکنان توزیعشده در فضای جستجو، همگرایی سریع به جوابهای بهین و پارامترهای کم این الگوریتم، انگیزه این انتخاب بود. علاوه بر این نوآوری، ارائه تغییراتی همچون بهرهگیری از مجموع توان بازیکنان ثابت و ذخیره در محاسبه توان هر تیم، در نظر گرفتن ترکیب ساختارهای پیوسته و گسسته برای هر بازیکن، ارائه یک مکانیزم ابتکاری گسستهسازی جدید، ارائه تحلیل هیدرولیک متناسب با مسئله تحقیق برای فرایند برازش هر بازیکن، ارائه اصلاح در عملگرهای تقلید و تهییج بر اساس چالشهای نسخه اصلی را میتوان به عنوان ایدههای پیشنهادی به منظور اصلاح و سازگاری این الگوریتم برای مسئله کاهش ویژگی برشمرد. ایدههای پیشنهادشده بر روی سه سطح داده در ابعاد کوچک، متوسط و بزرگ به همراه چهار الگوریتم فراابتکاری مشهور ژنتیک و بهینهسازی ازدحام ذارت، سیستم ایمنی مصنوعی و لیگ قهرمانان پیادهسازی گردیده و مقایسه نتایج به دست آمده نشان از مزیتهای رقابتی قابل توجه الگوریتم رقابت لیگ فوتبال با سایر الگوریتمها دارد.
پرونده مقاله
در بستر سیستمهای قدرت هوشمند، تعیین پتانسیل منابع پاسخگویی تقاضا به علت اثرگذاری بر تمامی سیاستهای تصمیمگیری حوزه انرژی حایز اهمیت است. در مقاله حاضر، پتانسیل منابع پاسخگویی تقاضا در حضور تجهیزات سرمایشی و گرمایشی، با استفاده از روش الگوریتم طبقهبندی
k-means به ع چکیده کامل
در بستر سیستمهای قدرت هوشمند، تعیین پتانسیل منابع پاسخگویی تقاضا به علت اثرگذاری بر تمامی سیاستهای تصمیمگیری حوزه انرژی حایز اهمیت است. در مقاله حاضر، پتانسیل منابع پاسخگویی تقاضا در حضور تجهیزات سرمایشی و گرمایشی، با استفاده از روش الگوریتم طبقهبندی
k-means به عنوان یک روش دادهکاوی، تعیین میشود. ابتدا دادههای انرژی مصرفی در ساعات پیک دورههای گرم (بهار و تابستان) و دورههای سرد (پاییز و زمستان)، با توجه به تغییرات قیمت و دما، با استفاده از الگوریتم k-means در خوشههای مختلفی گروهبندی میشوند. خوشههایی با امکان حضور وسایل سرمایشی و گرمایشی، انتخاب میشوند. سپس نمودار بازه اطمینان دادههای انرژی مصرفی در خوشههای منتخب با توجه به تغییرات قیمت انرژی ترسیم میگردد. با توجه به فاصله کمینه و بیشینه در میانگین دادههای موجود در آستانه بالا و آستانه متوسط نمودار بازه اطمینان، پتانسیل نامی منابع پاسخگویی تقاضا (بار انعطافپذیر) به دست میآید. اطلاعات انرژی مصرفی، دما و قیمت انرژی شبکه برق BOSTON در یک افق زمانی ششساله به منظور ارزیابی مدل پیشنهادی استفاده میشود.
پرونده مقاله
امروزه، خوشهبندی دادهها به دلیل حجم و تنوع دادهها بسیار مورد توجه قرار گرفته است. مشکل اصلی روشهای خوشهبندهای معمول این است که در دام بهینه محلی گرفتار میآیند. الگوریتمهای فراابتکاری به دلیل داشتن توانایی فرار از بهینههای محلی، نتایج موفقی را در خوشهبندی دادهه چکیده کامل
امروزه، خوشهبندی دادهها به دلیل حجم و تنوع دادهها بسیار مورد توجه قرار گرفته است. مشکل اصلی روشهای خوشهبندهای معمول این است که در دام بهینه محلی گرفتار میآیند. الگوریتمهای فراابتکاری به دلیل داشتن توانایی فرار از بهینههای محلی، نتایج موفقی را در خوشهبندی دادهها نشان دادهاند. الگوریتم بهینهسازی گرگ خاکستری از جمله این دسته الگوریتمها است که قابلیت بهرهبرداری خوبی دارد و در برخی از مسایل راه حل مناسبی ارائه داده است، اما اکتشاف آن ضعیف است و در بعضی از مسایل به بهینه محلی همگرا میشود. در این تحقیق برای بهبود خوشهبندی دادهها، نسخه بهبودیافتهای از الگوریتم بهینهسازی گرگ خاکستری به نام الگوریتم بهینهسازی چهارگرگ خاکستری ارائه شده که با استفاده از بهترین موقعیت دسته چهارم گرگها به نام گرگهای امگای پیشرو در تغییر موقعیت هر گرگ، قابلیت اکتشاف بهبود مییابد. با محاسبه امتیاز هر گرگ نسبت به بهترین راه حل، نحوه حرکت آن مشخص میشود. نتایج الگوریتم پیشنهادی چهارگرگ خاکستری با الگوریتمهای بهینهسازی گرگ خاکستری، بهینهسازی ازدحام ذرات، کلونی زنبور عسل مصنوعی، ارگانیسمهای همزیست و بهینهسازی ازدحام سالپ در مسأله خوشهبندی روی چهارده مجموعه دادگان ارزیابی شده است. همچنین عملکرد الگوریتم پیشنهادی با چند نسخه بهبودیافته از الگوریتم گرگ خاکستری مقایسه شده است. نتایج به دست آمده عملکرد قابل توجه الگوریتم پیشنهادی را نسبت به سایر الگوریتمهای فراابتکاری مورد مقایسه در مسأله خوشهبندی نشان میدهد. بر اساس میانگین معیار F روی تمام مجموعه دادگان، روش پیشنهادی 82/172% و الگوریتم بهینه ذرات 78/284% را نشان میدهد و در مقایسه با نسخههای بهبودیافته الگوریتم گرگ، الگوریتم EGWO که در رتبه بعدی است دارای میانگین معیار F برابر 80/656% میباشد.
پرونده مقاله
دستهبندی، یکی از وظایف مهم دادهکاوی و یادگیری ماشین است و درخت تصمیم به عنوان یکی از الگوریتمهای پرکاربرد دستهبندی، دارای سادگی و قابلیت تفسیر نتایج است. اما در مواجهه با دادههای حجیم، درخت تصمیم بسیار پیچیده خواهد شد و با محدودیتهای حافظه و زمان اجرا مواجه است. چکیده کامل
دستهبندی، یکی از وظایف مهم دادهکاوی و یادگیری ماشین است و درخت تصمیم به عنوان یکی از الگوریتمهای پرکاربرد دستهبندی، دارای سادگی و قابلیت تفسیر نتایج است. اما در مواجهه با دادههای حجیم، درخت تصمیم بسیار پیچیده خواهد شد و با محدودیتهای حافظه و زمان اجرا مواجه است. الگوريتمهاي ساخت درخت باید همه مجموعه داده آموزش و یا بخش زیادی از آن را درون حافظه نگه دارند. الگوریتمهایی که به علت انتخاب زیرمجموعهای از داده با محدودیت حافظه مواجه نیستند، زمان اضافی جهت انتخاب داده صرف میکنند. جهت انتخاب بهترین ویژگی برای ایجاد انشعاب در درخت هم باید محاسبات زیادی بر روی این مجموعه داده انجام شود. در این مقاله، یک رویکرد مقیاسپذیر افزایشی بر مبنای تقسیم سریع و هرس، جهت ساخت درخت تصمیم بر روی مجموعه دادههای حجیم ارائه شده است. الگوریتم ارائهشده درخت تصمیم را با استفاده از کل مجموعه داده آموزش اما بدون نیاز به ذخیرهسازی داده در حافظه اصلی میسازد. همچنین جهت کاهش پیچیدگی درخت از روش پیشهرس استفاده شده است. نتایج حاصل از اجرای الگوریتم بر روی مجموعه دادههای UCI نشان میدهد الگوریتم ارائهشده با وجود دقت و زمان ساخت قابل رقابت با سایر الگوریتمها، بر مشکلات حاصل از پیچیدگی درخت غلبه کرده است.
پرونده مقاله
در عصر کلاندادهها، تکنیکهای تجزیه و تحلیل خودکار مانند دادهکاوی بهطور گستردهای برای تصمیمگیری بهکار گرفته شده و بسیار مؤثر واقع شدهاند. از جمله تکنیکهای دادهکاوی میتوان به طبقهبندی اشاره کرد که یک روش رایج برای تصمیمگیری و پیشبینی است. الگوریتمهای طبقهب چکیده کامل
در عصر کلاندادهها، تکنیکهای تجزیه و تحلیل خودکار مانند دادهکاوی بهطور گستردهای برای تصمیمگیری بهکار گرفته شده و بسیار مؤثر واقع شدهاند. از جمله تکنیکهای دادهکاوی میتوان به طبقهبندی اشاره کرد که یک روش رایج برای تصمیمگیری و پیشبینی است. الگوریتمهای طبقهبندی بهطور معمول بر روی مجموعه دادههای متوازن بهخوبی عمل میکنند. با وجود این، یکی از مشکلاتی که الگوریتمهای طبقهبندی با آن مواجه هستند، پیشبینی صحیح برچسب نمونههای جدید بر اساس یادگیری بر روی مجموعه دادههای نامتوازن است. در این نوع از مجموعه دادهها، توزیع ناهمگونی که دادهها در کلاسهای مختلف دارند باعث نادیده گرفتهشدن نمونههای کلاس با تعداد نمونه کمتر در یادگیری طبقهبند میشوند؛ در حالی که این کلاس در برخی مسائل پیشبینی دارای اهمیت بیشتری است. بهمنظور مقابله با مشکل مذکور در این مقاله، روشی کارا برای متعادلسازی مجموعه دادههای نامتوازن ارائه میشود که با متعادلنمودن تعداد نمونههای کلاسهای مختلف در مجموعه دادهای نامتوازن، پیشبینی صحیح برچسب کلاس نمونههای جدید توسط الگوریتم یادگیری ماشین را بهبود میبخشد. بر اساس ارزیابیهای صورتگرفته، روش پیشنهادی بر اساس دو معیار رایج در ارزیابی طبقهبندی مجموعه دادههای نامتوازن به نامهای «صحت متعادل» و «ویژگی»، عملکرد بهتری در مقایسه با روشهای دیگر دارد.
پرونده مقاله