نظرکاوی امروزه به عنوان یکی از کاربردهای پراهمیت پردازش زبان طبیعی مطرح است که به دلیل بالابودن حجم و نرخ نظرات تولیدشده نیاز به روشهای ويژهای برای پردازش دارد. امروزه با توجه به ماهيت جريان دادهای نظرات کاربران در شبکههای اجتماعی و سایتهای تجارت الکترونيکی، استفا چکیده کامل
نظرکاوی امروزه به عنوان یکی از کاربردهای پراهمیت پردازش زبان طبیعی مطرح است که به دلیل بالابودن حجم و نرخ نظرات تولیدشده نیاز به روشهای ويژهای برای پردازش دارد. امروزه با توجه به ماهيت جريان دادهای نظرات کاربران در شبکههای اجتماعی و سایتهای تجارت الکترونيکی، استفاده از الگوريتمهای دستهبندی غير افزايشی باعث میگردد به مرور زمان کارايي مدل يادگرفتهشده برای کاوش نظرات کاهش یافته و عملاً غير قابل استفاده شود. علاوه بر این به دليل نامحدودبودن تعداد نظرات، امکان برچسبگذاری تمام نظرات برای ایجاد نمونههای آموزشی جديد و به روزرسانی مدل یادگرفتهشده وجود ندارد. از آنجا که ممکن است نظرات جديد دارای واژگان جديد بوده و یا توزيع دستههای قطبيت تغيير کند، رانش مفهوم نيز میبايست در نظرکاوی افزايشی پشتيبانی گردد.
در اين مقاله یک روش جدید برای یادگيری قطبيت متون به صورت افزايشی ارائه میگردد که با استفاده از یادگيری فعال جریان دادهای، متون ارزشمند برای بهروز رسانی مدل دستهبندی را انتخاب میکند و پس از تعيين برچسب آنها توسط متخصص انسانی، از آنها برای بهبود مدل دستهبندی بهره میگيرد. روش پيشنهادی به صورت برخط و بدون نياز به ذخيره متون، با استفاده از تعداد محدودی متون برچسبخورده آموزش میبیند و قادر به تشخيص و پشتيبانی از رانش مفهوم میباشد. روش پيشنهادی با روشهای شاخص افزايشی و غير افزايشی، با استفاده از مجموعه دادههای معتبر و معيارهای ارزيابی استاندارد مقايسه و ارزيابی میشود.
پرونده مقاله
در این مقاله، یک الگوریتم طبقهبندی نیمهنظارتی جمعی با استفاده از معیار انتخاب مبتنی بر آستانه امتياز اطمينان تحت عنوان SSE-CBS در محیطهای غیر ایستا ارائه میشود. رویکرد پیشنهادی از دادههای دارای برچسب و فاقد برچسب با هدف مقابله با انواع تغییر مفهوم در جریان دادهها چکیده کامل
در این مقاله، یک الگوریتم طبقهبندی نیمهنظارتی جمعی با استفاده از معیار انتخاب مبتنی بر آستانه امتياز اطمينان تحت عنوان SSE-CBS در محیطهای غیر ایستا ارائه میشود. رویکرد پیشنهادی از دادههای دارای برچسب و فاقد برچسب با هدف مقابله با انواع تغییر مفهوم در جریان دادهها استفاده میکند. SSE-CBS مکانیزم مشهور وزندهی بر اساس دقت الگوریتمهای جمعی مبتنی بر بلوک را با ماهیت افزایشی الگوریتم درخت هافدینگ تلفیق میکند. الگوریتم پیشنهادی به طور تجربی با 8 رویکرد منطبق بر جدیدترین دستاوردها، از جمله مدلهای طبقهبندی نظارتی، نیمهنظارتی، منفرد و الگوریتمهای جمعی مبتنی بر بلوک روی مجموعه دادههای متنوع مقایسه شده است. بر اساس نتایج تجربی، SSE-CBS بهترین میانگین دقت طبقهبندی را نسبت به سایر رویکردهای نیمهنظارتی داراست و قادر است در محیطهای دارای تغییر مفهوم با محدودیت داده برچسبدار عملکرد مناسبی داشته باشد.
پرونده مقاله
دادههای جریانی متشکل از دادههایی است که به ترتیب و با سرعت و حجم زیاد به سیستم وارد میشوند. توزیع این دادهها ناپایدار بوده و در طول زمان ممکن است تغییر کنند. با توجه به اهمیت این نوع دادهها در حوزههایی مهم نظیر اینترنت اشیا، تسریع عملکرد و افزایش توان عملیاتی تحلی چکیده کامل
دادههای جریانی متشکل از دادههایی است که به ترتیب و با سرعت و حجم زیاد به سیستم وارد میشوند. توزیع این دادهها ناپایدار بوده و در طول زمان ممکن است تغییر کنند. با توجه به اهمیت این نوع دادهها در حوزههایی مهم نظیر اینترنت اشیا، تسریع عملکرد و افزایش توان عملیاتی تحلیل دادههای بزرگ جریانی به عنوان موضوعی مهم، مورد توجه محققین است. در روش پیشنهادی، از مفهوم یادگیری ترکیبی برخط در مدل بهبودیافته ماشین یادگیر مفرط به منظور طبقهبندی دادههای جریانی استفاده شده است. به دلیل استفاده از رویکرد افزایشی، در هر لحظه تنها یک بلوک داده بدون نیاز به دسترسی به دادههای پیشین یاد گرفته میشود. همچنین با بهرهگیری از رویکرد آدابوست، وزندهی به طبقهبندیکنندههای پایه و تصمیمگیری در مورد حفظ و یا حذف آنها بر اساس کیفیت پیشبینیها انجام میشود. مزیت دیگر روش پیشنهادی، بهرهگیری از رویکرد مبتنی بر صحت طبقهبندی کننده جهت شناسایی رانش مفهوم است که منجر به تسهیل انطباق مدل و افزایش کارایی آن میشود. آزمایشها بر روی مجموعه دادههای استاندارد انجام گردید و روش پیشنهادی به طور میانگین با کسب 90/0% خاصبودن، 69/0% حساسیت و 87/0% صحت توانست اختلاف معناداری با دو روش رقیب داشته باشد.
پرونده مقاله