نظرکاوی امروزه به عنوان یکی از کاربردهای پراهمیت پردازش زبان طبیعی مطرح است که به دلیل بالابودن حجم و نرخ نظرات تولیدشده نیاز به روشهای ويژهای برای پردازش دارد. امروزه با توجه به ماهيت جريان دادهای نظرات کاربران در شبکههای اجتماعی و سایتهای تجارت الکترونيکی، استفا چکیده کامل
نظرکاوی امروزه به عنوان یکی از کاربردهای پراهمیت پردازش زبان طبیعی مطرح است که به دلیل بالابودن حجم و نرخ نظرات تولیدشده نیاز به روشهای ويژهای برای پردازش دارد. امروزه با توجه به ماهيت جريان دادهای نظرات کاربران در شبکههای اجتماعی و سایتهای تجارت الکترونيکی، استفاده از الگوريتمهای دستهبندی غير افزايشی باعث میگردد به مرور زمان کارايي مدل يادگرفتهشده برای کاوش نظرات کاهش یافته و عملاً غير قابل استفاده شود. علاوه بر این به دليل نامحدودبودن تعداد نظرات، امکان برچسبگذاری تمام نظرات برای ایجاد نمونههای آموزشی جديد و به روزرسانی مدل یادگرفتهشده وجود ندارد. از آنجا که ممکن است نظرات جديد دارای واژگان جديد بوده و یا توزيع دستههای قطبيت تغيير کند، رانش مفهوم نيز میبايست در نظرکاوی افزايشی پشتيبانی گردد.
در اين مقاله یک روش جدید برای یادگيری قطبيت متون به صورت افزايشی ارائه میگردد که با استفاده از یادگيری فعال جریان دادهای، متون ارزشمند برای بهروز رسانی مدل دستهبندی را انتخاب میکند و پس از تعيين برچسب آنها توسط متخصص انسانی، از آنها برای بهبود مدل دستهبندی بهره میگيرد. روش پيشنهادی به صورت برخط و بدون نياز به ذخيره متون، با استفاده از تعداد محدودی متون برچسبخورده آموزش میبیند و قادر به تشخيص و پشتيبانی از رانش مفهوم میباشد. روش پيشنهادی با روشهای شاخص افزايشی و غير افزايشی، با استفاده از مجموعه دادههای معتبر و معيارهای ارزيابی استاندارد مقايسه و ارزيابی میشود.
پرونده مقاله
الگوریتم ماشین بردار پشتیبان یکی از الگوریتمهای مشهور و با کارایی بالا در یادگیری ماشین و کاربردهای مختلف است. از این الگوریتم تا کنون نسخههای متعددی ارائه شده که آخرین نسخه آن ماشینهای بردار پشتیبان دوقلوی مربعات حداقلی فازی میباشد. اغلب کاربردها در دنیای امروز دار چکیده کامل
الگوریتم ماشین بردار پشتیبان یکی از الگوریتمهای مشهور و با کارایی بالا در یادگیری ماشین و کاربردهای مختلف است. از این الگوریتم تا کنون نسخههای متعددی ارائه شده که آخرین نسخه آن ماشینهای بردار پشتیبان دوقلوی مربعات حداقلی فازی میباشد. اغلب کاربردها در دنیای امروز دارای حجم انبوهی از اطلاعات هستند. از سویی دیگر یکی از جنبههای مهم دادههای حجیم، جریانیبودن آنها میباشد که باعث شده است بسیاری از الگوریتمهای سنتی، کارایی لازم را در مواجهه با آن نداشته باشند. در این مقاله برای نخستین بار نسخه افزایشی الگوریتم ماشینهای بردار پشتیبان دوقلوی مربعات حداقلی فازی، در دو حالت برخط و شبه برخط ارائه شده است. برای بررسی صحت و دقت الگوریتم ارائهشده دو کاربرد آن مورد ارزیابی قرار گرفته است. در یک کاربرد، این الگوریتم بر روی 6 دیتاست مخزن UCI اجرا شده که در مقایسه با سایر الگوریتمها از کارایی بالاتری برخوردار است. حتی این کارایی در مقایسه با نسخههای غیر افزایشی نیز کاملاً قابل تشخیص است که در آزمایشها به آن پرداخته شده است. در کاربرد دوم، این الگوریتم در مبحث اینترنت اشیا و به طور خاص در دادههای مربوط به فعالیت روزانه به کار گرفته شده است. طبق نتایج آزمایشگاهی، الگوریتم ارائهشده بهترین کارایی را در مقایسه با سایر الگوریتمهای افزایشی دارد.
پرونده مقاله
دادههای جریانی متشکل از دادههایی است که به ترتیب و با سرعت و حجم زیاد به سیستم وارد میشوند. توزیع این دادهها ناپایدار بوده و در طول زمان ممکن است تغییر کنند. با توجه به اهمیت این نوع دادهها در حوزههایی مهم نظیر اینترنت اشیا، تسریع عملکرد و افزایش توان عملیاتی تحلی چکیده کامل
دادههای جریانی متشکل از دادههایی است که به ترتیب و با سرعت و حجم زیاد به سیستم وارد میشوند. توزیع این دادهها ناپایدار بوده و در طول زمان ممکن است تغییر کنند. با توجه به اهمیت این نوع دادهها در حوزههایی مهم نظیر اینترنت اشیا، تسریع عملکرد و افزایش توان عملیاتی تحلیل دادههای بزرگ جریانی به عنوان موضوعی مهم، مورد توجه محققین است. در روش پیشنهادی، از مفهوم یادگیری ترکیبی برخط در مدل بهبودیافته ماشین یادگیر مفرط به منظور طبقهبندی دادههای جریانی استفاده شده است. به دلیل استفاده از رویکرد افزایشی، در هر لحظه تنها یک بلوک داده بدون نیاز به دسترسی به دادههای پیشین یاد گرفته میشود. همچنین با بهرهگیری از رویکرد آدابوست، وزندهی به طبقهبندیکنندههای پایه و تصمیمگیری در مورد حفظ و یا حذف آنها بر اساس کیفیت پیشبینیها انجام میشود. مزیت دیگر روش پیشنهادی، بهرهگیری از رویکرد مبتنی بر صحت طبقهبندی کننده جهت شناسایی رانش مفهوم است که منجر به تسهیل انطباق مدل و افزایش کارایی آن میشود. آزمایشها بر روی مجموعه دادههای استاندارد انجام گردید و روش پیشنهادی به طور میانگین با کسب 90/0% خاصبودن، 69/0% حساسیت و 87/0% صحت توانست اختلاف معناداری با دو روش رقیب داشته باشد.
پرونده مقاله