کاربران نوجوان هنگام جستجوی موضوعهای مورد نظرشان، دایره لغات محدودی را در فرمولبندی پرسوجو به کار میبرند. مسئله مهم دیگر آن است که کاربران نوجوان غالباً بر روی اقلام اولیه ارائهشده در لیست نتایج جستجو کلیک میکنند. در این پژوهش برای ترمیم و جبران این ویژگیها، پیشن چکیده کامل
کاربران نوجوان هنگام جستجوی موضوعهای مورد نظرشان، دایره لغات محدودی را در فرمولبندی پرسوجو به کار میبرند. مسئله مهم دیگر آن است که کاربران نوجوان غالباً بر روی اقلام اولیه ارائهشده در لیست نتایج جستجو کلیک میکنند. در این پژوهش برای ترمیم و جبران این ویژگیها، پیشنهاد میشود که الگوی موضوعی از روی رفتار کاربر نوجوان بر اساس جستجوهای قبلی کشف شوند و با تکیه بر الگوهای یافتشده، پرسوجوی مناسب استخراج و به کاربر نوجوان پیشنهاد گردد. در روش پیشنهادی، الگوهای موضوعی بر اساس ویژگی محبوبیت كلیكها و مرتبطترین موضوعها از روی لاگهای جستجو که عموماً حجیم هستند استخراج میگردند. در ادامه با استفاده از كلاسهبندی دودویی، نزدیکترین پرسوجو به پرسوجوی مورد نظر كاربر نوجوان مشخص میشود. در نتیجه با فیلترنمودن نویز ناوبری موضوعی بر اساس استخراج الگوهای موضوعی کلیکهای کاربران نوجوان یک مدل کاربر با دقت بالاتری برای پیشنهاد پرسوجو حاصل میگردد. روش پیشنهادی با استفاده از ابزارهای Alteryx و weka پیادهسازی و عملکرد آن بر روی لاگ جستجوی AOL که شامل حدود 20 ميليون نمونه تراکنش جستجو مربوط به 650 هزار کاربر میباشد ارزیابی گردید. نتایج آزمایشها نشان میدهند که پرسوجوهای ارائهشده توسط سیستم پیشنهادی به پرسوجوی مورد نظر کاربر نوجوان نزدیکتر است و به تبع آن موجب بهبود دستیابی به نتایج مرتبط میگردد.
پرونده مقاله
این پژوهش در حوزه ترجمه ماشینی و در رابطه با استخراج چندتاییها از پیکرههای دوزبانه به وسیله اسپارک است. در این رابطه، مهمترین چالش این است که عملیات بایستی بر روی پیکرههای متنی بزرگ انجام شود لذا بایستی به صورت توزیعشده و با بهرهگیری از راهکارها و ابزارهای تحلیل د چکیده کامل
این پژوهش در حوزه ترجمه ماشینی و در رابطه با استخراج چندتاییها از پیکرههای دوزبانه به وسیله اسپارک است. در این رابطه، مهمترین چالش این است که عملیات بایستی بر روی پیکرههای متنی بزرگ انجام شود لذا بایستی به صورت توزیعشده و با بهرهگیری از راهکارها و ابزارهای تحلیل دادههای حجیم، طراحی و پیادهسازی شود. در واقع هنگام ترجمه متون، به وفور با چندتاییهایی مواجه میشویم که بایستی چندتاییهای متناظر با هر کدام را بیابیم و در ترجمهمان درج کنیم، این کار میتواند از طریق جستجو در پیکرههایی که شامل چندتاییها و ترجمه متناظر با آنها است انجام شود. روشهای موجود، این کار را به صورت غیر توزیعشده انجام میدهند، لذا ضمن این که نیاز به زمان زیادی دارند، نمیتوانند از پیکرههای خیلی بزرگ بهره ببرند. برای رفع این نارسایی، در این پژوهش یک روش توزیعشده ارائه گردیده که فاصله بین بخشهای چندتاییها را نیز لحاظ میکند. راهحل پیشنهادی به صورت توزیعشده، تمام چندتاییهای ممکن را از جملات پیکره تکزبانه استخراج نموده و با استفاده از ضریب همبستگی، چندتاییهای معتبر جداشده را با استفاده از پیکره دوزبانه ترجمه میکند. روش پیشنهادی روی یک کلاستر محاسباتی با 64 گیگابایت حافظه اصلی و پردازنده 24هستهای، در محیط اسپارک پیادهسازی گردید. دادههای آزمایش شامل پیکرههای فارسی و انگلیسی تکزبانه و نیز پیکره دوزبانه، حاوی به طور متوسط 100 هزار جمله بودند. نتایج آزمایشی نشان میدهند که بدین طریق، زمان اجرا به شدت کاهش و کیفیت ترجمه نیز به طور قابل ملاحظهای بهبود مییابد.
پرونده مقاله
در این پژوهش به دنبال ارتقای یکی از الگوریتمهای کارامد در یادگیری ماشین، به نام جنگل تصادفی هستیم. برای این منظور از تکنیکهای فشردهسازی و موازیسازی بهره میبریم. چالش اساسی مورد توجه در این پژوهش، در رابطه با به کارگیری جنگل تصادفی در پردازش و تحلیل دادههای حجیم می چکیده کامل
در این پژوهش به دنبال ارتقای یکی از الگوریتمهای کارامد در یادگیری ماشین، به نام جنگل تصادفی هستیم. برای این منظور از تکنیکهای فشردهسازی و موازیسازی بهره میبریم. چالش اساسی مورد توجه در این پژوهش، در رابطه با به کارگیری جنگل تصادفی در پردازش و تحلیل دادههای حجیم میباشد. در چنین مواردی، این الگوریتم به دلیل مراجعات پرشمار به حافظه، کارایی معمول و مورد نیاز را ندارد. این پژوهش نشان میدهد که چگونه میتوان با به کارگیری یک شیوه فشردهسازی ابتکاری، در کنار تکنیکهای موازیسازی به هدف مورد نظر دست یافت. در این رابطه، اجزای مشترک درختان در جنگل تصادفی با یکدیگر به اشتراک گذاشته میشوند. علاوه بر این، روش موازیسازی مبتنی بر دستورات برداریسازی به همراه روش موازیسازی مبتنی بر حافظه اشتراکی در جریان پردازش دادهها به کار میروند. به منظور ارزیابی عملکرد روش پیشنهادی، آن را بر روی مجموعه دادههای محک Kaggle که در رقابتهای مربوط به الگوریتمهای یادگیری به وفور به کار میروند، اجرا نمودیم. نتایج بهدستآمده حاکی از آن است که به کارگیری روش فشردهسازی پیشنهادی، 66 درصد بهبود در سرعت پردازش دادهها به دنبال داشته است. همچنین به کارگیری فشردهسازی به همراه موازیسازی یادشده، 96 درصد بهبود را به همراه داشته است. به طور کلی نتایج آزمایشی و تحلیلها دلالت بر این دارند که راهکارهای پیشنهادی، قدمی مؤثر در راستای رسیدن به رایانش سریع برای جنگل تصادفی در اختیار میگذارد.
پرونده مقاله
دستهبندی، یکی از وظایف مهم دادهکاوی و یادگیری ماشین است و درخت تصمیم به عنوان یکی از الگوریتمهای پرکاربرد دستهبندی، دارای سادگی و قابلیت تفسیر نتایج است. اما در مواجهه با دادههای حجیم، درخت تصمیم بسیار پیچیده خواهد شد و با محدودیتهای حافظه و زمان اجرا مواجه است. چکیده کامل
دستهبندی، یکی از وظایف مهم دادهکاوی و یادگیری ماشین است و درخت تصمیم به عنوان یکی از الگوریتمهای پرکاربرد دستهبندی، دارای سادگی و قابلیت تفسیر نتایج است. اما در مواجهه با دادههای حجیم، درخت تصمیم بسیار پیچیده خواهد شد و با محدودیتهای حافظه و زمان اجرا مواجه است. الگوريتمهاي ساخت درخت باید همه مجموعه داده آموزش و یا بخش زیادی از آن را درون حافظه نگه دارند. الگوریتمهایی که به علت انتخاب زیرمجموعهای از داده با محدودیت حافظه مواجه نیستند، زمان اضافی جهت انتخاب داده صرف میکنند. جهت انتخاب بهترین ویژگی برای ایجاد انشعاب در درخت هم باید محاسبات زیادی بر روی این مجموعه داده انجام شود. در این مقاله، یک رویکرد مقیاسپذیر افزایشی بر مبنای تقسیم سریع و هرس، جهت ساخت درخت تصمیم بر روی مجموعه دادههای حجیم ارائه شده است. الگوریتم ارائهشده درخت تصمیم را با استفاده از کل مجموعه داده آموزش اما بدون نیاز به ذخیرهسازی داده در حافظه اصلی میسازد. همچنین جهت کاهش پیچیدگی درخت از روش پیشهرس استفاده شده است. نتایج حاصل از اجرای الگوریتم بر روی مجموعه دادههای UCI نشان میدهد الگوریتم ارائهشده با وجود دقت و زمان ساخت قابل رقابت با سایر الگوریتمها، بر مشکلات حاصل از پیچیدگی درخت غلبه کرده است.
پرونده مقاله