اين مقاله روش جديدي را مطرح ميکند که قادر به استخراج گذرگاهها بهصورت اتوماتيک براي عامل يادگيري تقويتي است. روش پيشنهادي از سيستمهاي بيولوژيکي، رفتار و مسيريابي حيوانات الهام گرفته شده است و بهواسطه تعاملات عامل با محيط پيرامونياش عمل ميکند. عامل با استفاده از خو چکیده کامل
اين مقاله روش جديدي را مطرح ميکند که قادر به استخراج گذرگاهها بهصورت اتوماتيک براي عامل يادگيري تقويتي است. روش پيشنهادي از سيستمهاي بيولوژيکي، رفتار و مسيريابي حيوانات الهام گرفته شده است و بهواسطه تعاملات عامل با محيط پيرامونياش عمل ميکند. عامل با استفاده از خوشهبندي و تشخيص اشيا بهصورت سلسله مراتبي، نشانههايي را پيدا ميکند. اگر اين نشانهها در فضاي اقدام به هم نزديک باشند، گذرگاهها با استفاده از حالتهاي بين آنها استخراج ميشوند. نتايج آزمايشها بهبود قابل ملاحظهاي را در فرايند يادگيري تقويتي در مقايسه با ساير روشهاي مشابه نشان ميدهد.
پرونده مقاله
یادگيري تقويتي، يكي از انواع يادگيري ماشين است كه در آن عامل با استفاده از تراکنش با محيط، به شناخت محیط و بهبود رفتار خود میپردازد. يكي از مشكلات اصلي الگوريتمهاي استاندارد يادگيري تقويتي مانند یادگیری Q اين است که نمیتوانند مسایل بزرگ را در زمان قابل قبولی حل کنند. چکیده کامل
یادگيري تقويتي، يكي از انواع يادگيري ماشين است كه در آن عامل با استفاده از تراکنش با محيط، به شناخت محیط و بهبود رفتار خود میپردازد. يكي از مشكلات اصلي الگوريتمهاي استاندارد يادگيري تقويتي مانند یادگیری Q اين است که نمیتوانند مسایل بزرگ را در زمان قابل قبولی حل کنند. کسب خودکار مهارتها میتواند به شکستن مسأله به زيرمسألههاي کوچکتر و حل سلسلهمراتبی آن کمک کند. با وجود نتایج امیدوارکننده استفاده از مهارتها در یادگیری تقویتی سلسلهمراتبی، در برخی تحقیقات دیگر نشان داده شد که بر اساس وظیفه مورد نظر، اثر مهارتها بر کارایی یادگیری میتواند کاملاً مثبت یا منفی باشد و اگر به درستی انتخاب نشوند میتوانند پیچیدگی حل مسأله را افزایش دهند. از این رو یکی از نقاط ضعف روشهای قبلی کسب خودکار مهارتها، عدم ارزیابی هر یک از مهارتهای کسبشده میباشد. در این مقاله روشهای جدیدی مبتنی بر خوشهبندی گراف برای استخراج زیرهدفها و کسب مهارتها ارائه میگردد. همچنین معیارهای جدید برای ارزیابی مهارتها مطرح میشود که با کمک آنها، مهارتهای نامناسب برای حل مسأله حذف میگردند. استفاده از این روشها در چندین محیط آزمایشگاهی افزایش سرعت یادگیری را به شکل قابل ملاحظهای نشان میدهد.
پرونده مقاله
همزمان با فراگیرشدن تکنولوژی اینترنت اشیا در سالهای اخیر، تعداد دستگاههای هوشمند و به تبع آن حجم دادههای جمعآوریشده توسط آنها به سرعت در حال افزایش است. از سوی دیگر، اغلب برنامههای کاربردی اینترنت اشیا نیازمند تحلیل بلادرنگ دادهها و تأخیر اندک در ارائه خدمات هست چکیده کامل
همزمان با فراگیرشدن تکنولوژی اینترنت اشیا در سالهای اخیر، تعداد دستگاههای هوشمند و به تبع آن حجم دادههای جمعآوریشده توسط آنها به سرعت در حال افزایش است. از سوی دیگر، اغلب برنامههای کاربردی اینترنت اشیا نیازمند تحلیل بلادرنگ دادهها و تأخیر اندک در ارائه خدمات هستند. تحت چنین شرایطی، ارسال دادهها به مراکز داده ابری جهت پردازش، پاسخگوی نیازمندیهای برنامههای کاربردی مذکور نیست و مدل رایانش مه، انتخاب مناسبتری محسوب میگردد. با توجه به آن که منابع پردازشی موجود در مدل رایانش مه دارای محدودیت هستند، استفاده مؤثر از آنها دارای اهمیت ویژهای است.در این پژوهش به مسئله زمانبندی وظایف برنامههای کاربردی اینترنت اشیا در محیط رایانش مه پرداخته شده است. هدف اصلی در این مسئله، کاهش تأخیر ارائه خدمات است که جهت دستیابی به آن، از رویکرد یادگیری تقویتی عمیق استفاده شده است. روش ارائهشده در این مقاله، تلفیقی از الگوریتم Q-Learning، یادگیری عمیق و تکنیکهای بازپخش تجربه و شبکه هدف است. نتایج شبیهسازیها نشان میدهد که الگوریتم DQLTS از لحاظ معیار ASD، ۷۶% بهتر از الگوریتم QLTS و 5/6% بهتر از الگوریتم RS عمل مینماید و نسبت به QLTS زمان همگرایی سریعتری دارد.
پرونده مقاله
محاسبات مه، حوزه تحقیقاتی نوظهوری برای ارائه خدمات محاسبات ابری به لبههای شبکه است. گرههای مه جریان داده و درخواستهای کاربر را در زمان واقعی پردازش میکنند. به منظور بهینهسازی بهرهوری منابع و زمان پاسخ و افزایش سرعت و کارایی، وظایف باید به صورت متوازن بین گرههای م چکیده کامل
محاسبات مه، حوزه تحقیقاتی نوظهوری برای ارائه خدمات محاسبات ابری به لبههای شبکه است. گرههای مه جریان داده و درخواستهای کاربر را در زمان واقعی پردازش میکنند. به منظور بهینهسازی بهرهوری منابع و زمان پاسخ و افزایش سرعت و کارایی، وظایف باید به صورت متوازن بین گرههای مه توزیع شوند، لذا در این مقاله، روشی جدید جهت بهبود توازن بار در محیط محاسبات مه پیشنهاد شده است. در الگوریتم پیشنهادی، هنگامی که وظیفهای از طریق دستگاههای موبایل برای گره مه ارسال میشود، گره مه با استفاده از یادگیری تقویتی تصمیم میگیرد که آن وظیفه را خودش پردازش کند، یا این که پردازش آن را به یکی از گرههای مه همسایه یا به ابر واگذار نماید. در بخش ارزیابی نشان داده شده که الگوریتم پیشنهادی با توزیع مناسب وظایف بین گرهها، تأخیر کمتری را برای اجرای وظایف نسبت به سایر روشهای مقایسهشده به دست آورده است.
پرونده مقاله