پیشنهاد هشتگ در سیستمهای میکروبلاگ توسط بردار موضوعی: مورد کاربرد توئیتر
محورهای موضوعی : مهندسی برق و کامپیوترمیر سامان تاجبخش 1 , جمشید باقرزاده 2 *
1 - دانشگاه ارومیه
2 - دانشگاه ارومیه
کلید واژه: سیستمهای توصیهگرتوصیه هشتگبردار موضوعیتخصیص دیریکله نهفتهنمونهبرداری Gibbsمیکروبلاگتوئیتر,
چکیده مقاله :
با معرفی وب ۲.۰، دادههای ایستا که در وب ۱.۰ وجود داشتند، حالت ساختیافتهتری به خود گرفتند. ویکیها، بلاگها، شبکههای اجتماعی و سیستمهای بوکمارکینگ اجتماعی مثالهایی از آن هستند که کاربران در آنها محتوا تولید میکنند. یکی از مشکلات تولید محتوا توسط کاربر، عدم یکپارچگی محتوای تولیدشده میباشد که باعث تولید دادههای ناهمگون شده و اجرای الگوریتمها و تکنیکهای کامپیوتری را دشوار میسازد. راه حل وب ۲.۰ برای کاهش اثر این مشکل، استفاده از هشتگ (تگ) برای مطالب منتشرشده توسط کاربر است که خود کاربر به مطالب منتشرشده خود، تگ میزند. این راهکار در میکروبلاگهایی چون توئیتر کماکان رفع نشده است چرا که کاربران با محدودیت کاراکتری (۱۴۰ کاراکتر برای هر توئیت) مواجه هستند و ممکن است تعداد کاراکترهای محتوا باعث شود که برخی کاراکترهای هشتگ در پست نباشد. در این مقاله سعی شده تا با استفاده از روش تخصیص دیریکله نهفته و نمونهبرداری Gibbs فروریخته، مشکل پیشنهاد هشتگ در محیط ناهمگون توئیتر رفع شود. پیشنهاد هشتگ بر روی 8396744 توئیت به زبان انگلیسی پیادهسازی و در آزمایشهای مختلف بین ۱ تا ۵ مرتبطترین هشتگ پیشنهاد شده است. نتایج در حالات مختلف دقت بالای ۲۰% و فراخوانی بالای ۴۵% را نشان میدهد که نشانگر افزایش دقت از ۳% به ۲۱% و افزایش فراخوانی از ۳۲% به ۴۶% در مقایسه با دقیقترین روش بررسیشده پیشنهاد هشتگ توسط LDA بدون تغییر، توسط نویسندگان است.
Static contents defined in Web 1.0 were replaced with structured user generated contents by means of Web 2.0. Wikis, Blogs, Social Networks, and Social Bookmarking Systems are some of the examples where users can generate and publish contents. Generating contents by users leads to creation of heterogeneous data which makes computation and algorithms hard to be applied. Web 2.0 benefits hashtags (tags) in order to solve the heterogeneous problem of the contents in which users can label their contents with hashtags. This technique cannot help in microblogging systems such as Twitter because of number of characters in each tweet (140 characters per tweet) and leads the tags or words be truncated or be used in heterogeneous form. In the current paper, a novel method is introduced based on Latent Dirichlet Allocation which can be used for numericalization tweets in a vector namely topic vector (TV). Additionally, TV is used for modeling users’ taste which can improve hashtag recommendation. The proposed method has been tested on 8396744 real tweets in English. The top 1 to 5 hashtags are recommended for each tweet and results show precision more than 20% and recall more than 45%. The improvement applied by TV shows that the most precision is increased from 3% to 32%, and recall from 21% to 46% to the best method tested by the authors.