استفاده از بافت و ترتیب واژگان در یک عبارت از مواردی است که میتواند به فهم بهتر آن عبارت منجر گردد. در سالهای اخیر، مدلهای زبانی از پیشآموزشیافته، پیشرفت شگرفی در زمینه پردازش زبان طبیعی به وجود آودهاند. در این راستا مدلهای مبتنی بر ترنسفورمر مانند الگوریتم BERT چکیده کامل
استفاده از بافت و ترتیب واژگان در یک عبارت از مواردی است که میتواند به فهم بهتر آن عبارت منجر گردد. در سالهای اخیر، مدلهای زبانی از پیشآموزشیافته، پیشرفت شگرفی در زمینه پردازش زبان طبیعی به وجود آودهاند. در این راستا مدلهای مبتنی بر ترنسفورمر مانند الگوریتم BERT از محبوبیت فزایندهای برخوردار گردیدهاند. این مسئله در زبان فارسی کمتر مورد بررسی قرار گرفته و بهعنوان یک چالش در حوزه وب فارسی مطرح میگردد. بنابراین در این مقاله، درونسازی واژگان فارسی با استفاده از این الگوریتم مورد بررسی قرار میگیرد که به درک معنایی هر واژه بر مبنای بافت متن میپردازد. در رویکرد پیشنهادی، مدل ایجادشده بر روی مجموعه دادگان وب فارسی مورد پیشآموزش قرار میگیرد و پس از طی دو مرحله تنظیم دقیق با معماریهای متفاوت، مدل نهایی تولید میشود. در نهایت ویژگیهای مدل استخراج میگردد و در رتبهبندی اسناد وب فارسی مورد ارزیابی قرار میگیرد. نتایج حاصل از این مدل، بهبود خوبی نسبت به سایر مدلهای مورد بررسی دارد و دقت را نسبت به مدل برت چندزبانه تا حداقل یک درصد افزایش میدهد. همچنین اعمال فرایند تنظیم دقیق با ساختار پیشنهادی بر روی سایر مدلهای موجود توانسته به بهبود مدل و دقت درونسازی بعد از هر فرایند تنظیم دقیق منجر گردد. نتایج رتبهبندی بر مبنای مدلهای نهایی، بیانگر بهبود دقت رتبهبندی وب فارسی نسبت به مدلهای پایه مورد ارزیابی با افزایش حدود 5 درصدی دقت در بهترین حالت است.
پرونده مقاله
رتبهبندی کارآمد اسناد در عصر اطلاعات امروز، نقش مهمی در سیستمهای بازیابی اطلاعات ایفا میکند. این مقاله یک رویکرد جدید برای رتبهبندی اسناد با استفاده از مدلهای درونسازی با تمرکز بر مدل زبانی BERT برای بهبود نتایج رتبهبندی ارائه میکند. رویکرد پیشنهادی از روشهای د چکیده کامل
رتبهبندی کارآمد اسناد در عصر اطلاعات امروز، نقش مهمی در سیستمهای بازیابی اطلاعات ایفا میکند. این مقاله یک رویکرد جدید برای رتبهبندی اسناد با استفاده از مدلهای درونسازی با تمرکز بر مدل زبانی BERT برای بهبود نتایج رتبهبندی ارائه میکند. رویکرد پیشنهادی از روشهای درونسازی واژگان برای بهتصویرکشیدن نمایشهای معنایی پرسوجوهای کاربر و محتوای سند استفاده میکند. با تبدیل دادههای متنی به بردارهای معنایی، ارتباط و شباهت بین پرسوجوها و اسناد تحت روابط رتبهبندی پیشنهادی با هزینه کمتر مورد ارزیابی قرار میگیرد. روابط رتبهبندی پیشنهادی عوامل مختلفی را برای بهبود دقت در نظر میگیرند که این عوامل شامل بردارهای درونسازی واژگان، مکان واژگان کلیدی و تأثیر واژگان باارزش در رتبهبندی بر مبنای بردارهای معنایی است. آزمایشها و تحلیلهای مقایسهای برای ارزیابی اثربخشی روابط پیشنهادی اعمال گردیده است. نتایج تجربی، اثربخشی رویکرد پیشنهادی را با دستیابی به دقت بالاتر در مقایسه با روشهای رتبهبندی رایج نشان میدهند. این نتایج بیانگر آن مسئله است که استفاده از مدلهای درونسازی و ترکیب آن در روابط رتبهبندی پیشنهادی بهطور قابل توجهی دقت رتبهبندی را تا 87/0 در بهترین حالت بهبود میبخشد. این بررسی به بهبود رتبهبندی اسناد کمک میکند و پتانسیل مدل درونسازی BERT را در بهبود عملکرد رتبهبندی نشان میدهد.
پرونده مقاله