استفاده از بافت و ترتیب واژگان در یک عبارت از مواردی است که میتواند به فهم بهتر آن عبارت منجر گردد. در سالهای اخیر، مدلهای زبانی از پیشآموزشیافته، پیشرفت شگرفی در زمینه پردازش زبان طبیعی به وجود آودهاند. در این راستا مدلهای مبتنی بر ترنسفورمر مانند الگوریتم BERT چکیده کامل
استفاده از بافت و ترتیب واژگان در یک عبارت از مواردی است که میتواند به فهم بهتر آن عبارت منجر گردد. در سالهای اخیر، مدلهای زبانی از پیشآموزشیافته، پیشرفت شگرفی در زمینه پردازش زبان طبیعی به وجود آودهاند. در این راستا مدلهای مبتنی بر ترنسفورمر مانند الگوریتم BERT از محبوبیت فزایندهای برخوردار گردیدهاند. این مسئله در زبان فارسی کمتر مورد بررسی قرار گرفته و بهعنوان یک چالش در حوزه وب فارسی مطرح میگردد. بنابراین در این مقاله، درونسازی واژگان فارسی با استفاده از این الگوریتم مورد بررسی قرار میگیرد که به درک معنایی هر واژه بر مبنای بافت متن میپردازد. در رویکرد پیشنهادی، مدل ایجادشده بر روی مجموعه دادگان وب فارسی مورد پیشآموزش قرار میگیرد و پس از طی دو مرحله تنظیم دقیق با معماریهای متفاوت، مدل نهایی تولید میشود. در نهایت ویژگیهای مدل استخراج میگردد و در رتبهبندی اسناد وب فارسی مورد ارزیابی قرار میگیرد. نتایج حاصل از این مدل، بهبود خوبی نسبت به سایر مدلهای مورد بررسی دارد و دقت را نسبت به مدل برت چندزبانه تا حداقل یک درصد افزایش میدهد. همچنین اعمال فرایند تنظیم دقیق با ساختار پیشنهادی بر روی سایر مدلهای موجود توانسته به بهبود مدل و دقت درونسازی بعد از هر فرایند تنظیم دقیق منجر گردد. نتایج رتبهبندی بر مبنای مدلهای نهایی، بیانگر بهبود دقت رتبهبندی وب فارسی نسبت به مدلهای پایه مورد ارزیابی با افزایش حدود 5 درصدی دقت در بهترین حالت است.
پرونده مقاله