بهبود رتبهبندی با استفاده از BERT
محورهای موضوعی : مهندسی برق و کامپیوترشکوفه بستان 1 * , علی محمد زارع بیدکی 2 , محمدرضا پژوهان 3
1 - دانشكده مهندسی كامپيوتر، دانشگاه یزد، ایران
2 - دانشكده مهندسی كامپيوتر، دانشگاه یزد، ایران
3 - دانشكده مهندسی كامپيوتر، دانشگاه یزد، ایران
کلید واژه: بردار معنایی, درونسازی واژه, رتبهبندی, یادگیری عمیق,
چکیده مقاله :
رتبهبندی کارآمد اسناد در عصر اطلاعات امروز، نقش مهمی در سیستمهای بازیابی اطلاعات ایفا میکند. این مقاله یک رویکرد جدید برای رتبهبندی اسناد با استفاده از مدلهای درونسازی با تمرکز بر مدل زبانی BERT برای بهبود نتایج رتبهبندی ارائه میکند. رویکرد پیشنهادی از روشهای درونسازی واژگان برای بهتصویرکشیدن نمایشهای معنایی پرسوجوهای کاربر و محتوای سند استفاده میکند. با تبدیل دادههای متنی به بردارهای معنایی، ارتباط و شباهت بین پرسوجوها و اسناد تحت روابط رتبهبندی پیشنهادی با هزینه کمتر مورد ارزیابی قرار میگیرد. روابط رتبهبندی پیشنهادی عوامل مختلفی را برای بهبود دقت در نظر میگیرند که این عوامل شامل بردارهای درونسازی واژگان، مکان واژگان کلیدی و تأثیر واژگان باارزش در رتبهبندی بر مبنای بردارهای معنایی است. آزمایشها و تحلیلهای مقایسهای برای ارزیابی اثربخشی روابط پیشنهادی اعمال گردیده است. نتایج تجربی، اثربخشی رویکرد پیشنهادی را با دستیابی به دقت بالاتر در مقایسه با روشهای رتبهبندی رایج نشان میدهند. این نتایج بیانگر آن مسئله است که استفاده از مدلهای درونسازی و ترکیب آن در روابط رتبهبندی پیشنهادی بهطور قابل توجهی دقت رتبهبندی را تا 87/0 در بهترین حالت بهبود میبخشد. این بررسی به بهبود رتبهبندی اسناد کمک میکند و پتانسیل مدل درونسازی BERT را در بهبود عملکرد رتبهبندی نشان میدهد.
In today's information age, efficient document ranking plays a crucial role in information retrieval systems. This article proposes a new approach to document ranking using embedding models, with a focus on the BERT language model to improve ranking results. The proposed approach uses vocabulary embedding methods to represent the semantic representations of user queries and document content. By converting textual data into semantic vectors, the relationships and similarities between queries and documents are evaluated under the proposed ranking relationships with lower cost. The proposed ranking relationships consider various factors to improve accuracy, including vocabulary embedding vectors, keyword location, and the impact of valuable words on ranking based on semantic vectors. Comparative experiments and analyses were conducted to evaluate the effectiveness of the proposed relationships. The empirical results demonstrate the effectiveness of the proposed approach in achieving higher accuracy compared to common ranking methods. These results indicate that the use of embedding models and their combination in proposed ranking relationships significantly improves ranking accuracy up to 0.87 in the best case. This study helps improve document ranking and demonstrates the potential of the BERT embedding model in improving ranking performance.
[1] Y. Yum, et al., "A word pair dataset for semantic similarity and relatedness in Korean medical vocabulary: reference development and validation," JMIR Medical Informatics, vol. 9, no. 6, Article ID: e29667, Jun. 2021.
[2] E. Hindocha, V. Yazhiny, A. Arunkumar, and P. Boobalan, "Short-text semantic similarity using GloVe word embedding," International Research J. of Engineering and Technology, vol. 6, no. 4, pp. 553-558, Apr. 2019.
[3] J. Zhang, Y. Liu, J. Mao, W. Ma, and J. Xu, "User behavior simulation for search result re-ranking," ACM Trans. on Information Systems, vol. 41, no. 1, Article ID: 5, 35 pp., Jan. 2023.
[4] V. Zosimov and O. Bulgakova, "Usage of inductive algorithms for building a search results ranking model based on visitor rating evaluations," in Proc. IEEE 13th Int. Scientific and Technical Conf. on Computer Sciences and Information Technologies, CSIT'18, pp. 466-469, Lviv, Ukraine, 11-14 Sept. 2018.
[5] B. Mitra and N. Craswell, Neural Models for Information Retrieval, arXiv preprint arXiv:1705.01509, vol. 1, 2017.
[6] V. Gupta, A. Dixit, and S. Sethi, "A comparative analysis of sentence embedding techniques for document ranking," J. of Web Engineering, vol. 21, no. 7, pp. 2149-2186, 2022.
[7] J. Pennington, R. Socher, C. Ma, and C. Manning, "GloVe: global vectors for word representation," in Proc. Conf. on Empirical Methods in Natural Language Processing, EMNLP'14, pp. 1532-1543, Doha, Qatar, 25-29 Oct. 2014.
[8] T. Mikolov, K. Chen, G. Corrado, and J. Dea, "Efficient estimation of word representations in vector space," in Proc. In. Conf. on Learning Representations, ICLR'13, 12 pp., Scottsdale, AZ, USA, 2-4 May 2013.
[9] P. Bojanowski, E. Grave, A. Joulin, and T. Mikolov, "Enriching word vectors with subword information," Trans. of the Association for Computational Linguistics, vol. 5, pp. 135-146, 2017.
[10] M. E. Peters, et al., "Deep contextualized word representations," in Proc. Conf. of the North American Chapter of the Association of Computational Linguistics, NAACL-HLT'18, 11 pp., New Orleans, LA, USA, 1-6 Jun. 2018.
[11] J. Devlin, M. W. Chang, and K. L. Kristina, "BERT: pre-training of deep bidirectional transformers for language understanding," in Proc. Conf. of the North American Chapter of the Association of Computational Linguistics, NAACL-HLT'18, 16 pp., New Orleans, LA, USA, 1-6 Jun. 2018.
[12] T. Brown, et al., "Language models are few-shot learners," in Proc. 34th Conf. on Neural Information Processing Systems, NeurIPS'20, 25 pp., Vancouver, Canada, 6-12 Dec. 2020.
[13] P. Sherki, S. Navali, and R. Inturi, "Retaining semantic data in binarized word embedding," in ¬Proc. IEEE 15th Int. Conf. on Semantic Computing, ICSC'21, pp. 130-133, Laguna Hills, CA, USA, 27-29 Jan. 2021.
[14] L. Shaohua, C. Tat-Seng, Z. Jun, and C. Miao, Generative Topic Embedding: A Continuous Representation of Documents (Extended Version with Proofs), arXiv preprint arXiv:1606.02979, vol. 1, 2016.
[15] B. Mitra, E. Nalisnick, N. Craswell, and R. Caruana, "A dual embedding space model for document ranking," in Proc. 25th Int. Conf. Companion on World Wide Web, WWW'16, 10 pp., Montreal, Canada, 11-15 Apr. 2016.
[16] M. Dehghani, H. Zamani, A. Severyn, and J. Kamps, "Neural ranking models with weak supervision," in Proc. of the 40th Int. ACM SIGIR Conf. on Research and Development in Information Retrieval, SIGIR '17, pp. 65-74, Tokyo, Japan, 7-11 Aug. 2017.
[17] C. Xiong, Z. Dai, and J. Callan, "End-to-end neural ad-hoc ranking with kernel pooling," in Proc. of the 40th Int. ACM SIGIR Conf. on Research and Development in Information Retrieval, pp. 55-64, Tokyo, Japan, 7-11 Aug. 2017.
[18] R. Brochier, A. Guille, and J. Velcin, "Global vectors for node representations," in Proc. ACM World Wide Web Conf., WWW'19, San Francisco, pp. 2587-2593, San Francisco, CA, USA, 13-17 May 2019.
[19] A. Gourru and J. Velcin, "Gaussian embedding of linked documents from a pretrained semantic space," in Proc. 29th Int. Joint Conf. on Artificial Intelligence, IJCAI'20, pp. 3912-3918, Yokohama, Japan, 8-10 Jan. 2021.
[20] R. Menon, J. Kaartik, and K. Nambiar, "Improving ranking in document based search systems," in Proc. 4th Int. Conf. on Trends in Electronics and Informatics, ICOEI'20, pp. 914-921, Tirunelveli, India, 15-17 Jun. 2020.
[21] J. Li, C. Guo, and Z. Wei, "Improving document ranking with relevance-based entity embeddings," in Proc. 8th Int. Conf. on Big Data and Information Analytics, BigDIA'22, China, pp. 186-192, Guiyang, China, 24-25 Aug. 2022.
[22] S. Han, X. Wang, M. Bendersky, and M. Najork, Learning-to-Rank with BERT in TF-Ranking, Google Research Tech Report, 2020.
[23] ش. بستان، ع. زارع بیدکی و م. ر. پژوهان، "درون¬سازی معنایی واژه¬ها با استفاده از BERT روی وب فارسی،" نشریه مهندسی برق و مهندسی کامپیوتر ایران، ب- مهندسی کامپیوتر، سال 21، شماره 2، صص. 100-89، تابستان 1402.
[24] M. Farahani, M. Gharachorloo, M. Farahani, and M. Manthouri, "Parsbert: transformer-based model for Persian language understanding," Neural Processing Letters, vol. 53, pp. 3831-3847, 2021.
[25] D. Yang and Y. Yin, "Evaluation of taxonomic and neural embedding methods for calculating semantic similarity," Natural Language Engineering, vol. 28, no. 6, pp. 733-761, Nov. 2022.
[26] R. Mihalcea, C. Corley, and C. Strapparava, "Corpus-based and knowledge-based measures of text semantic similarity," in Proc. 21st National Conf. on Artificial Intelligence, vol. 1, pp. 775-780, Boston, MA, USA, 16-20 Jul. 2006.
[27] K. Jarvelin and J. Kekalainen, "Cumulated gain-based evaluation of IR techniques," ACM Trans. on Information Systems, vol. 20, no. 4, pp. 422-446, Oct. 2002.
نشریه مهندسی برق و مهندسی کامپیوتر ایران، ب- مهندسی کامپیوتر، سال 22، شماره 1، بهار 1403 21
مقاله پژوهشی
بهبود رتبهبندی با استفاده از BERT
شکوفه بستان، علیمحمد زارعبیدکی و محمدرضا پژوهان
چکیده: رتبهبندی کارآمد اسناد در عصر اطلاعات امروز، نقش مهمی در سیستمهای بازیابی اطلاعات ایفا میکند. این مقاله یک رویکرد جدید برای رتبهبندی اسناد با استفاده از مدلهای درونسازی با تمرکز بر مدل زبانی BERT برای بهبود نتایج رتبهبندی ارائه میکند. رویکرد پیشنهادی از روشهای درونسازی واژگان برای بهتصویرکشیدن نمایشهای معنایی پرسوجوهای کاربر و محتوای سند استفاده میکند. با تبدیل دادههای متنی به بردارهای معنایی، ارتباط و شباهت بین پرسوجوها و اسناد تحت روابط رتبهبندی پیشنهادی با هزینه کمتر مورد ارزیابی قرار میگیرد. روابط رتبهبندی پیشنهادی عوامل مختلفی را برای بهبود دقت در نظر میگیرند که این عوامل شامل بردارهای درونسازی واژگان، مکان واژگان کلیدی و تأثیر واژگان باارزش در رتبهبندی بر مبنای بردارهای معنایی است. آزمایشها و تحلیلهای مقایسهای برای ارزیابی اثربخشی روابط پیشنهادی اعمال گردیده است. نتایج تجربی، اثربخشی رویکرد پیشنهادی را با دستیابی به دقت بالاتر در مقایسه با روشهای رتبهبندی رایج نشان میدهند. این نتایج بیانگر آن مسئله است که استفاده از مدلهای درونسازی و ترکیب آن در روابط رتبهبندی پیشنهادی بهطور قابل توجهی دقت رتبهبندی را تا 87/0 در بهترین حالت بهبود میبخشد. این بررسی به بهبود رتبهبندی اسناد کمک میکند و پتانسیل مدل درونسازی BERT را در بهبود عملکرد رتبهبندی نشان میدهد.
کلیدواژه: بردار معنایی، درونسازی واژه، رتبهبندی، یادگیری عمیق.
1- مقدمه
رتبهبندی اسناد بر اساس پرسوجوی کاربر، فرایندی است که در آن اسناد بر اساس میزان ارتباط با درخواست کاربر، رتبهبندی یا مرتب میشوند. هنگامی که کاربر یک پرسوجو را در یک موتور جستجو یا یک سیستم بازیابی اسناد وارد میکند، سیستم به تجزیه و تحلیل پرسوجو پرداخته و مجموعهای از اسناد مرتبط را بازیابی میکند. با این حال، همه اسناد به یک میزان به پرسوجوی دریافتی مرتبط نیستند؛ بنابراین هدف از رتبهبندی، اولویتدهی به اسنادی است که به نیازهای اطلاعاتی کاربر نزدیکتر باشند. فرایند رتبهبندی معمولاً شامل عوامل متعددی است از جمله ارتباط محتوای سند با درخواست کاربر، اعتبار منبع، تازگی و محبوبیت. طی سالهای اخیر، الگوریتمها و روشهای مختلفی برای ارزیابی ارتباط و رتبهبندی اسناد ارائه گردیده است. در شیوه سنتی، رتبهبندی اسناد بر اساس تطبیق واژه کلیدی است که در آن اسناد حاوی عبارات پرسوجو، رتبه بالاتری کسب میکنند. با این حال با پیشرفت در پردازش زبان طبیعی و یادگیری عمیق، رویکردهای جدیدتر با درک معنایی پرسوجو و محتوای سند ارائه گردیدند. در رویکرد درونسازی واژگان، هر واژه یا عبارت بهصورت بردارهای متراکم نمایش داده میشود که میتوان از آن در رتبهبندی بهتر اسناد استفاده نمود. به طور کلی، رتبهبندی اسناد بر اساس پرسوجوهای کاربر، جزئی حیاتی از سیستمهای بازیابی اطلاعات است که تضمین میکند مرتبطترین و مفیدترین اسناد بر اساس درخواستهای جستجوی کاربران ارائه گردد.
مدلهای سنتی اغلب بر اساس نمایش صریح ویژگیهای متنی عمل میکنند؛ اما مدلهای درونسازی از نمایشهای توزیعشده و درونسازی واژگان، عبارات یا اسناد استفاده میکنند. مدلهای درونسازی، این نمایشها را از طریق روشهای مبتنی بر شبکه عصبی مثل Word2vec، GloVe یا BERT یاد میگیرند و معنا و بافت معنایی کلمات و اسناد را در یک فضای برداری متراکم به تصویر میکشند. مدلهای سنتی قادر به درک معنایی دقیق متن نیستند؛ زیرا در درجه اول بر ویژگیهای سطحی و الگوهای آماری در متن تمرکز میکنند. اما مدلهای درونسازی در درک معنایی متون و عبارات موفقتر عمل میکنند؛ زیرا با نگاشت واژگان یا اسناد به بردارهای متراکم میتوانند روابط، شباهتها و ارتباطات پیچیده معنایی را به تصویر بکشند. بنابراین در مدلهای درونسازی از قدرت نمایش توزیعشده و الگوریتمهای شبکههای عصبی استفاده میشود که در مقایسه با مدلهای سنتی که بر ویژگیهای صریح تکیه دارند، امکان درک معنایی و تعمیم پیشرفتهتر را فراهم میکند.
تمرکز اصلی در رتبهبندی اسناد بر مبنای شباهت معنایی2، بر اولویتبخشیدن به اسنادی است که از نظر بافتی به پرسوجوی کاربر نزدیکتر هستند. در این رویکرد، میزان ارتباط دو واژه یا عبارت بر اساس معنی و بافت آن محاسبه میگردد. در این روش از مجموعهای از ویژگیها و معیارهای ازپیشتعریفشده مانند مترادف3، متضاد4 و همرخدادی5 در یک مجموعه استفاده میشود. تشابه معنایی را میتوان با استفاده از روشهای مختلفی مانند معیارهای مبتنی بر محتوای اطلاعاتی و معیارهای توزیعی محاسبه نمود [1]. رویکرد مبتنی بر مدلهای درونسازی6، واژگان و عبارات را بهعنوان بردار در فضایی با ابعاد بالا نشان میدهد تا فاصله بین بردارها بیانگر میزان شباهت معنایی آنها باشد. این مدلها بر روی مقادیر زیادی از دادههای متنی مانند مقالات خبری یا صفحات وب، آموزش داده میشوند تا روابط بین واژگان را بر اساس الگوهای همرخدادی بیاموزند. برای محاسبه شباهت میان واژگان و عبارات در مدلهای درونسازی، اغلب از محاسبه شباهت کسینوسی بین دو بردار استفاده میشود [2].
بسط پرسوجو7 تکنیکی است که برای بهبود دقت مدل بازیابی استفاده میشود. از معایب این روش میتوان به افزایش پیچیدگی محاسباتی8 و کاهش دقت بهدلیل بسط پرسوجو با واژگان نامرتبط یا بیارزش اشاره کرد. در روشهای مرسوم از درونسازی معنایی در گسترش پرسوجو استفاده میشود؛ اما در این مقاله از درونسازی معنایی متون بهصورت مستقیم در رتبهبندی اسناد استفاده میگردد. در واقع بهجای استفاده از نمایش برداری متون و استفاده از آن در گسترش پرسوجو، از بردارهای معنایی در فضای چندبُعدی و بهصورت مستقیم در رتبهبندی استفاده میشود. به عبارت دیگر تمام محاسبات و سنجش میزان شباهت و ارتباط پرسوجو و اسناد، کاملاً مبتنی بر بردار معنایی متون در همان فضای چندبُعدی است. روشهای درونسازی موجود، کاربردهای مختلفی همچون استفاده در گسترش پرسوجو دارند؛ اما اینکه یک پرسوجو یا عبارت به یک بردار درونسازی در فضای بُعدی بدل شود و بر مبنای شباهتش با اسناد مورد بازیابی و رتبهبندی قرار گیرد، جای بحث دارد که در این پژوهش مورد بررسی، پیادهسازی و کاوش قرار میگیرد. بهمنظور دستیابی به بردار معنایی واژگان و متون، راهکارهای مختلفی مطرح گردیده که در ادامه به مرور آنها میپردازیم. سپس به معرفی روابط پیشنهادی جهت رتبهبندی بهتر اسناد بر مبنای پرسوجوی کاربر پرداخته میشود. روابط پیشنهادی، مبتنی بر بردارهای معنایی است و با تبدیل پرسوجو و سند به بردارهای با ابعاد بالا و بدون دخالتدادن سایر پارامترهای رایج در رتبهبندی، ضمن کاهش هزینه پردازشی به مرتبسازی اسناد بر مبنای درخواست کاربر و میزان ارتباط آن به پرسوجوی واردشده میپردازد.
ساختار مقاله به این ترتیب است که پژوهشهای پیشین در بخش دوم بیان میگردد. بخش سوم به درونسازی با استفاده از مدل BERT سفارشی میپردازد. در بخش چهارم، روابط رتبهبندی پیشنهادی مطرح میگردند و در بخش پنجم، مجموعه دادگان مورد استفاده در رتبهبندی شامل جفت پرسوجو و اسناد با برچسبهای میزان ارتباط هر سند به پرسوجوی مربوط تشریح میگردد. در بخش ششم، رتبهبندی با استفاده از درونسازی BERT مورد بررسی قرار میگیرد و نهایتاً در بخش هفتم، جمعبندی و نتیجهگیری نهایی مقاله بیان میگردد.
2- پژوهشهاي پيشين
پژوهشهای پیشین در قالب سه دسته بیان میگردند. در دسته اول پارامترهای رایج در رتبهبندی مطرح میگردد. دسته دوم به رویکرد درونسازی و انواع مدلهای آن میپردازد. نهایتاً در دسته سوم، کارهای انجامشده در حوزه رتبهبندی اسناد بر مبنای بردارهای درونسازی مرور میگردد.
2-1 پارامترهای رتبهبندی
در رتبهبندی اسناد بر مبنای پرسوجوی کاربر، فرایند مرتبسازی نتایج جستجو بر اساس میزان ارتباط آن به پرسوجوی کاربر است. روشهای متعددی برای رتبهبندی اسناد وجود دارد. در ادامه، برخی از عواملی که در محاسبه رتبهبندی اسناد به کار میروند بیان میگردد: ارتباط9 که میزان مرتبطبودن سند به پرسوجوی کاربر را نشان میدهد. در رتبهبندی مبتنی بر ارتباط، نتایج جستجو بهترتیب نزولی بر مبنای میزان ارتباط سند به پرسوجوی کاربر مرتب میشوند. این ارتباط بر اساس عوامل مختلفی مانند تطابق10 واژه کلیدی، مکان واژگان کلیدی، مترادفها و پارامترهای دیگری همچون رفتار کاربر11 تعیین میشود [3].
محبوبیت12 از پارامترهای مهمی است که بیانگر میزان محبوببودن آن سند بر اساس میزان بازدیدها، لایکها، نظرهای کاربران و زمان حضور کاربر13 است. همچنین تازگی14 سند که جدیدبودن سند بر مبنای تاریخ انتشار، فراوانی بهروزرسانیها و میزان تغییر در موضوع و بدنه سند را نشان میدهد، مورد استفاده قرار میگیرد. در رتبهبندی مبتنی بر رفتار کاربر، عوامل مختلفی همچون کلیک15 و زمان حضور در صفحه در نظر گرفته میشود که اغلب بدین منظور از الگوریتمهای یادگیری تقویتی16 استفاده میگردد. همچنین در رتبهبندی مبتنی بر پروفایل کاربر17، علایق کاربر و سابقه مرور جستجو18 در نظر گرفته میشود. سیستمهای چندعاملی19 اغلب برای جمعآوری دادههای کاربر و پردازش آنها برای شناسایی علایق کاربر استفاده میشوند [4]. در این مقاله تمرکز بر روی پارامتر ارتباط بین اسناد بوده و از سایر پارامترها استفاده نگردیده است.
2-2 انواع مدلهای درونسازی
مدلهای درونسازی، بازنمایی زبان را از متن خام یاد میگیرند که میتواند شکاف20 بین واژگان پرسوجو و سند را پر کند [5]. این مدلها از طریق آموزش بر روی یک پیکره21 بزرگ، بازنمایی معنایی عمیقی22 را بهدست میآورند که با بهرهگیری از یادگیری انتقالی در طیف گستردهای از وظایف پردازش زبان طبیعی23 مانند شباهت اسناد24، خلاصهسازی متن25، طبقهبندی متن26 و تحلیل احساسات27 قابل استفاده است [6]. بردارهای درونسازی میتوانند با کسب دانش اضافی و بهبود نمایش واژگان و موجودیتها در سند به رتبهبندی بهتر اسناد کمک کنند. برای تبدیل اسناد به بردارهای درونسازی معنایی و محاسبه شباهت بردارها، روشهای مختلفی در زمینه پردازش زبان طبیعی وجود دارد. از روشهای رایج میتوان از درونسازی واژگان ازپیشآموزشیافته مانند الگوریتمهای ایستای Word2vec، fastText یا Glove و همچنین الگوریتمهای پویای درونسازی همچون ELMo، BERT یا GPT استفاده نمود.
[1] این مقاله در تاریخ 11 تیر ماه 1402 دریافت و در تاریخ 10 آبان ماه 1402 بازنگری شد.
شکوفه بستان (نویسنده مسئول)، دانشكده مهندسي كامپيوتر، دانشگاه یزد، یزد، ایران، (email: sbostan@stu.yazd.ac.ir).
علیمحمد زارعبیدکی، دانشكده مهندسي كامپيوتر، دانشگاه یزد، یزد، ایران،
(email: alizareh@yazd.ac.ir).
محمدرضا پژوهان، دانشكده مهندسي كامپيوتر، دانشگاه یزد، یزد، ایران،
(email: pajoohan@yazd.ac.ir).
[2] . Semantic Similarity
[3] . Synonyms
[4] . Antonyms
[5] . Co-occurrence
[6] . Embedding Model
[7] . Query Expansion
[8] . Computational Complexity
[9] . Relevance
[10] . Match
[11] . User Behavior
[12] . Popularity
[13] . Dwell Time
[14] . Freshness
[15] . Click
[16] . Reinforcement Learning Algorithms
[17] . User Profile Based Ranking
[18] . Search Browsing History
[19] . Multi Agent Systems
[20] . Gap
[21] . Corpus
[22] . Deep Semantic Representation
[23] . Natural Language Processing Tasks
[24] . Document Similarity
[25] . Text Summarization
[26] . Text Classification
[27] . Sentiment Analysis
جدول 1: مقایسه مدلهای درونسازی.
مدل | نقاط قوت | نقاط ضعف | ویژگیها |
Word2vec | - سرعت بالا - دقت بالا در پیداکردن روابط معنایی بین واژگان | عدم توانایی در درک معانی واژگان چندمعنایی و اصطلاحات | - مبتنی بر شباهت معنایی واژگان - استفاده از مدل CBOW و Skip-gram - محاسبه بردارهای واژگان بر اساس محتوای متن |
fastText | - قابلیت کار با واژگان جدید - دقت بالا در پیداکردن روابط معنایی بین واژگان | - نیاز به دادههای بزرگ برای آموزش - زمان طولانی برای آموزش - عدم توانایی در درک معانی واژگان | - مبتنی بر شباهت معنایی واژگان - محاسبه بردارهای واژگان بر اساس محتوای متن و |
Glove | - دقت بالا در پیداکردن روابط معنایی بین واژگان - قابلیت کار با دادههای کمحجم | - عدم توانایی در درک معانی چندمعنایی و | - مبتنی بر شباهت معنایی واژگان - استفاده از ماتریس شباهت واژگان - محاسبه بردارهای واژگان بر اساس محتوای متن |
ELMo | - قابلیت درک معانی چندمعنایی و اصطلاحات - دقت بالا در پیداکردن روابط معنایی بین واژگان - قابلیت کار با واژگان جدید | - نیاز به دادههای بزرگ برای آموزش - زمان طولانی برای آموزش | - مبتنی بر شباهت معنایی واژگان و مدلهای زبانی عمیق - استفاده از شبکههای عصبی بازگشتی - محاسبه بردارهای واژگان بر اساس محتوای متن و متن |
BERT | - قابلیت درک معانی چندمعنایی و اصطلاحات - قابلیت کار با واژگان جدید - دقت بالا در پیداکردن روابط معنایی بین واژگان - قابلیت استفاده در وظایف گوناگون مانند تشخیص | - نیاز به دادههای بزرگ برای آموزش - زمان طولانی برای آموزش | - مبتنی بر شباهت معنایی واژگان و مدلهای زبانی عمیق - استفاده از شبکههای عصبی ترنسفورمر - محاسبه بردارهای واژگان بر اساس محتوای متن و متن |
GPT | - قابلیت تولید متن طبیعی - قابلیت کار با واژگان جدید - دقت بالا در پیداکردن روابط معنایی بین واژگان | - نیاز به دادههای بزرگ برای آموزش - زمان طولانی برای آموزش | - مبتنی بر شباهت معنایی واژگان و مدلهای زبانی عمیق - استفاده از شبکههای عصبی ترنسفورمر - محاسبه بردارهای واژگان بر اساس محتوای متن و متن |
الگوریتم GloVe یک مدل ازپیشآموزشیافته برای درونسازی واژگان است که از یک ماتریس همزمانی برای تولید بردار هر واژه استفاده میکند [7]. الگوریتم Word2vec در سال 2013 ارائه گردید که از یک مدل ازپیشآموزشیافته مبتنی بر شبکه عصبی استفاده میکند [8]. در سال 2014، الگوریتم FastText [9] توسط فیسبوک1 مطرح گردید. در این الگوریتم از مدل Skip-gram الگوریتم Word2vec ایده گرفته شد؛ اما در آن از تابع وزندهی متفاوتی استفاده گردیده است. در این روش، هر واژه بهصورت کیفی از واژهها بهصورت n-gram در نظر گرفته میشود و از یک سری توکن2 در آغاز و پایان هر واژه استفاده شده است. سپس بهازای تمام n-gramهای هر واژه، بردارهای عددی به شیوه مشابه با الگوریتم Word2vec بهدست میآید و نهایتاً بردار هر واژه از مجموع تمامی بردارهای n-gram آن واژه حاصل میشود. مدل ELMo [10] نوع جدیدی از نمایش واژههاست که در سال 2018 معرفی گردید و به فهم عمیق معنایی و نحوی واژهها میپردازد. برخلاف درونسازیهای سنتیتری از واژهها همچون Word2vec و GloVe، در مدل ELMo برای یک واژه نمایشهای متفاوتی وجود دارد. در معماری ELMo از LSTM استفاده شده که یک نوع RNN است و بهخوبی میتواند بهعنوان یک مدل زبانی در نظر گرفته شود. دولین3 و همکاران در سال 2018 الگوریتم مشهور 4BERT را معرفی نمودند [11] تا به بهبود دقت گوگل در کشف ساختار معنایی واژههای موجود در پرسوجوی کاربر کمک کنند. بزرگترین مدل زبان طبیعی منتشر شده در سال2020 با نام 3- GPT [12] توسط OpenAI منتشر گردید که از لحاظ کارایی در ادامه 2- GPT و 5GPT است؛ با این تفاوت که تعداد پارامترها در آن بهشدت افزایش یافته و روی دادههای انبوه بسیار بزرگتری نسبت به نسخههای قبلی آموزش دیده است. در این روشها، واژه یا متن به بردار معنایی در فضایی با ابعاد بالا بر اساس الگوهای مشخص تبدیل میشود. همچنین میتوان از مدلهای یادگیری عمیق مانند حافظه کوتاه بلندمدت 6(LSTM) برای درونسازی جملات استفاده نمود. این مدلها بر روی مقادیر زیادی از دادههای متنی، آموزش مییابند تا به کشف روابط بین واژگان و جملات دست یابند و درونسازی با کیفیت بالا ارائه دهند که میتوان از آن برای محاسبه شباهت بین اسناد استفاده نمود [13].
جدول 1 به مقایسه مدلهای مورد نظر و بیان نقاط قوت و ضعف مدلها میپردازد. با توجه به جدول، مدلهای Word2vec، fastText و Glove تنها برای محاسبه بردارهای واژگان بر اساس محتوای متن استفاده میشوند؛ در حالی که ELMo، BERT و GPT برای درک معنای واژگان در جمله و تولید متن نیز قابل استفاده هستند. مدلهای fastText و ELMo قابلیت کار با واژگان جدید را دارند؛ در حالی که Word2vec و Glove این قابلیت را ندارند. مدلهای ELMo، BERT و GPT نیاز به دادههای بسیار بیشتری برای آموزش نسبت به سایر مدلها دارند. همچنین مدل GPT قابلیت تولید متن دارد؛ در حالی که سایر مدلها این قابلیت را ندارند. در این مقاله از مدل زبانی BERT بهمنظور درونسازی متون استفاده گردیده است.
2-3 رتبهبندی اسناد بر مبنای بردارهای درونسازی
رتبهبندی اسناد بر مبنای مدلهای درونسازی از کارهای مهم و جدید در سیستمهای بازیابی اطلاعات است. پژوهشهای فراوانی برای شناسایی بهترین مدلهای درونسازی جملات و رتبهبندی بهتر آنها صورت پذیرفته است. در سال 2016، درونسازی موضوع مولد7 ارائه گردید که ترکیبی از درونسازی واژه و مدلسازی موضوع8 است. این مدل، اسناد را بهعنوان بردارهای ویژگی با طول ثابت در یک فضای پیوسته کمبعد9 تحت محور موضوع10 نمایش میدهد؛ بنابراین احتمال هر واژه تحت تأثیر بافت محلی11 و موضوع آن است [14]. الگوریتم 12DESM در سال 2016 بهعنوان یک مدل فضای درونسازی دوگانه برای رتبهبندی اسناد مبتنی بر الگوریتم Word2vec ارائه گردید که به آموزش واژهها در سند و پرسوجو میپردازد [15]. دهقانی و همکاران در سال 2017 به ارائه یک مدل عصبی با نظارت ضعیف13 پرداختند. در این روش از خروجی یک مدل رتبهبندی بدون نظارت مانند 25BM بهعنوان یک سیگنال نظارت ضعیف استفاده گردید [16]. K-NRM یک مدل عصبی مبتنی بر هسته برای رتبهبندی اسناد است که از یک ماتریس ترجمه14 برای مدلسازی شباهتهای سطح واژه15 از طریق درونسازی واژگان استفاده میکند که در سال 2017 ارائه گردید [17]. در سال 2019، یک رویکرد فاکتورسازی ماتریس16 برای درونسازی نودها در شبکهای از اسناد ارائه گردید. این رویکرد الهامگرفته از الگوریتم 17GloVe است که مبتنی بر احتمال همرخدادی واژهها18 است [18]. در سال 2020 روشی به نام درونسازی گوسی از اسناد پیوندی 19(GELD) معرفی گردید که به درونسازی اسناد پیوندی به یک فضای معنایی پیشآموزشیافته میپردازد که شامل مجموعهای از بردارهای درونسازیشده است [19]. در سال 2020 رویکرد نوینی با هدف بهبود رتبهبندی اسناد جستجو بر مبنای سنجش شباهت معنایی20 و عامل ارتباط21 ارائه گردید. شباهت معنایی بر بازیابی اسناد مشابه متنی بر اساس یک پرسوجو متمرکز است؛ در حالی که عامل ارتباط بر ساخت یک مدل عصبی مبتنی بر ادغام هسته22 تمرکز دارد [20]. در سال 2022، درونسازی موجودیتها مبتنی بر ارتباط23 بهمنظور رتبهبندی بهتر اسناد مورد بررسی قرار گرفت و از یک شبکه عصبی برای آموزش درونسازی اسناد ویکیپدیا بر پایه گراف استفاده گردید [21]. یک الگوریتم یادگیری ماشین بر مبنای رتبهبندی مجدد اسناد در سال 2022 معرفی شد. ساختار رتبهبندی به این صورت است که در ابتدا پرسوجوها و اسناد با استفاده از الگوریتم BERT رمزگذاری میشوند و سپس از یک مدل یادگیری رتبهبندی 24(LTR) مجدد اسناد مبتنی بر 25TFR برای بهبود نتایج و بهینهسازی بیشتر عملکرد رتبهبندی استفاده میشود [22].
بهمنظور رتبهبندی اسناد بر مبنای بردارهای درونسازی در این مقاله، روابط پیشنهادی در ادامه ارائه میگردد که در آن، پرسوجو و سند به بردارهای درونسازی تبدیل میگردند و در همان فضای بُعدی بر اساس روابط پیشنهادی مورد سنجش قرار گرفته و اسناد با امتیاز بالاتر، اولویتدهی میشوند.
3- درونسازی با استفاده از مدل BERT سفارشی
بستان و همکاران در سال 2023، یک مدل برت سفارشی ارائه دادند که به آموزش بردارهای درونسازی بر روی وب فارسی میپرداخت [23]. این مدل شامل یک مرحله پیشآموزش مدل و دو مرحله تنظیم دقیق است. در این روش، سه مدل پیشآموزشیافته مورد استفاده قرار گرفت و مدل اول از طریق آموزش اولیه بر روی وب فارسی تهیه گردید. دو مدل دیگر از مدلهای معروف برت هستند که قبلاً آموزش یافته و در دسترس عموم قرار گرفتهاند. همچنین مدل برت سفارشی که بر روی صفحات وب فارسی بهصورت سفارشی آموزشیافته است در این ارزیابی مورد استفاده قرار میگیرد. مدل برت چندزبانه که زبان فارسی را پوشش میدهد و مدل پارس برت [24] که مبتنی بر زبان فارسی آموزشیافته است، از مدلهای مورد استفاده در این ارزیابی هستند. فرایند تنظیم دقیق طی دو مرحله متوالی اعمال گردیده و سه مدل درونسازیشده تولید گردیدند.
در واقع در این ارزیابی، سه مدل استفاده میشوند که طی سه مرحله، آموزش یافتهاند. مرحله اول پیشآموزش مدل است که تنها مدل برت سفارشی بر مبنای صفحات وب فارسی و بهصورت سفارشی آموزش یافته است. دو مدل پیشآموزشیافته دیگر، قبلاً توسط ارائهدهندگان مدل برت و سایر محققان مورد آموزش قرار گرفتهاند و قابل استفاده هستند. در این راستا مراحل تنظیم دقیق سه مدل پیشآموزشیافته طبق معماری مطرح در شکل 1، توسط بستان و همکاران [23] ارائه گردیده که بهعنوان مدلهای نهایی در این ارزیابی مورد استفاده قرار میگیرد.
4- روابط رتبهبندی پیشنهادی
هدف از این پژوهش، رتبهبندی بهتر اسناد بر مبنای بردارهای معنایی با صرف هزینه کمتر و دقت بالاتر است. برای این کار از محاسبه شباهت بردارهای معنایی پرسوجو و اسناد استفاده میگردد. ایده این مقاله
در استخراج بردارهای معنایی واژگان و استفاده از آن در فرمولهای رتبهبندی با رویکرد جدید است. در این رویکرد، بردارهای معنایی که در فضای چندبُعدی ارائه شده، در همان فضا مورد رتبهبندی قرار میگیرند. این رتبهبندی بر مبنای محاسبه کسینوس زاویه بین دو بردار اما با بهرهگیری از ساختار جدید و طی روابط پیشنهادی در فضای چندبُعدی اعمال میگردد. جهت استخراج بردارهای معنایی عبارات پرسوجو و سند در این مقاله از مدلهای سفارشی فارسی آموزشیافته BERT استفاده میگردد [23]. نکته قابل توجه در معماری BERT بر دریافت یک عبارت یا جمله و ارائه بردار معنایی آن عبارت است. در مدل BERT، یک جمله یا دنبالهای از واژگان بهعنوان ورودی دریافت میشود و نمایش بافت آن جمله در قالب یک بردار درونسازیشده بهعنوان خروجی تولید میگردد؛
شکل 1: مدل BERT سفارشی طی فرایندهای پیشآموزش و تنظیمهای دقیق متوالی [23].
اما در این مقاله بهجای استفاده از خروجی کل مدل که یک بردار درونسازیشده بهازای جمله ورودی است، بردارهای درونسازی هر واژه از جمله ورودی بهصورت جداگانه و از طریق لایههای پنهان نهایی استخراج میگردد. بنابراین هر واژه در جمله ورودی، بازنمایی متنی یا بردار درونسازی خود را خواهد داشت. با بهرهگیری از این ویژگی میتوان از اطلاعات متنیِ غنی بهدستآمده در لایههای پنهان مدل نیز بهرهمند گردید. در واقع بهمنظور کنترل بیشتر روی مدل و کسب دقت بیشتر در رتبهبندی، بهازای هر واژه موجود در جمله ورودی، بردارهای معنایی آن از طریق استخراج لایههای پنهان قبل از لایه نهایی استخراج میگردد. برای دریافت بردارهای درونسازی واژگان یک جمله با استفاده از مدل BERT از نشانهساز BERT استفاده میگردد. نشانهساز، جمله ورودی را به لیستی از واژگان تبدیل میکند و سپس این لیست را به درون مدل BERT میفرستد تا دنبالهای از حالتهای پنهان تولید گردد. نهایتاً بردارهای درونسازی واژگان از طریق حاصلضرب نقطهای حالتهای پنهان با ماتریس وزن آموزشیافته مدل بهدست میآیند. بنابراین از مدل BERT سفارشی بهصورت متفاوت استفاده میگردد و خروجی سفارشی بر مبنای واژگان مد نظر استخراج میشود.
در صورت استفاده از لایه نهایی مدل و بدون درنظرگرفتن بردار درونسازی واژگان بهصورت مجزا بر اساس جمله ورودی که میتواند مطابق (1) شامل سند یا پرسوجوی باشد، بردار درونسازی کل عبارت از روی مدل مورد ارزیابی، مطابق (2) استخراج میگردد
(1)
(2)
جهت محاسبه شباهت میان بردار اسناد میتوان از معیارهای سنجش شباهت مانند شباهت کسینوسی، فاصله اقلیدسی یا فاصله منهتن استفاده کرد. شباهت کسینوسی، معیاری محبوب برای اندازهگیری کسینوس زاویه بین دو بردار با رنج عددی بین منفی و مثبت یک است. هرچه مقدار بهدستآمده به عدد یک نزدیکتر باشد، بیانگر شباهت بیشتر دو سند مربوط به یکدیگر است [25]. بنابراین شباهت دو بردار معنایی طبق (3) از طریق محاسبه کسینوس زاویه بین بردارها محاسبه میگردد. این شباهت بهازای هر پرسوجو و سند محاسبه میگردد و سپس اسناد بر مبنای شباهت بهدستآمده، مرتب و رتبهبندی میگردند. رتبهبندی اسناد بر مبنای این روش، SentenceSim نامیده میشود
(3)
اما در ادامه، روابط رتبهبندی پیشنهادی با بهرهگیری از بردارهای درونسازی هر واژه از جمله ورودی، از طریق لایههای پنهان نهایی استخراج میگردد تا در رتبهبندی بهتر اسناد مورد ارزیابی قرار بگیرد.
هر رابطه در تکمیل رابطه قبلی و در راستای بهبود نتایج رتبهبندی گام مینهد.
4-1 رابطه DocCentroidSim
در این رابطه به رتبهبندی بر مبنای میانگین کسینوس هر واژه پرسوجو و نقطه مرکزی سند26 پرداخته میشود. ابتدا در فاز برونخط بهازای هر سند، بردار صدبُعدی تکتک واژههای آن سند از مدل درونسازی بهدستآمده استخراج شده و با محاسبه میانگین آنها، بردار جدیدی که بیانگر نقطه مرکزی آن سند است بهدست میآید. بردار بهدستآمده بهازای تمام اسناد موجود بر روی فایل ذخیره میگردد تا
در زمان اجرای برخط مورد استفاده قرار گیرد. سپس بهازای هر واژه پرسوجو، بردار صدبُعدی آن از مدل مورد نظر استخراج و شباهت کسینوسی آن با بردار نقطه مرکزی سند، محاسبه میگردد و بعد از محاسبه بهازای تمام واژههای پرسوجو، میانگین آن بهعنوان امتیاز نهایی در نظر گرفته میشود که در (4) مطرح گردیده است. در این رابطه بیانگر یک واژه از پرسوجو یا سند است
(4)
4-2 رابطه QrDocCentroidSim
در (5)، علاوه بر محاسبه نقطه مرکزی سند در فاز برونخط، نقطه مرکزی واژههای پرسوجو در فاز برخط نیز محاسبه میگردد. سپس شباهت کسینوسی بین بردار نقطه مرکزی سند و پرسوجو محاسبه و بهعنوان امتیاز آن سند در نظر گرفته میشود
(5)
4-3 رابطه ImprovedMaxSim
در رابطه بیشترین شباهت [26] بهازای هر واژهی پرسوجو، بردار معنایی مربوط از مدل درونسازی BERT استخراج میگردد. سپس شباهت کسینوسی آن واژه با هر واژه از سند که بردار آن واژه نیز از روی مدل درونسازی، استخراج شده محاسبه میگردد. در مرحله بعد، بیشترین شباهت آن واژه پرسوجو با واژههای سند بعد از محاسبه، ذخیره و در idf واژهی پرسوجو ضرب میشود. مجموع این حاصلضرب بهازای تکتک واژههای پرسوجو، محاسبه گردیده و نهایتاً نسبت آن بر مجموع idf واژههای پرسوجو بهدست میآید و بهعنوان امتیاز اول در نظر گرفته میشود. سپس همین محاسبات بهازای هر واژه سند و تمامی واژههای پرسوجو محاسبه میگردد و بیشترین شباهت کسینوسی هر واژه سند
و تمام واژههای پرسوجو، محاسبه و در idf آن واژه ضرب میگردد. مجموع این حاصلضرب بهازای تکتک واژههای سند با واژههای پرسوجو محاسبه شده و سپس نسبت آن بر مجموع idf واژههای سند بهدست میآید و بهعنوان امتیاز دوم در نظر گرفته میشود که در (6) قابل مشاهده است.
دلیل استفاده از idf، استفاده صحیح از واژگان و حروف اضافه پرتکرار است. بنابراین واژهای که در تعداد اسناد کمتری ظاهر شود نسبت به واژهای که در بیشتر اسناد وجود دارد مانند حروف اضافه، دارای اطلاعات بیشتری است. مقدار idf بر اساس لگاریتم تعداد اسناد نسبت به اسنادی که شامل واژه هستند محاسبه میگردد
(6)
رابطه پیشنهادی ImprovedMaxSim، روش بهبودیافته بیشترین شباهت هر واژه در پرسوجو و سند است؛ با این تفاوت که بهجای حاصلضرب بیشترین شباهت هر واژه با idf آن واژه بهصورت نوآورانه، نسبت بیشترین شباهت واژه بر مجذور فرکانس واژه در کل اسناد محاسبه شده و همین روند بهازای واژههای سند و پرسوجو ادامه مییابد که در (7) بیان میگردد
(7)
در رابطه ImprovedMaxSim بهجای محاسبه idf از نسبت یک بر مربع فرکانس اسناد استفاده گردیده است. دلیل این کار، درونسازی همه واژگان در فضای برداری است و این امر در خصوص حروف اضافه هم صدق میکند. در درونسازی واژگان موجود در هر جمله، حروف اضافه هم مشاهده میشود؛ پس آموزش مدل بر مبنای واژگان و حروف اضافه هم صورت میگیرد. با مشاهده واژگان آموزشیافته از طریق مدلها میتوان دریافت که واژگان اضافه بهخوبی تشخیص داده شده و در مکانی نزدیک به یکدیگر قرار گرفتهاند. از آنجا که این واژگان همه حروف اضافه هستند، در تشخیص بردار معنایی واژگان مشابه خود بهخوبی عمل میکنند. اما در صورتی که هدف از این کار بررسی شباهت میان دو عبارت باشد میتواند منجر به تأثیر منفی ناشی از وزنهای مرتبط با حروف اضافه گردد. به عبارت دیگر در یک دنباله کوتاه از پرسوجو و سند، تشخیص واژگان کلیدی و افزایش وزن آنها میتواند در کیفیت رتبهبندی تأثیرگذار باشد. در واقع بهدلیل احتمال تأثیر وزن واژگان غیرضروری بر سایر واژگان کلیدی، با کاهش شدیدتر وزن آنها سعی در افزایش دقت و بهبود روند رتبهبندی گردیده است.
4-4 رابطه UnCommImpMaxSim
رابطه (8) به محاسبهکردن بیشترین شباهت بین واژههای پرسوجو
و سند و واژههای غیرمشترک میپردازد. در واقع در این روش علاوه
بر محاسبه ImprovedMaxSim واژههای پرسوجو و سند، مشابه (7)
از ImprovedMaxSim واژههای غیرمشترک بین پرسوجو و سند نیز استفاده میشود. در این روش یک بار الگوریتم بهبودیافته بیشترین شباهت میان پرسوجو و سند محاسبه میگردد و بهعنوان امتیاز اول در نظر گرفته میشود. سپس واژههای مشترک در سند و پرسوجو حذف میشوند و بر روی واژههای باقیمانده، مجدداً الگوریتم بهبودیافته بیشترین شباهت محاسبه میگردد و به امتیاز اول اضافه میشود. به عبارت ديگر، حذف واژههاي مشترك و محاسبهی شباهت برداري واژگان غیرمشترک، ميتواند منجر به كشف الگوهاي جدید در اسناد گردد.
(8)
در این رابطه از عبارات پرسوجو و سند در بخش اول و از عبارت پرسوجو و سند با واژگان غیرمشترک برای بخش دوم استفاده میگردد.
شبهکد (7) در شکل 2 بهعنوان رابطه پیشنهادی این مقاله بیان گردیده است.
تابع ImprovedMaxSim، دو ورودی Query و Doc را که بهترتیب نشاندهنده پرسش و سند هستند، دریافت میکند. این تابع ابتدا با استفاده از درونسازی BERT، حداکثر شباهت کسینوسی هر واژه را در عبارت پرسوجو با تمام واژگان موجود در سند محاسبه مینماید. سپس با ضرب حداکثر شباهت کسینوسی با معکوس مربع فراوانی سند، شباهت بین عبارت پرسوجو و سند و همچنین فراوانی معکوس سند و پرسوجو را محاسبه میکند. نهایتاً با جمعشدن امتیاز شباهت عبارت پرسوجو و سند، امتیاز شباهت نهایی محاسبه میشود.
[1] . Facebook
[2] . Token
[3] . Devlin
[4] . Bidirectional Encoder Representations from Transformers
[5] . Generative Pre-Training Transformer
[6] . Long Short-Term Memory
[7] . Generative Topic Embedding
[8] . Topic Modeling
[9] . Low Dimensional Continuous Space
[10] . Topic
[11] . Local Context
[12] . Dual Embedding Space Model
[13] . Weak Supervision
[14] . Translation Matrix
[15] . Model Word Level Similarities
[16] . Matrix Factorization Approach
[17] . Global Vectors for Word Representation
[18] . Co-occurrence Probabilities of Words
[19] . Gaussian Embedding of Linked Documents
[20] . Semantic Similarity
[21] . Relevance Factor
[22] . Kernel Pooling
[23] . Relevance Based Entity Embedding
[24] . Learning to Rank Model
[25] . TensorFlow Ranking
[26] . Centroid
شکل 2: شبهکد رابطه ImptovedMaxSim.
شکل 3: مجموعه دادگان مورد استفاده جهت ارزیابی فرمولهای رتبهبندی.
5- مجموعه دادگان
مجموعه دادگان جهت رتبهبندی اسناد و ارزیابی مدلها در این مرحله، شامل جفت پرسوجو و مجموعه اسناد واقعی است. این مجموعه دادگان، ششبرچسبه است و بهازای هر پرسوجو، متوسط 10 عنوان سند در نظر گرفته میشود که با عددهای صفر تا پنج بر مبنای میزان ارتباط سند به پرسوجو توسط تیم خبره، برچسبگذاری میگردد. این مجموعه دادگان شامل 500 پرسوجو است و جزئیاتش در شکل 3 قابل مشاهده است. این مجموعه شامل 200 پرسوجوی مورد استفاده در [23] میباشد که با افزودن 300 پرسوجوی جدید، ارتقا یافته است. این اسناد بر اساس تکنیک TF.IDF به دقت 64/0 دست مییابند. در ادامه، رتبهبندی اسناد بر مبنای مدلهای درونیابی و استفاده از فرمولهای رتبهبندی مورد ارزیابی قرار میگیرد.
برای ارزیابی و مقایسه کیفیت رتبهبندی در بازیابی اطلاعات، از معیار nDCG مطابق (9) استفاده میگردد. در این رابطه که برای نتیجه اول محاسبه میشود، بیانگر درجه ارتباط سند با پرسوجوی مربوط است [27]
(9)
nDCG دو عامل اصلی را در نظر میگیرد: ارتباط سند با پرسوجوی کاربر و موقعیت آن سند در رتبهبندی. برای محاسبه معیار nDCG، میزان ارتباط هر سند به پرسوجوی مربوط برچسبگذاری میگردد که نشان از میزان تطبیق سند با پرسوجوی کاربر است. سپس DCG با جمع امتیازات برترین سندها محاسبه میشود و با درنظرگرفتن موقعیت سند بهدست میآید. nDCG با تقسیم DCG بهدستآمده از رتبهبندی بر DCG ایدهآل به دست میآید. امتیاز بالاتر nDCG به معنای رتبهبندی دقیقتر است.
6- نتایج رتبهبندی با استفاده از درونسازی BERT
نتایج حاصل از ارزیابی روابط رتبهبندی بهازای سه مدل درونسازی BERT در شکل 4 قابل بررسی است. رتبهبندی بر مبنای بردار درونسازی جملات ورودی و بدون درنظرگرفتن بردار هر واژه بهصورت مجزا تحت عنوان رابطه SentenceSim در بهترین حالت برابر با 82/0 بهدست میآید. این دقت مبتنی بر بردار معنایی تولیدشده از مدل BERT بهازای جملات ورودی است؛ اما در صورت بهرهگیری از روابط پیشنهادی، دقت بهخوبی بهبود مییابد که در ادامه به آن میپردازیم.
بهترین دقت کسبشده از رابطه DocCentroidSim، مربوط به مدل پارس برت آموزشیافته بر مبنای معماری شکل 1 است که برابر با 84/0 بهدست میآید. در راستای همین ارزیابی، مدل برت سفارشی و برت چندزبانه به دقت 83/0 دست مییابند که قابل توجه است. روابط QrDocCentroidSim و MaxSim با بهبود دقت رتبهبندی تا %1
در بهترین حالت به دقت 85/0 دست پیدا خواهند کرد. در رابطه QrDocCentroidSim میتوان به تفاوت عملکرد نقطه مرکزی واژگان و خود واژه پرداخت؛ زیرا از روی بردار یک واژه میتوان آن واژه را در فضای بُعدی مشاهده کرد و نزدیکترین واژهها به آن واژه را برگزید؛ اما از روی بردار نقطه مرکزی بهدستآمده از واژههای یک پرسوجو، به دلیل آنکه هیچ واژهای در بُعد ام با این بردار همخوانی ندارد میتوان دریافت که این بردار بهجای اشاره به یک واژه مشخص، به یک موضوع اشاره دارد؛ لذا در صورت استخراج واژههای نزدیک به این بردار به واژگانی دست مییابیم که از نظر موضوعی به هم نزدیک هستند. در نتیجه، محاسبه شباهت میان نقطه مرکزی واژههای پرسوجو و سند به نتایج دقیقتری میرسد که قابل توجه است.
در رابطه MaxSim جزئیات بیشتری در خصوص هر واژه و میزان شباهت آن با سایر واژهها در نظر گرفته میشود. در این روش، یک بار به ازای هر واژه پرسوجو و واژههای سند، بیشترین شباهت بهدست میآید و بهصورت مشابه همین روال برای هر واژه سند و واژههای پرسوجو تکرار
شکل4: نتایج رتبهبندی بر مبنای روابط پیشنهادی.
میشود. در این رابطه، idf واژهها نیز در نظر گرفته میشود تا واژههای پرتکرار کماهمیت، تأثیر کمتری در امتیاز حاصل از این روش داشته باشند. دلیل افزایش دقت در این رابطه، ارزیابی میزان شباهت هر واژه از عبارت اول با هر یک از واژگان عبارت دوم و استفاده از بیشترین شباهت در رتبهبندی است. با تکرار این فرایند برای عبارت دوم در ازای عبارت اول، شباهت تمام واژگان بهدرستی محاسبه میگردد و بیشترین شباهت ناشی از هر واژه بهصورت مجزا در نظر گرفته میشود که تأثیر خوبی در افزایش دقت در بر داشته است.
رابطه پیشنهادی ImprovedMaxSim، روش بهبودیافته رابطه MaxSim است که با ایدهای جدید و بهرهگیری از نسبت یک بر مربع فرکانس اسناد بهجای idf میتواند در بهترین حالت به افزایش دقت تا 87/0 بر مبنای مدل پارس برت نائل گردد. این راهکار با هدف کاهش حداکثری وزن واژههای اضافی و پرتکرار و استخراج واژگان کلیدی در درک بهتر مفهوم هر عبارت مورد استفاده قرار میگیرد. واضح است که تأثیر واژهای که در تعداد اسناد کمتری ظاهر شود نسبت به واژهای که در بیشتر اسناد وجود دارد بیشتر است. به عنوان نمونه میتوان به واژگان اضافه اشاره کرد. برخی از روشهای رتبهبندی با درنظرگرفتن تکرار آن واژگان در اسناد مختلف و از طریق idf به شناسایی و در نتیجه کاهش تأثیر آنها در امتیازات خود میپردازند. از آنجا که در این مقاله از رتبهبندی اسناد بهصورت مستقیم بر مبنای بردار معنایی واژگان استفاده گردیده است باید تأثیر واژگان اضافه و بردارهای معنایی آنها بر رتبهبندی در نظر گرفته شود. به همین دلیل در این رابطه از نسبت یک بر مربع فرکانس اسناد استفاده شد. دلیل این کار، درونسازی همه واژگان در فضای برداری است و این امر در خصوص حروف اضافه هم صدق میکند. با مشاهده واژگان آموزشیافته از طریق مدلها میتوان دریافت که واژگان اضافه به خوبی تشخیص داده شده و در مکانی نزدیک به یکدیگر قرار گرفتهاند و کاهش تأثیر آنها در امتیازدهی به کسب دقت بالاتر کمک میکند.
با توجه به تأثیر حداکثری رابطه ImprovedMaxSim در نتایج و با هدف تأکید بیشتر روی واژههای غیرمشترک بین سند و پرسوجو، رابطه UnCommImpMaxSim مورد بررسی قرار میگیرد. در مرحله اول بیشترین شباهت بین واژههای پرسوجو و سند محاسبه میگردد و سپس در مرحله دوم با نادیدهگرفتن واژههای مشترک بین پرسوجو و سند، مجدداً بیشترین شباهت بین واژههای غیرمشترک سند و پرسوجو محاسبه و مجموع آن بهعنوان امتیاز نهایی ثبت میگردد. به عنوان مثال اگر پرسوجو با محتوای «علائم سکته قلبی» و سند با محتوای «همه چیز در مورد سکته قلبی» در نظر گرفته شود، علاوه بر محاسبه بیشترین شباهت بین سند و پرسوجوی مربوط، بیشترین شباهت بین «علائم» و «همهچیز در مورد» نیز جداگانه محاسبه میگردد. اما در صورتی که سند دیگری با محتوای «علائم سکته مغزی» موجود باشد میتوان با بررسی بیشتر دریافت که شباهت بین پرسوجو و سند اول در واژههای غیرمشترک، کمتر از سند دوم است. این مسئله به این دلیل رخ میدهد که دو واژه «قلبی» و «مغزی»، ارتباط معنایی قویتری نسبت به ارتباط واژههای «علائم» و «همهچیز در مورد» دارند؛ لذا دقت در این رابطه نسبت به رابطه ImprovedMaxSim کاهش مییابد و در بهترین حالت به دقت 84/0 میرسد.
با مقایسه نتایج رتبهبندی اسناد میتوان دریافت که نتایج بر مبنای بردارهای درونسازی استخراجشده از مدلهای درونسازی و با بهرهگیری از روابط رتبهبندی پیشنهادی از دقت بالایی برخوردار هستند. نکته دیگر در بهبود نتایج مدل برت سفارشی نسبت به مدل چندزبانه است. بهعنوان مثال دقت مدل برت سفارشی بر پایه رابطه ImprovedMaxSim برابر با 86/0 بهدست میآید که نسبت به مدل برت چندزبانه با کسب دقت 85/0 بهبود داشته است.
7- نتیجهگیری
در این مقاله یک رویکرد رتبهبندی جدید پیشنهاد میگردد که با استخراج بردارهای معنایی از طریق مدل زبانیBERT منجر به افزایش دقت رتبهبندی اسناد میگردد. رابطه ImprovedMaxSim بهعنوان فرمول رتبهبندی پیشنهادی با بررسی بیشترین شباهت هر واژه پرسوجو با کل واژگان سند و درنظرگرفتن تکرار آن واژه در اسناد و بالعکس، به رتبهبندی اسناد بر مبنای پرسوجوی کاربر میپردازد. این رابطه با کسب دقت 87/0 که بالاترین دقت بهدستآمده نسبت به سایر روشهای رتبهبندی مورد بررسی در این ارزیابی است، بهعنوان فرمول رتبهبندی مناسب در این مقاله معرفی و پیشنهاد میگردد.
به طور کلی، ترکیب مدل درونسازی BERT و فرمولهای رتبهبندی پیشنهادی، رویکردی موفق برای افزایش دقت رتبهبندی در سیستمهای بازیابی اطلاعات است. این تحقیق به پیشرفت تکنیکهای رتبهبندی اسناد کمک میکند و پایهای محکم را برای پیشرفتهای آینده در این زمینه فراهم مینماید. همچنین امکانات جدیدی را برای بهبود تجربیات جستجو و حصول اطمینان از دریافت نتایج جستجوی بسیار مرتبط و دقیق فراهم میسازد.
مدل BERT بهدلیل محاسبات فراوان در لایههای مختلف، هزینه بالایی را در بر دارد. همچنین در زمان استنتاج، نیازمند محاسبات فراوان است و مشابه سایر روشها در متون طولانی از دقت کافی برخوردار نیست. در راستای حل این مسئله میتوان از ترکیب الگوریتمهای درونسازی با پیکربندی سبکتر و بهرهگیری از محاسن هر مدل در بهبود رتبهبندی استفاده نمود که بهعنوان کارهای آینده در نظر گرفته میشود. از کارهای دیگری که میتوان در آینده به آن پرداخت، بهرهگیری از درونسازی واژگان در رتبهبندی اسناد مبتنی بر گراف است. بردارهای درونسازی واژگان را میتوان بهعنوان دانش پسزمینه در رویکردهای رتبهبندی مبتنی بر گراف در نظر گرفت تا به درک اطلاعات ساختاری و معنایی منجر گردد و در رتبهبندی بهتر اسناد مورد استفاده قرار گیرد.
مراجع
[1] Y. Yum, et al., "A word pair dataset for semantic similarity and relatedness in Korean medical vocabulary: reference development and validation," JMIR Medical Informatics, vol. 9, no. 6, Article ID: e29667, Jun. 2021.
[2] E. Hindocha, V. Yazhiny, A. Arunkumar, and P. Boobalan,
"Short-text semantic similarity using GloVe word embedding," International Research J. of Engineering and Technology, vol. 6,
no. 4, pp. 553-558, Apr. 2019.
[3] J. Zhang, Y. Liu, J. Mao, W. Ma, and J. Xu, "User behavior simulation for search result re-ranking," ACM Trans. on Information Systems, vol. 41, no. 1, Article ID: 5, 35 pp., Jan. 2023.
[4] V. Zosimov and O. Bulgakova, "Usage of inductive algorithms for building a search results ranking model based on visitor rating evaluations," in Proc. IEEE 13th Int. Scientific and Technical Conf. on Computer Sciences and Information Technologies, CSIT'18, pp. 466-469, Lviv, Ukraine, 11-14 Sept. 2018.
[5] B. Mitra and N. Craswell, Neural Models for Information Retrieval, arXiv preprint arXiv:1705.01509, vol. 1, 2017.
[6] V. Gupta, A. Dixit, and S. Sethi, "A comparative analysis of sentence embedding techniques for document ranking," J. of Web Engineering, vol. 21, no. 7, pp. 2149-2186, 2022.
[7] J. Pennington, R. Socher, C. Ma, and C. Manning, "GloVe: global vectors for word representation," in Proc. Conf. on Empirical Methods in Natural Language Processing, EMNLP'14, pp. 1532-1543, Doha, Qatar, 25-29 Oct. 2014.
[8] T. Mikolov, K. Chen, G. Corrado, and J. Dea, "Efficient estimation of word representations in vector space," in Proc. In. Conf. on Learning Representations, ICLR'13, 12 pp., Scottsdale, AZ, USA, 2-4 May 2013.
[9] P. Bojanowski, E. Grave, A. Joulin, and T. Mikolov, "Enriching word vectors with subword information," Trans. of the Association for Computational Linguistics, vol. 5, pp. 135-146, 2017.
[10] M. E. Peters, et al., "Deep contextualized word representations,"
in Proc. Conf. of the North American Chapter of the Association of Computational Linguistics, NAACL-HLT'18, 11 pp., New Orleans, LA, USA, 1-6 Jun. 2018.
[11] J. Devlin, M. W. Chang, and K. L. Kristina, "BERT: pre-training of deep bidirectional transformers for language understanding," in Proc. Conf. of the North American Chapter of the Association of Computational Linguistics, NAACL-HLT'18, 16 pp., New Orleans, LA, USA, 1-6 Jun. 2018.
[12] T. Brown, et al., "Language models are few-shot learners," in Proc. 34th Conf. on Neural Information Processing Systems, NeurIPS'20, 25 pp., Vancouver, Canada, 6-12 Dec. 2020.
[13] P. Sherki, S. Navali, and R. Inturi, "Retaining semantic data in binarized word embedding," in Proc. IEEE 15th Int. Conf. on Semantic Computing, ICSC'21, pp. 130-133, Laguna Hills, CA, USA, 27-29 Jan. 2021.
[14] L. Shaohua, C. Tat-Seng, Z. Jun, and C. Miao, Generative Topic Embedding: A Continuous Representation of Documents (Extended Version with Proofs), arXiv preprint arXiv:1606.02979, vol. 1, 2016.
[15] B. Mitra, E. Nalisnick, N. Craswell, and R. Caruana, "A dual embedding space model for document ranking," in Proc. 25th Int. Conf. Companion on World Wide Web, WWW'16, 10 pp., Montreal, Canada, 11-15 Apr. 2016.
[16] M. Dehghani, H. Zamani, A. Severyn, and J. Kamps, "Neural ranking models with weak supervision," in Proc. of the 40th Int. ACM SIGIR Conf. on Research and Development in Information Retrieval, SIGIR '17, pp. 65-74, Tokyo, Japan, 7-11 Aug. 2017.
[17] C. Xiong, Z. Dai, and J. Callan, "End-to-end neural ad-hoc ranking with kernel pooling," in Proc. of the 40th Int. ACM SIGIR Conf. on Research and Development in Information Retrieval, pp. 55-64, Tokyo, Japan, 7-11 Aug. 2017.
[18] R. Brochier, A. Guille, and J. Velcin, "Global vectors for node representations," in Proc. ACM World Wide Web Conf., WWW'19, San Francisco, pp. 2587-2593, San Francisco, CA, USA, 13-17 May 2019.
[19] A. Gourru and J. Velcin, "Gaussian embedding of linked documents from a pretrained semantic space," in Proc. 29th Int. Joint Conf. on Artificial Intelligence, IJCAI'20, pp. 3912-3918, Yokohama, Japan, 8-10 Jan. 2021.
[20] R. Menon, J. Kaartik, and K. Nambiar, "Improving ranking in document based search systems," in Proc. 4th Int. Conf. on Trends in Electronics and Informatics, ICOEI'20, pp. 914-921, Tirunelveli, India, 15-17 Jun. 2020.
[21] J. Li, C. Guo, and Z. Wei, "Improving document ranking with relevance-based entity embeddings," in Proc. 8th Int. Conf. on Big Data and Information Analytics, BigDIA'22, China, pp. 186-192, Guiyang, China, 24-25 Aug. 2022.
[22] S. Han, X. Wang, M. Bendersky, and M. Najork, Learning-to-Rank with BERT in TF-Ranking, Google Research Tech Report, 2020.
[23] ش. بستان، ع. زارع بیدکی و م. ر. پژوهان، "درونسازی معنایی واژهها با استفاده از BERT روی وب فارسی،" نشریه مهندسی برق و مهندسی کامپیوتر ایران،
ب- مهندسی کامپیوتر، سال 21، شماره 2، صص. 100-89، تابستان 1402.
[24] M. Farahani, M. Gharachorloo, M. Farahani, and M. Manthouri, "Parsbert: transformer-based model for Persian language understanding," Neural Processing Letters, vol. 53, pp. 3831-3847, 2021.
[25] D. Yang and Y. Yin, "Evaluation of taxonomic and neural embedding methods for calculating semantic similarity," Natural Language Engineering, vol. 28, no. 6, pp. 733-761, Nov. 2022.
[26] R. Mihalcea, C. Corley, and C. Strapparava, "Corpus-based and knowledge-based measures of text semantic similarity," in Proc. 21st National Conf. on Artificial Intelligence, vol. 1, pp. 775-780, Boston, MA, USA, 16-20 Jul. 2006.
[27] K. Jarvelin and J. Kekalainen, "Cumulated gain-based evaluation of IR techniques," ACM Trans. on Information Systems, vol. 20, no. 4, pp. 422-446, Oct. 2002.
شكوفه بستان دكتري مهندسي كامپيوتر با گرايش نرمافزار از دانشگاه يزد است. او در حال حاضر به عنوان مدرس در دانشكده مهندسي كامپيوتر دانشگاه يزد و همچنين به عنوان توسعهدهنده نرمافزار در يك شركت برجسته جستجوي ابري فعاليت دارد. زمينههاي تحقيقاتي مورد علاقه ايشان شامل يادگيري عميق، بازيابي معنايي اطلاعات و تحليل معنايي شبكههاي اجتماعي است.
عليمحمد زارعبيدكي تحصيلات خود را در مقطع كارشناسي در سال 1378 از دانشگاه صنعتي اصفهان و مقاطع كارشناسي ارشد و دكتري كامپيوتر را بهترتيب در سالهاي 1381 و 1388 از دانشكده فني دانشگاه تهران به پايان رسانده است و هماكنون عضو هيأت علمي دانشكده مهندسي كامپيوتر دانشگاه يزد ميباشد. زمينههاي تحقيقاتي مورد علاقه ايشان شامل بازيابي اطلاعات، موتورهاي جستجو، رتبهبندي و پردازش زبانهاي طبيعي است.
محمدرضا پژوهان استاديار گروه مهندسي كامپيوتر دانشگاه يزد است. او دكتراي خود را در بخش علوم كامپيوتر از دانشگاه ساينس مالزي (USM) و دانشگاه ملي سنگاپور (NUS) اخذ كرده است. ايشان فارغالتحصيل كارشناسي و كارشناسي ارشد مهندسي كامپيوتر از دانشگاه صنعتي شريف است. علايق تحقيقاتي ايشان شامل پايگاه داده، دادهكاوي، علوم داده و حفظ حريم خصوصي در انتشار دادههاست.