تولید جملات فارسی با استفاده از شبکههای مولد تخاصمی (GANs)
محورهای موضوعی : مهندسی برق و کامپیوتر
1 - دانشگاه الزهرا
2 - دانشگاه الزهرا
کلید واژه: تولید متن, شبکههای مولد تخاصمی, یادگیری عمیق,
چکیده مقاله :
تولید متن، یکی از زمینههای تحقیقاتی در حوزه پردازش زبان طبیعی است که بهوسیله آن، سیستم میتواند متون جامع، کامل و از نظر گرامری درست را مانند انسان تولید کند. از جمله کاربردهای تولید متن میتوان به برچسبزدن به تصویر، تولید شعر و تولید گزارشهای هواشناسی و زیستمحیطی اشاره کرد. با ظهور شبکههای عصبی عمیق، پژوهشها در زمینه تولید متن به سمت استفاده از این شبکهها روانه شد؛ اما مهمترین چالش در حوزه تولید متن با استفاده از شبکههای عصبی عمیق، بحث گسستگی دادههاست که باعث عدم توانایی انتقال گرادیان شده است. اخیراً استفاده از رویکرد جدیدی در حوزه یادگیری عمیق با عنوان شبکههای مولد تخاصمی جهت تولید تصویر، صوت و متن مورد توجه قرار گرفته است. هدف از این پژوهش، استفاده از این رویکرد جهت تولید جملات فارسی میباشد. در این مقاله از سه الگوریتم متفاوت شبکههای مولد تخاصمی برای تولید جملات فارسی، استفاده و این سه الگوریتم با هم مقایسه شدهاند و با در نظر گرفتن معیار ارزیابی BLEU و Self-BLEU، ارزیابی همهجانبهای هم از نظر کیفیت جملات و هم از نظر تنوع صورت گرفته است.
Text generation is a field of natural language processing. Text generation enables the system to produce comprehensive, .grammatically correct texts like humans. Applications of text generation include image Captioning, poetry production, production of meteorological reports and environmental reports, production of business reports, automatic text summarization, .With the appearance of deep neural networks, research in the field of text generation has change to use of these networks, but the most important challenge in the field of text generation using deep neural networks is the data is discrete, which has made gradient inability to transmit. Recently, the use of a new approach in the field of deep learning, called generative adversarial networks (GANs) for the generation of image, sound and text has been considered. The purpose of this research is to use this approach to generate Persian sentences. In this paper, three different algorithms of generative adversarial networks were used to generate Persian sentences. to evaluate our proposed methods we use BLEU and self-BLEU because They compare the sentences in terms of quality and variety.
Celikyilmaz, A., Clark, E., & Gao, J. (2020). Evaluation of text generation: A survey. arXiv preprint arXiv:2006.14799.#
Lamb, A. M., Goyal, A. G. A. P., Zhang, Y., Zhang, S., Courville, A. C., & Bengio, Y. (2016). Professor forcing: A new algorithm for training recurrent networks. In Advances in neural information processing systems (pp. 4601-4609).#
Press, O., Bar, A., Bogin, B., Berant, J., & Wolf, L. (2017). Language generation with recurrent generative adversarial networks without pre-training. arXiv preprint arXiv:1706.01399.#
Zhang, Y., Gan, Z., Fan, K., Chen, Z., Henao, R., Shen, D., & Carin, L. (2017). Adversarial feature matching for text generation. arXiv preprint arXiv:1706.03850.#
Bengio, S., Vinyals, O., Jaitly, N., & Shazeer, N. (2015). Scheduled sampling for sequence prediction with recurrent neural networks. In Advances in Neural Information Processing Systems (pp. 1171-1179)#
Ranzato, M. A., Chopra, S., Auli, M., & Zaremba, W. (2015). Sequence level training with recurrent neural networks. arXiv preprint arXiv:1511.06732.7#
Huszár, F. (2015). How (not) to train your generative model: Scheduled sampling, likelihood, adversary. arXiv preprint arXiv:1511.05101.#
Bowman, S. R., Vilnis, L., Vinyals, O., Dai, A. M., Jozefowicz, R., & Bengio, S. (2015). Generating sentences from a continuous space. arXiv preprint arXiv:1511.06349.#
Yang, Z., Hu, Z., Salakhutdinov, R., & Berg-Kirkpatrick, T. (2017). Improved variational autoencoders for text modeling using dilated convolutions. arXiv preprint arXiv:1702.08139.#
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. In Advances in neural information processing systems (pp. 2672-2680)#
Yu, L., Zhang, W., Wang, J., & Yu, Y. (2017, February). Seqgan: Sequence generative adversarial nets with policy gradient. In Thirty-first AAAI conference on artificial intelligence.#
Guimaraes, G. L., Sanchez-Lengeling, B., Outeiral, C., Farias, P. L. C., & Aspuru-Guzik, A. (2017). Objective-reinforced generative adversarial networks (ORGAN) for sequence generation models. arXiv preprint arXiv:1705.10843.#
Kusner, M. J., & Hernández-Lobato, J. M. (2016). Gans for sequences of discrete elements with the gumbel-softmax distribution. arXiv preprint arXiv:1611.04051.#
Jang, E., Gu, S., & Poole, B. (2016). Categorical reparameterization with gumbel-softmax. arXiv preprint arXiv:1611.01144.#
Mescheder, L., Nowozin, S., & Geiger, A. (2017). The numerics of gans. In Advances in Neural Information Processing Systems (pp. 1825-1835).#
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., & Chen, X. (2016). Improved techniques for training gans. In Advances in neural information processing systems (pp. 2234-2242)#
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., & Chen, X. (2016). Improved techniques for training gans. In Advances in neural information processing systems (pp. 2234-2242)#
Gulrajani, I., Ahmed, F., Arjovsky, M., Dumoulin, V., & Courville, A. C. (2017). Improved training of wasserstein gans. In Advances in neural information processing systems (pp. 5767-5777).#
Rajeswar, S., Subramanian, S., Dutil, F., Pal, C., & Courville, A. (2017). Adversarial generation of natural language. arXiv preprint arXiv:1705.10929.#
Lin, K., Li, D., He, X., Zhang, Z., & Sun, M. T. (2017). Adversarial ranking for language generation. In Advances in Neural Information Processing Systems (pp. 3155-3165).#
Che, T., Li, Y., Zhang, R., Hjelm, R. D., Li, W., Song, Y., & Bengio, Y. (2017). Maximum-likelihood augmented discrete generative adversarial networks. arXiv preprint arXiv:1702.07983.#
Guo, J., Lu, S., Cai, H., Zhang, W., Yu, Y., & Wang, J. (2017). Long text generation via adversarial training with leaked information. arXiv preprint arXiv:1709.08624.#
https://dbrg.ut.ac.ir/hamshahri/ آزمایشگاه بانک اطلاعاتی دانشگاه تهران#
S. Bakhshaei, S. Khadivi, N. Riahi and H. Sameti, "A study to find influential parameters on a Farsi-English statistical machine translation system," 2010 5th International Symposium on Telecommunications, 2010, pp. 985-991, doi: 10.1109/ISTEL.2010.5734165#
Srivastava, R. K., Greff, K., & Schmidhuber, J. (2015). Highway networks. arXiv preprint arXiv:1505.00387.#
Vezhnevets, A. S., Osindero, S., Schaul, T., Heess, N., Jaderberg, M., Silver, D., & Kavukcuoglu, K. (2017). Feudal networks for hierarchical reinforcement learning. arXiv preprint arXiv:1703.01161.#
Papineni, K., Roukos, S., Ward, T., & Zhu, W. J. (2002, July). BLEU: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting of the Association for Computational Linguistics (pp. 311-318).#
Zhu, Y., Lu, S., Zheng, L., Guo, J., Zhang, W., Wang, J., & Yu, Y. (2018, June). Texygen: A benchmarking platform for text generation models. In The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval (pp. 1097-1100).#
ROUGE, L. C. (2004, July). A package for automatic evaluation of summaries. In Proceedings of Workshop on Text Summarization of ACL, Spain.#
Lavie, A., Sagae, K., & Jayaraman, S. (2004, September). The significance of recall in automatic metrics for MT evaluation. In Conference of the Association for Machine Translation in the Americas (pp. 134-143). Springer, Berlin, Heidelberg.#
نشریه مهندسی برق و مهندسی کامپیوتر ایران، ب- مهندسی کامپیوتر، سال 21، شماره 1، بهار 1402 49
مقاله پژوهشی
تولید جملات فارسی با استفاده از شبکههای مولد تخاصمی (GANs)
نوشین ریاحی و سحر جندقی
چکیده: تولید متن، یکی از زمینههای تحقیقاتی در حوزه پردازش زبان طبیعی است که بهوسیله آن، سیستم میتواند متون جامع، کامل و از نظر گرامری درست را مانند انسان تولید کند. از جمله کاربردهای تولید متن میتوان به برچسبزدن به تصویر، تولید شعر و تولید گزارشهای هواشناسی و زیستمحیطی اشاره کرد. با ظهور شبکههای عصبی عمیق، پژوهشها در زمینه تولید متن به سمت استفاده از این شبکهها روانه شد؛ اما مهمترین چالش در حوزه تولید متن با استفاده از شبکههای عصبی عمیق، بحث گسستگی دادههاست که باعث عدم توانایی انتقال گرادیان شده است. اخیراً استفاده از رویکرد جدیدی در حوزه یادگیری عمیق با عنوان شبکههای مولد تخاصمی جهت تولید تصویر، صوت و متن مورد توجه قرار گرفته است. هدف از این پژوهش، استفاده از این رویکرد جهت تولید جملات فارسی میباشد. در این مقاله از سه الگوریتم متفاوت شبکههای مولد تخاصمی برای تولید جملات فارسی، استفاده و این سه الگوریتم با هم مقایسه شدهاند و
با در نظر گرفتن معیار ارزیابی BLEU و Self-BLEU، ارزیابی همهجانبهای هم از نظر کیفیت جملات و هم از نظر تنوع صورت گرفته است.
کلیدواژه: تولید متن، شبکههای مولد تخاصمی، یادگیری عمیق.
1- مقدمه
تولید زبان طبیعی2 شاخهای تحقیقاتی از حوزه پردازش زبان طبیعی است [1]. به فرایند نرمافزاری تبدیل خودکار دادههای خام یا ساختیافته به متون حاوی زبان طبیعی، تولید زبان طبیعی گفته میشود.
در ابتدا سیستمهای تولید زبان طبیعی به سیستمهایی اطلاق میگردید که ورودی آنها دادههای متنی بوده و با استفاده از رویکردهای مبتنی بر قانون و رویکردهای احتمالی، متن خروجی را تولید میکردند اما این سیستمها نیاز به پیشپردازش دستی توسط انسان داشتند. در سال ۲۰۰۲ تعریف جامعتری برای سیستمهای تولید متن طبیعی مطرح گردید و سیستمهایی که ورودی آنها دادههای غیر متنی است هم در این چارچوب قرار گرفت. در ابتدا ورودی این سیستمها دادههای عددی و پایگاه دادههای ساختارمند بودند. استفاده از شبکههای عصبی در این حوزه، تحولی در سیستمهای تولید متن به وجود آورد. در سال ۲۰۱۲ ورودیهای بصری مانند تصویر و ویدئو پیچیدگی این سیستمها را افزایش داد و تعریف تولید زبان طبیعی را جامعتر گردانید. امروزه تولید زبان طبیعی به سیستمهایی که داده ورودی زبانی و غیر زبانی را دریافت و متن تولید میکنند اطلاق میگردد. همچنین پیشرفتهای گسترده در سالهای اخیر در حوزه یادگیری عمیق باعث شده تا سیستمهای هوشمندی پدید آیند که قادرند با استفاده از حجم عظیمی از نمونههای آموزشی، دادههای متنی بسیار واقعگرایانه تولید کنند. امروزه اکثر روشهای موجود در حوزه تولید متن با استفاده از شبکه عصبی عمیق میباشد.
روشهای تولید متن در قالب جمله را میتوان به سه دسته یادگیری با نظارت، خودرمزگذار3 متغیر و شبکههای مولد تخاصمی4 تقسیم نمود. از روشهای یادگیری با نظارت میتوان به کمک معلم5 که روشی پایهای برای تولید دنبالههای گسسته مثل جملات است و روش نمونهبرداری زمانبندیشده6 اشاره کرد. روش کمک معلم برای آموزش مدلهای مبتنی بر شبکههای عصبی بازگشتی که از خروجی یک گام قبل بهعنوان ورودی بهره میبرند استفاده میکند. این متد یک روش آموزش، توزیع جمله و تولید جمله جدید است که در توسعه مدلهای زبانی مبتنی بر یادگیری عمیق نقشی حیاتی دارد. در این مدل تابع هزینه بر اساس بیشینه درستنمایی است و معمولاً از مدل بازگشتی مبتنی بر نمونهگیری بهعنوان مولد استفاده میشود [2]. در این روش در گام آموزش، شبکه فقط در مواجهه دادههای کاملاً درست قرار گرفته و در فاز آزمون در مواجهه دادههای تولیدشده قرار گرفته است؛ در نتیجه این روش از مشکل جانبداری مواجهه7 رنج میبرد [3] و این موضوع باعث تولید جملاتی میشود که در ابتدای جمله، کلمات مناسب و باکیفیت هستند اما این کیفیت در کلمات جلوتر کاهش مییابد [4].
راهکار نمونهبرداری زمانبندیشده برای حل مشکل جانبداری مواجهه در [5] پیشنهاد شده که این روش همچنین به نام داده بهعنوان اثباتگر8 نیز شناخته میشود [6]. در این روش در هر قسمت از جمله، مستقل از جمله تولیدشده تا آن کلمه، مقدار هدف برای کلمه بعدی (یعنی مقداری که میخواهیم بیشترین احتمال را در خروجی داشته باشد) برابر مقداری است که داده واقعی در جایگاه متناظر دارد. این رفتار میتواند در بعضی حالات باعث سوقدادن مدل به پیشبینی اشتباه شود. این روش تخمین مناسبی برای بیشینه درستنمایی ارائه نمیدهد؛ به این معنی که اگر ظرفیت مدل و تعداد دادههای آموزش به بینهایت کند، مدل آموزشدیده به سمت مدل با بیشینه درستنمایی نمیرود و جانبداری9 دارد [7].
در روشهای مبتنی بر خودرمزگذار متغیر علاوه بر تولید جمله، فضای نهان برای جملهها تولید میشود که در این فضای نهان، مفاهیم اساسی مانند موضوع جمله و ویژگیهای معنایی جمله بیان میشوند [8] و [9]. با وجود آن که این روش، نمایشی مخفی از جمله را به دست میآورد اما از روش کمک معلم ضعیفتر عمل میکند و دلیل آن توزیع پسینی است
که شبکه رمزگذار میسازد. در واقع این توزیع کل فضای نهان را پوشش نمیدهد و بخش زیادی از فضا به جملات معتبری متناظر نمیشود [4].
شبکههای مولد تخاصمی [10] روشی برای آموزش مدل مولد10 هستند. در این روشها، شبکههایی با هم رقابت میکنند و به تعبیری با هم بازی انجام میدهند و نتیجه این بازی و رقابت، آموزش مدل مولد است. روشهای آموزش مبتنی بر این ایده را یادگیری تخاصمی مینامیم.
در شبکههای مولد تخاصمی برای آموزش مدل مولد از شبکه دومی بهعنوان متمایزگر11 استفاده میشود که این شبکه معمولاً یک دستهبند12 دودستهای13 است. در مدلهای مولد تخاصمی، آموزش این گونه است که شبکه متمایزگر بین مجموعه دادههای واقعی و دادههای تولیدشده توسط مولد، دستهبندی انجام میدهد. سپس شبکه مولد به سمتی سوق داده میشود که متمایزگر را به اشتباه بیندازد و این دو مرحله بهصورت تکراری انجام میشود. آموزش متمایزگر مشابه یک دستهبند عادی انجام میشود. از آنجا که شبکه متمایزگر نسبت به ورودی مشتقپذیر است برای آموزش مدل مولد، گرادیان از شبکه متمایزگر وارد شده و پارامترهای مدل مولد را بهروزرسانی میکند. به عبارت دیگر شبکه متمایزگر مشابه تابع هزینه برای مولد عمل میکند و مشخص مینماید که با تغییر پارامترهای مولد در چه راستایی متمایزگر به اشتباه میافتد. اخیراً برای حل مسئله تولید جمله توجه زیادی به آموزش تخاصمی شده است [3] و [11] تا [13].
چالشهای یادگیری تخاصمی به دو دسته تقسیم میشوند. دسته اول چالشهای ذاتی این شبکههاست که میتوان به نبود معیار ارزیابی مناسب و نبود تابع هزینه مناسب اشاره کرد. دسته دوم چالشهای این شبکهها در رابطه با دادههای متنی است که به توضیح آن پرداخته میشود.
یادگیری تخاصمی در حوزه دادههای پیوسته عملکرد بسیار خوبی دارد؛ اما به دلیل چالش انتقال گرادیان برای دادههای گسسته امکان استفاده از این روش در دادههای گسسته به صورت مستقیم وجود ندارد. در تولید متن در انتهای شبکه مولد نیاز به یک نمونهگیری از یک توزیع است که این عملیات، مشتق تعریفشدهای ندارد و باعث مشکل انتقال گرادیان میشود [11]. در واقع این مشکل به معنای عدم توانایی انتقال گرادیان تولیدشده توسط شبکه متمایزگر به شبکه مولد است.
چالش بعدی تعریفنشدهبودن مشتق عملیات تصادفی است. هنگامی که متغیر تصادفی تابعی از و این رابطه تصادفی است، بهصورت کلی مشتق نسبت به تعریفنشده است. این چالش در خودرمزگذار متغیر14 هم وجود دارد که راه حل تنظیم مجدد15 برای آن پیشنهاد گردیده است [14].
چالشبرانگیزترین مسئله در روشهای آموزش تخاصمی، ناپایداری آموزش است. گاهی توزیع مدل مولد بین چند قله از توزیع اصلی به صورت تناوبی جابهجا شده و رفتار ناپایداری را در آموزش تخاصمی به وجود میآورد که به آن، چسبندگی به قله16 میگویند. مدل مولد بین قلهها به صورت تناوبی جابهجا میشود؛ در حالی که یک توزیع چندقلهای به عنوان توزیع اصلی وجود دارد. روشهایی در [15] و [16] برای پایدارکردن آموزش ارائه شده که بسیاری از آنها، خاص حوزه دادههای پیوسته هستند و نمیتوان از آنها به صورت مستقیم در تولید متن استفاده کرد.
در حوزه تولید متن به زبان فارسی با استفاده از شبکههای مولد تخاصمی عملاً پژوهش منتشرشدهای وجود ندارد. در این تحقیق با استفاده از شبکههای مولد تخاصمی و حل چالش انتقال گرادیان، جملات فارسی تولید شده است. این پژوهش بر روی سه مجموعه داده فارسی اجرا گردید؛ ابتدا از جملات پیکره همشهری، استفاده و سپس جملات پیکره Coco به زبان فارسی ترجمه شد و به عنوان داده مورد استفاده قرار گرفت. پس از آن از جملات پیکره IWSLT در حوزه توریسم که به زبان فارسی ترجمه شده بود به عنوان دیتاست استفاده گردیده است. از سه الگوریتم SeqGAN، MaliGAN و LeakGAN برای تولید جملات فارسی استفاده شد و این سه الگوریتم با هم مقایسه گردیدهاند و با در نظر گرفتن معیار ارزیابی BLEU و Self-BLEU، ارزیابی همهجانبهای هم از نظر کیفیت جملات و هم از نظر تنوع صورت گرفته است.
در بخش بعدی به بررسی روشهای تولید متن با استفاده از شبکههای مولد تخاصمی پرداخته شده و سپس این روشها دستهبندی شدهاند. در بخش بعدی روشهای مورد استفاده، معرفی و سپس ارزیابی و نتیجه بیان گردیده است.
2- پژوهشهای پیشین
روشهای یادگیری تخاصمی را میتوان در چهار رویکرد در حوزه تولید جمله طبقهبندی کرد. اولین رویکرد، یادگیری تخاصمی با استفاده از Gumbel Softmax است. در حوزه دادههای گسسته، مشکل انتقال گرادیان ناشی از عملیات نمونهگیری در خروجی شبکه مولد است زیرا اکثر شبکهها برای ایجاد توزیع دستهای در خروجی شبکه از یک تابع بیشینه هموار17 استفاده میکنند. در [13] روشی پیشنهاد شده که GSGAN نام دارد که در آن برای حل مشکل انتقال گرادیان، فرایند انتهایی شبکه با تقریبی مشتقپذیر جایگذاری شده است. به بیان دیگر در شبکههای مورد استفاده برای تولید جمله، خروجی شبکه مولد در هر مرحله، یک توزیع دستهای است که این توزیع با کمک یک تابع بیشینه هموار ایجاد میشود. در این روش خروجیهای شبکه با کمک Gumbel Softmax به صورت مشتقپذیر تقریب زده شدهاند. در نتیجه میتوانیم توابع هزینه و روشهایی را که مبتنی بر کاهش گرادیان هستند روی شبکه اعمال کنیم. در این روشها تنظیم پارامترها کاری دشوار است [14].
دومین رویکرد، استفاده از فضای ویژگی در یادگیری تخاصمی است. در این روشها فضای آموزش جمله به یک فضای پیوسته مثل فضای ویژگی برده میشود که ابتداییترین راه، آموزش یک شبکه برای استخراج ویژگی، مثل خودرمزگذار استفاده از شبکههای مولد تخاصمی در فضای جدید است. برای حل مشکل جانبداری مواجهه، روش کمک استاد ارائه شد [2]. این روش باعث بهبود روش کمک معلم شده است اما تفاوت نتیجه بیشتر در جملات طولانی مشهود میباشد. روش TextGAN با تعمیم این روش بهوسیله شبکه متمایزگر، ویژگی مناسبی از دنباله کلمات به دست میآورد و شبکه مولد در این فضا دو توزیع اصلی و مولد را به
هم نزدیک میکند. در روش TextGAN مشکل چسبیدگی به قله بهبود یافته و این بهبود بهوسیله نزدیککردن ممانهای18 دو توزیع حاصل شده است. روشهایی که از رویکرد استفاده از فضای ویژگی استفاده میکنند در تولید جملههای واقعی عملکرد خوبی ندارند؛ زیرا به صورت معمول فضای ویژگی که یاد گرفته میشود ساختار دارد، اما بخشهای کوچکی از این فضای ویژگی متناظر با یک جمله معتبر است و در عمل نمونهگیری در این فضا، جملات بیمفهوم تولید میکند [4] و [17].
رویکرد سوم، تولید دنباله توزیع کلمه است. رویکردهایی که تا این قسمت مطرح شد همگی برای تولید جمله، هر کلمه جمله را بهعنوان یک داده گسسته در نظر میگرفتند و آن را با بردار یک- فعال19 نشان میدادند و این مسئله باعث ایجاد مشتقناپذیری مدل میشد. در ایده این قسمت میتوانیم هر کلمه را یک بردار به اندازه در نظر بگیریم به طوری که جمع درایههای بردار برابر یک شده و در نتیجه یک جمله با طول با بردار تایی برابر میشود که اگر بردارها به صورت یک- فعال شوند، همان نمایش قبل است. هدف این است که روی هر کلمه، توزیع تولید شود. با این بیان برای تولید جملات واقعی، روش باید یاد بگیرد بردار هر کلمه را به سمت یک- فعال شدن سوق دهد [3]، [18] و [19] که به این نحوه تولید جمله، توزیع کلمه میگوییم. این رویکرد مسئله مشتقناپذیری را حل میکند اما با شبکههای مولد تخاصمی قابل آموزش نیست زیرا شبکه مولد تخاصمی تلاش میکند فاصله توزیع مولد و داده واقعی را کم نماید. زمانی که دو توزیع تفاوت زیادی با هم داشته باشند و توزیع آنها در فضای نمونهها اشتراک کمی داشته باشد، فاصله اشباع20 میشود و مشتق آن صفر میگردد. گرادیان به شبکه برنمیگردد و آموزش انجام نمیگیرد.
رویکرد چهارم یادگیری تخاصمی با استفاده از یادگیری تقویتی است. این رویکرد، موضوع تولید جملات را بهعنوان یک مسئله یادگیری تقویتی نگاه میکند و با کمک روشهای یادگیری تقویتی، مدل مولد را آموزش میدهد. در این رویکرد مسئله انتقال گرادیان حل میشود زیرا در هنگام آموزش مولد، پاداشی تعریف میشود و این پاداش به جای گرادیان منتقل میگردد.
از اولین راه حلهای معرفیشده در حوزه یادگیری تخاصمی برای تولید جمله میتوان به SeqGAN [11] اشاره کرد. این روش مسئله را یک مسئله یادگیری تقویتی در نظر میگیرد و پاداش، خروجی شبکه متمایزگر است. روش ORGAN [7] تعمیمی از روش SeqGAN میباشد. این روش دانش خبره را به تولید جمله وارد میکند. روشهایی که تا اینجا معرفی شدند جملات تولیدشده توسط کامپیوتر را از جملات تولیدشده توسط انسان تشخیص میدادند؛ در واقع دستهبندی دودستهای بودند. اما روش RankGAN [20] از یک رتبهبند21 بهجای شبکه عصبی متمایزگر استفاده میکند. وظیفه رتبهبند آن است که رتبه جملات تولیدشده توسط کامپیوتر را پایینتر از جملات تولیدشده توسط انسان قرار دهد و این کار باعث کمک بیشتر به شبکه مولد خواهد شد. در روشی که در [21] معرفی گردیده است تابع هدفی جدید تعریف میشود و نحوه آموزش آن شبیه SeqGAN است؛ با این تفاوت که با تغییراتی که روی روش SeqGAN اعمال شده، آموزش پایداری بیشتری پیدا میکند. در روشهایی که مطرح گردید متمایزگر، خروجی عددی بهعنوان پاداش تولید میکند و از این خروجی برای آموزش مولد استفاده میشود. در این روشها اطلاعات کمی از متمایزگر به مولد میرسد و این مسئله در این روشها چالش بزرگی است زیرا چه جمله کوتاه و چه طولانی باشد فقط یک عدد برای آموزش مولد در اختیار مولد قرار میگیرد. روش LeakGAN سعی میکند که از اطلاعات متمایزگر، بیشتر استفاده کرده و باعث بهبود آموزش به خصوص برای تولید جملات طولانیتر شود [22].
تولید جمله با استفاده از روشهای یادگیری تخاصمی با استفاده از یادگیری تقویتی نسبت به سایر روشها کارایی بهتری دارد لذا در این پژوهش نیز از روشهای این حوزه برای تولید جملات فارسی استفاده شده است [23].
در بحث تولید متن به زبان فارسی دو مقاله منتشر گردیده است. در [24] از مدلهای مبتنی بر قاعده استفاده شده است؛ به این صورت که یک جمله به عنوان قاعده اصلی انتخاب میشود و به ازای این جمله یک جمله دیگر تولید میگردد. مقاله [25] از ایده sentiGAN [26] برای تولید متن استفاده کرده که پیکره استفادهشده در این مقاله، خاصمنظوره است. در نتیجه جملات تولیدی در حوزهای خاص هستند و تنوع جملات کم است. در این مقاله مطرح شده که تابع هزینهای جدید پیشنهاد شده است و با تابع هزینه مرسوم در شبکههای مولد تخاصمی مقایسه گردیده اما تابع هزینه مرسوم معرفی نشده و منبعی هم برای تابع مرسوم مطرح نشده است همچنین از معیار سرگشتگی22 برای ارزیابی مدل استفاده شده است. این معیار در مقالات تولید متن با استفاده از شبکههای مولد تخاصمی در موارد نادر استفاده شده است زیرا این معیار، حساسیتی نسبت به جانبداری مواجهه ندارد و برای محاسبه این معیار همواره نمونههایی از داده واقعی وارد مدل میشود و توزیع احتمال شرطی به شرط دنباله صحیح بررسی میگردد؛ همچنین این معیار به روشهای با رفتار میانگین جستجوگری امتیاز پایین میدهد.
3- روش پیشنهادی
هدف در این تحقیق، تولید جملات فارسی با استفاده از شبکههای مولد تخاصمی است. برای این منظور از سه الگوریتم مبتنی بر یادگیری تقویتی به نامهای SeqGAN، MaliGAN، LeakGAN استفاده شده است. کیفیت جملات تولیدی توسط سیستم علاوه بر وابستگی به ساختار و الگوریتم مورد استفاده، به مجموعه داده آموزشی هم وابسته است؛ بنابراین نتایج عملکرد این سه شبکه روی سه مجموعه داده مطرحگردیده با هم مقایسه شدهاند.
3-1 مشخصات پیکرهها
در این پژهش از سه پیکره به نامهای همشهری 1، Coco و IWSLT استفاده شده است.
پیکره همشهری [27] شامل اخبار با موضوعات مختلف است. به منظور استفاده در سیستم تولید متن، جملات 10 تا 15 کلمهای از این پیکره استخراج شد و تحت عنوان پیکره همشهری 1 مورد استفاده قرار گرفت. این پیکره شامل 8800 جمله و 9004 کلمه متفاوت میباشد.
پیکره Coco ترجمه یک پیکره به اسم Image-Coco Captioning است. پیکره ترجمهشده در این طرح شامل 20000 خط جمله که هر کدام توصیفگر یک تصویر هستند، میباشد و جملات 4 تا 25 کلمهای هستند. این جملات با استفاده از مترجم گوگل ترجمه شده و اصلاحات لازم برای ترجمه روی این پیکره انجام گرفته است. این پیکره شامل حدود 4683 کلمه متفاوت میباشد.
پیکره IWSLT شامل ترجمه بخشی از پیکره انگلیسی IWSLT در حوزه توریسم است. البته جملات خیلی کوتاه مانند سلام، خداحافظ و ...
شکل 1: تخمین پاداش میانی جملات با روش جستجوی مونت کارلو [11].
حذف شدهاند. پیکره ترجمهشده در این طرح شامل 10000 خط جمله است. جملات 6 تا 15 کلمهای هستند و این پیکره شامل 2896 کلمه در دامنه مکالمات محاوره توریستی است [28]. در جدول 1 مشخصات سه پیکره استفادهشده آمده است.
3-2 پیشپردازش
در ابتدا مرحله پیشپردازش به منظور استانداردکردن متن ورودی انجام میگیرد؛ به این صورت که مرزبندی بین جملات و کلمات مشخص میگردد. از کتابخانه nltk برای جداسازی کلمات23 جمله استفاده میشود و کلمات در هر جمله که با فاصله از یکدیگر مشخص میگردند از هم جدا میشوند و در مرحله بعد با کلمات متن ورودی یک دیکشنری، ساخته و به هر کلمه، یک عدد نسبت داده میشود.
3-3 SeqGAN
از اولین راه حلهای معرفیشده در حوزه یادگیری تخاصمی برای تولید جمله میتوان به SeqGAN اشاره کرد. این روش دو شبکه مولد24 و متمایزگر دارد که در شکل 1 نشان داده شده است. در یک گام، متمایزگر بر روی دادههای واقعی و دادههای تولیدشده توسط مولد آموزش میبیند و در گام دیگر با کمک دستهبند آموزش، شبکه مولد آموزش میبیند. در این روش، خروجی شبکه متمایزگر احتمالی است که این شبکه به واقعیبودن جمله ورودی میدهد. خروجی شبکه متمایزگر، عددی بین صفر و یک است. هر اندازه که این خروجی به یک نزدیکتر باشد داده ما از دید متمایزگر واقعیتر و هر اندازه که به صفر نزدیکتر باشد مصنوعیتر است. این روش برای حل مسئله یادگیری تقویتی از گرادیان قانون استفاده کرده و با استفاده از پاداش دریافتشده، گرادیانی را برای شبکه مولد تخمین میزند و با همین گرادیان تخمینی، شبکه مولد آموزش میبیند [11]، [20] و [29].
در این روش از مدل بازگشتی مبتنی بر نمونهگیری در مولد استفاده میشود و شبکه عصبی متمایزگر مدل دستهبند پیچشی است و به همین دلیل فقط برای جملات کامل، خروجی متمایزگر که همان پاداش است در دسترس قرار میگیرد. همین موضوع، یکی از چالشهای این روش است زیرا پاداش میانی برای جملات کاملنشده وجود ندارد و فقط پاداش برای جملات کامل است. به همین دلیل در این روش از جستجوی مونتکارلو25 استفاده میشود و پاداشی میانی برای جملات تعریف میشود. در شکل 1 این ساختار نشان داده شده است. در این روش مشکل جانبداری مواجهه و چسبندگی به قله حل شده است؛ اما پاداشی که مولد دریافت میکند عددی بین صفر و یک است که باعث گردیده سرعت آموزش کاهش یابد و باعث ناپایداری آموزش میشود.
جدول 1: مشخصات سه پیکره استفادهشده در این پژوهش.
| تعداد جملات | تعداد کلمات | طول هر جمله |
پیکره همشهری 1 | 8800 | 9004 | 10 تا 25 کلمه |
پیکره Coco | 20000 | 4683 | 4 تا 25 کلمه |
پیکره IWSLT | 10000 | 2896 | 6 تا 15 کلمه |
3-4 MaliGAN
ساختار MaliGAN کاملاً مشابه SeqGAN و تفاوت آنها در نحوه آموزش شبکه میباشد. در این روش، تابع هدفی جدید تعریف میشود و نحوه آموزش آن شبیه SeqGAN است با این تفاوت که با تغییراتی که روی روش SeqGAN اعمال شده، آموزش پایداری بیشتری پیدا میکند و همچنین در مقایسه با روش کمک معلم نسبت به بیشبرازش26 مقاومت بیشتری دارد [21]. تابع هدف مولد برابر است که یک تخمین از توزیع واقعی میباشد اما تابع هدف متمایزگر مشابه شبکههای مولد تخاصمی، تابع هزینه دستهبند عادی است.
برای آموزش مولد، بعد از آموزش متمایزگر، از شبکه مولد فعلی کپی گرفته میشود. برای استفاده از تابع هدف بیانشده، نمونهگیری از مدل مولد به کمک نمونهگیری بر اساس اهمیت27 به جای نمونهگیری از توزیع انجام میگیرد و نمونهگیری را از مدل مولد بهروز انجام میدهد و با نمونههای آن، گرادیان تابع هزینه تخمین زده میشود و آموزش مولد انجام میگیرد. بهروزرسانی شبکه مولد، مشابه روش SeqGAN است
اما نمونهها هر کدام بهوسیله متمایزگر وزن گرفتهاند. این تابع هزینه، درستنمایی رفتارهای خوب را زیاد میکند و هزینه درستنمایی رفتارهای بد را کاهش میدهد. در این روش نسبت به SeqGAN آموزش، پایداری بیشتری مییابد اما مشابه SeqGAN اطلاعات کمی از متمایزگر به مولد میرسد و باعث ناکارآمدشدن دادههای آموزش میشود.
3-5 LeakGAN
در دو روش SeqGAN و MaliGAN متمایزگر، خروجی عددی بهعنوان پاداش تولید میکرد و از این خروجی برای آموزش مولد استفاده میشد. در این روشها اطلاعات کمی از متمایزگر به مولد میرسد و این مسئله چالش بزرگی است؛ زیرا چه جمله کوتاه و چه طولانی باشد فقط یک عدد برای آموزش مولد در اختیار مولد قرار میگیرد. این در صورتی است که در حوزه دادههای پیوسته شبکههای مولد تخاصمی مثل تصویر گرادیان نسبت به تکتک پیکسلهای تصویر محاسبه شده و به مولد رسانده میشود تا مولد آموزش ببیند. همچنین در این روشها که با رویکرد یادگیری تقویتی مطرح شد محیط به صورت جعبه سیاه28 نیست و شناختهشده است (محیط همان متمایزگر است)، پس میتوانیم اطلاعات بیشتری را استخراج نموده و به جای یک عدد اطلاعات بیشتری داشته باشیم. روش LeakGAN [22] که در شکل 2 آمده است، سعی میکند از اطلاعات متمایزگر بیشتر استفاده کرده و باعث بهبود آموزش به خصوص برای تولید جملات طولانیتر شود و برای این کار از روشی سلسلهمراتبی29 به نام شبکههای فئودالی30 [30] استفاده نموده است.
[1] این مقاله در تاریخ 27 شهریور ماه 1400 دریافت و در تاریخ 31 مرداد ماه 1401 بازنگری شد.
نوشین ریاحی (نویسنده مسئول)، گروه مهندسی کامپیوتر، دانشکده مهندسی،
دانشگاه الزهرا، تهران، ایران، (email: nriahi@alzahra.ac.ir).
سحر جندقی، گروه مهندسی کامپیوتر، دانشکده مهندسی، دانشگاه الزهرا، تهران، ایران، (email: saharsfn2@gmail.com).
[2] . Natural Language Generation
[3] . Autoencoder
[4] . Generative Adversarial Networks
[5] . Teacher Forcing
[6] . Scheduled Sampling
[7] . Exposure Bias
[8] . Data as Demonstration
[9] . Bias
[10] . Generative
[11] . Discriminator
[12] . Classifier
[13] . Binary
[14] . Variational Autoencoder
[15] . Reparametrization
[16] . Mode Collapsing
[17] . Softmax Function
[18] . Moments
[19] . One-Hot
[20] . Saturate
[21] . Ranker
[22] . Perplexity
[23] . Token
[24] . Generator
[25] . Monte Carlo Search
[26] . Overfit
[27] . Importance Sampling
[28] . Black Box
[29] . Hierarchical
[30] . Feudal Net
شکل 2: نمای کلی روش LeakGAN [22].
دیدگاه شبکههای فئودالی آن است که برای حل مسئله فرض میکنیم دو شبکه وجود دارد. شبکه اول تصمیمهای سطح بالا و بدون جزئیات را مشخص کرده و مدیر1 نامیده میشود و شبکه دوم با توجه به تصمیم شبکه اول، عمل نهایی را انجام میدهد که این شبکه کارگر2 دارد. در واقع مدیر کلیات را مشخص نموده و برای کارگر زیرهدف تعیین میکند و کارگر، عمل نهایی را با توجه به زیرهدفهای مشخص انجام میدهد.
روش LeakGAN از شبکههای فئودالی بهعنوان مولد استفاده میکند؛ زیرا باعث میشود که از متمایزگر استفاده بیشتری صورت گیرد. به این معنا که شبکه مدیر، ویژگیهای کلی جملهای را که مولد تولید مینماید مشخص میکند و شبکه کارگر، تولید کلمات جمله را بر این اساس انجام میدهد. سایر قسمتها مشابه سایر شبکههای یادگیری تخاصمی است که در یک مرحله متمایزگر و در مرحله دیگر مولد آموزش داده میشود.
شبکه متمایزگر، فضای ویژگی را که برای شبکه فئودالی لازم است به دست میآورد. در متمایزگر از شبکه دستهبند پیچشی بهعنوان متمایزگر استفاده شده و ویژگیهایی که این شبکه تولید میکند در واقع همان فضای نهان است و این گونه از وضعیت داخلی متمایزگر در آموزش استفاده میشود. به این معنا که مدیر پیشبینی میکند که تغییر در فضای ویژگیهای متمایزگر در چه سمتی به تولید جملات واقعیتر منجر میشود و کارگر با کمک مدیر، جملاتی تولید میکند که این امر محقق گردد. شبکه مورد استفاده برای کارگر و مدیر LSTM است و مشابه روش SeqGAN از جستجوی مونتکارلو برای تخمین پاداش اصلی مسئله استفاده میشود. نسبت به دو روش قبل اطلاعات بیشتری از متمایزگر به مولد میرسد که باعث بهبود آموزش میشود و جملات طولانیتری تولید میگردد اما استفاده از سه شبکه عصبی همزمان باعث پیچیدگی زیاد محاسباتی میشود.
4- ارزیابی و نتایج
این پژوهش بر روی رایانهای به مشخصات پردازنده Intel (R) ، GB 4 RAM، پردازنده گرافیکی GB 2- Intel (R) HD Graphics و سیستم عامل لینوکس اجرا شده است. زبان برنامهنویسی مورد استفاده پایتون بوده و با استفاده از روش کراس، پژوهش بر روی سه پیکره به نامهای همشهری 1، Coco و IWSLT انجام شده است.
در این پژوهش از معیار BLEU و Self-BLEU استفاده گردیده است زیرا هم از نظر کیفیت جملات مورد بررسی قرار میگیرد و هم از نظر تنوع، جملات بررسی میشوند. معیار BLEU در حوزه ترجمه زبان پیشنهاد شد و عددی است بین صفر و یک که تعیینکننده میزان شباهت عبارت ترجمه تولیدشده با ترجمه مرجع میباشد [31]. از مشکلات معیار BLEU این است که تنوع نمونههای تولیدشده توسط مدل را در نظر نمیگیرد و از تنوع، تأثیر نمیپذیرد. معیار Self-BLEU با تعیین میزان شباهت بین جملات تولیدشده، تعیینکننده اندازه تنوع در آنهاست و تنوع نمونههای تولیدشده را در نظر میگیرد [32]. هرچه BLEU بیشتر و Self-BLEU کمتر باشد، کیفیت جملات تولیدشده بهتر است.
در سیستمهای تولید متن معمولاً معیار BLEU برای گرامهای 2، 3، 4 و 5 محاسبه میگردد. حالت کلمات را به طور مجزا در نظر گرفته و کاربرد ندارد. با افزایش معیار BLEU کاهش مییابد، لذا حالت هم کارایی نخواهد داشت. همچنین معیار Self-BLEU برای گرام برابر 3 محاسبه گردیده تا تعیینکننده میزان شباهت ترکیبات 3 کلمهای بین جملات باشد.
در ادامه نتایج بهدستآمده برای هر پیکره مطرح گردیده است. در خصوص مقایسه نتایج بهدستآمده با پژوهشهای پیشین، همان طور که در انتهای بخش پژوهشهای پیشین مطرح گردید در حوزه تولید متون فارسی تنها دو مقاله منتشر شده است. در مورد [24] به ازای هر جمله، یک جمله دیگر تولید میگردد؛ در صورتی که در این پژوهش به ازای هر دوره3 تعدادی جمله تولید میشود؛ لذا امکان مقایسه نتایج بهدستآمده
از این پژوهش با [24] وجود ندارد. در مورد [25] اصلاً نتایج ارزیابیها گزارش نشده است. این موضوع و موارد دیگری که قبلاً در مورد این مقاله مطرح شد باعث گردیده که امکان مقایسه نتایج با این پژوهش هم میسر نباشد. در نتیجه عملاً روش پایه برای مقایسه با نتایج این پژوهش وجود ندارد. لذا به بررسی و مقایسه نتایج ارزیابیهای سه الگوریتم شبکه مولد تخاصمی مطرحگردیده، بسنده کردیم.
[1] . Manager
[2] . Worker
[3] . Epoch
شکل 3: نمونهای از جملات تولیدشده بر روی پیکره IWSLT با استفاده از الگوریتم SeqGAN.
شکل 5: نمونهای از جملات تولیدشده بر روی پیکره IWSLT با استفاده از الگوریتم LeakGAN.
جدول 2: ارزیابی جملات پیکره IWSLT.
3- Self-BLEU | 5- BLEU | 4- BLEU | 3- BLEU | 2- BLEU |
|
797/0 | 1938/0 | 3237/0 | 5563/0 | 8267/0 | SeqGAN |
778/0 | 471/0 | 53/0 | 642/0 | 816/0 | MaliGAN |
76/0 | 2506/0 | 3665/0 | 5624/0 | 8078/0 | LeakGAN |
جدول 3: ارزیابی جملات پیکره Coco.
3- Self-BLEU | 5- BLEU | 4- BLEU | 3- BLEU | 2- BLEU |
|
78/0 | 232/0 | 366/0 | 612/0 | 873/0 | SeqGAN |
778/0 | 337/0 | 444/0 | 622/0 | 831/0 | MaliGAN |
791/0 | 338/0 | 445/0 | 643/0 | 808/0 | LeakGAN |
شکل 4: نمونهای از جملات تولیدشده بر روی پیکره IWSLT با استفاده از الگوریتم MaliGAN.
4-1 نتایج بهدستآمده برای پیکره IWSLT
معیار 2- BLEU با توجه به جدول 2 برای هر 3 الگوریتم، مقدار قابل قبولی است و البته برای این که یک جمله بامفهوم داشته باشیم، در عمل 2- BLEU کارایی زیادی ندارد؛ زیرا کمتر جملهای با دو کلمه ساخته میشود. هنگامی که مقدار یعنی تعداد کلمات پشت سر هم در یک جمله برای معیار BLEU زیاد میشود از میزان شباهت جملات تولیدی به جملات واقعی کاسته میشود. اما الگوریتم LeakGAN برای هایی برابر 3، 4 و 5 نسبت به الگوریتم SeqGAN عملکرد بهتری دارد زیرا از سه شبکه عصبی استفاده میکند و اطلاعات بیشتری از متمایزگر به دست میآید و در نتیجه مولد میتواند جملاتی را با پیوستگی طولانیتر و بهتر تولید کند.
در الگوریتم MaliGAN با توجه به اعداد بهدستآمده و جملاتی که تولید شده است مشخص میباشد که این الگوریتم در این آزمایش دچار ناپایداری شده که بعد از بررسی پیکره Coco که در قسمت بعد بیان گردیده، نتیجه آن است که دلیل این ناپایداری، کافینبودن دادههای آموزش است. با توجه به معیار 3- self-BLEU که تنوع جملات را نشان میدهد و هرچه مقدار کمتری باشد مناسبتر است و تنوع جملات بیشتر است، بهترین الگوریتم LeakGAN است که نسبتاً جملاتی با تنوع خوب تولید میکند.
نمونهای از جملات تولیدشده بر روی پیکره IWSLT با استفاده از الگوریتم SeqGAN در شکل 3، با استفاده از الگوریتم MaliGAN در شکل 4 و با استفاده از الگوریتم LeakGAN در شکل 5 آمده است.
4-2 نتایج بهدستآمده برای پیکره Coco
با توجه به جدول 3 در پیکره Coco، معیار 2- BLEU برای الگوریتم SeqGAN از دو الگوریتم دیگر بیشتر است اما برای معیار 3- BLEU، 4- BLEU و 5- BLEU عملکرد LeakGAN از دو الگوریتم دیگر بهتر
شکل 6: نمونهای از جملات تولیدشده بر روی پیکره Coco با استفاده از الگوریتم SeqGAN.
شکل 7: نمونهای از جملات تولیدشده بر روی پیکره Coco با استفاده از الگوریتم MaliGAN.
میباشد که دلیلش همان طور که در پیکره IWSLT گفته شد، آن است که از سه شبکه عصبی استفاده میکند و اطلاعات بیشتری از متمایزگر به دست میآید و در نتیجه مولد میتواند جملاتی را با پیوستگی طولانیتر و بهتر تولید کند. همچنین الگوریتم MaliGAN از SeqGAN عملکرد بهتری دارد و نشاندهنده این است که تابع هدفی که در MaliGAN مطرح شده است عملکرد سیستم را بهبود داده است.
معیار Self-BLEU برای هر سه الگوریتم تقریباً مقدار یکسانی است و میتوان نتیجه گرفت که صرف نظر از تفاوت اندکی که دارند بهترین الگوریتم برای تولید جمله LeakGAN میباشد. نمونهای از جملات تولیدشده روی پیکره Coco با استفاده از الگوریتم SeqGAN در شکل 6، با استفاده از الگوریتم MaliGAN در شکل 7 و با استفاده از الگوریتم LeakGAN در شکل 8 نمایش داده شده است.
4-3 نتایج بهدستآمده برای پیکره همشهری 1
پیکره همشهری 1 نسبت به دو پیکره دیگر دارای جملات طولانیتر، تعداد کلمات بیشتر و تعداد جملات کمتری است. این موضوع باعث شد که خروجی LeakGAN و MaliGAN کاملاً نامفهوم باشد. همچنین برای الگوریتم SeqGAN معیار 5- BLEU مقدار 061/0 به دست آمد. جملات تولیدشده توسط SeqGAN هم جملات صحیحی نبودند، اما زیرعباراتی که در این جملات ساخته شدهاند قابل قبول هستند. نمونهای از جملات تولیدشده با الگوریتم SeqGAN روی پیکره همشهری 1 در شکل 9 نمایش داده شده است.
4-4 نتایج
داده ورودی چه از نظر تعداد جملات و چه از نظر طول جملات و همان طور تنوع کلمات در عملکرد سه الگوریتم مورد بررسی بسیار اهمیت دارد. در واقع برای آموزش این شبکهها باید تعداد جملات کافی در دسترس باشد. همچنین طول جملات برای بعضی از الگوریتمها باید مقدار
شکل 8: نمونهای از جملات تولیدشده بر روی پیکره Coco با استفاده از الگوریتم LeakGAN.
مشخصی باشد. اما در حالت ایدهآل که دیتای ورودی استاندارد است مانند پیکره Coco که تعداد جملات کافی بوده و جملات خیلی طولانی و یا خیلی کوتاه نیستند، صرف نظر از تنوع جملات با توجه به این که معیار Self-BLEU برای 3 الگوریتم تقریباً یکسان بود، الگوریتم LeakGAN جملات بهتری را از نظر مفهوم تولید میکند.
در جدول 4 نتایج مقالات SeqGAN، Mali-GAN و LeakGAN [11]، [21] و [22] و مشخصات دیتاست استفادهشده در آنها مطرح گردیده و همچنین نتایج ارزیابی این پژوهش به همراه مشخصات دیتای استفادهشده آمده است. خانههایی از جدول خالی هستند که در مقاله مورد نظر محاسبهای برای آن معیار بیان نشده است.
هرچند که در مقایسه تکتک الگوریتمهای پیادهسازیشده در این پژوهش با پژوهشهای پیشین تفاوتی وجود دارد اما در نتیجه پایانی یعنی انتخاب بهترین الگوریتم برای تولید جملات، نتیجه این پژوهش منطبق بر پژوهشهای پیشین و بهترین الگوریتم LeakGAN است.
5- توسعههای آتی
تا کنون در زمینه تولید جملات فارسی، کارهای بسیار محدودی انجام شده که این تحقیق، نخستین کاری است که با استفاده از شبکههای مولد تخاصمی، تولید متن انجام میدهد. با توجه به این که این مدلها به داده ورودی حساس هستند، جمعآوری دیتای مناسب کارایی این سیستمها را افزایش میدهد؛ به این معنا که هم از نظر کمیت تعداد جملات دیتا به اندازهای باشد که سیستم، آموزش کافی ببیند و هم به لحاظ کیفیت، جملات معنادار و از نظر گرامری درست باشند و همچنین طول جملات از نظر تعداد کلمه اهمیت دارد؛ زیرا این سه ساختار برای تولید جملاتی با طول متوسط و کوتاه مناسبتر هستند.
تعداد کلمات و تعداد جملات دیتا در کارایی سیستم ما تأثیر میگذارد و اگر دیتای ورودی بزرگ باشد کارایی کاهش مییابد. در ساخت دیکشنری در این سیستمها کلمات همریشه، جدا از هم در نظر گرفته میشوند و به هر کلمه یک عدد مجزا نسبت داده میشود؛ برای مثال کلمات متناسب و تناسب دو کلمه جدا از هم در نظر گرفته میشوند. در صورتی که کلمات ریشهیابی شوند، سیستم میتواند تعداد جملات بیشتری را دریافت کند و کارایی آن کاهش نیابد. البته باید مسئله بازیابی شکل درست کلمه در جمله نیز مد نظر قرار گیرد.
ارزیابی مدلهای مولد تولید متن، چالش عظیمی در برابر محققان است و معیار استانداردی به جز قضاوت انسانی وجود ندارد. از کارهایی که میتوان برای بهبود ارزیابی این سیستمها انجام داد، بهکارگیری معیارهای ارزیابی دیگر از جمله ROUGE و METEOR در این سیستمها و مقایسه نتایج با این پژوهش است [33] و [34] که معیار ROUGE برای
شکل 9: نمونهای از جملات تولیدشده بر روی پیکره همشهری 1 با استفاده از الگوریتم SeqGAN.
جدول 4: مقایسه نتایج مقالات seqGAN، Mali-GAN و LeakGAN [11]، [21] و [22] و مشخصات دیتاست استفادهشده در آنها با نتایج این پژوهش.
| اسم و اندازه دیتاست | 2- BLEU | 3- BLEU | 4- BLEU | 5- BLEU |
SeqGAN | سخنرانی اوباما، 11000 پاراگراف [8] | - | 556/0 | 427/0 | - |
پیکره IWSLT، 10000 جمله | 8267/0 | 5563/0 | 3237/0 | 1938/0 | |
پیکره Coco، 20000 جمله | 873/0 | 612/0 | 366/0 | 232/0 | |
پیکره همشهری 1، 8800 جمله | 62/0 | 263/0 | 11/0 | 061/0 | |
LeakGAN | Coco Image Captioning [22] | 956/0 | 880/0 | 778/0 | 686/0 |
پیکره IWSLT، 10000 جمله | 8078/0 | 5624/0 | 3665/0 | 2506/0 | |
پیکره Coco، 20000 جمله | 808/0 | 643/0 | 445/0 | 33/0 | |
MaliGAN | اشعار چینی، 18000 خط شعر | 4892/0 | - | - | - |
پیکره IWSLT، 10000 جمله | 816/0 | 642/0 | 53/0 | 471/0 | |
پیکره Coco، 20000 جمله | 831/0 | 622/0 | 444/0 | 337/0 |
ارزیابی در خلاصهسازی خودکار پیشنهاد گردیده و با مقایسه خلاصههای تولیدشده توسط سیستم و خلاصههای تولیدشده توسط انسان، ارزیابی صورت میگیرد. معیار METEOR در حوزه ترجمه زبان پیشنهاد شده و دقت را اندازه میگیرد و ارتباط زیادی با قضاوت انسانی دارد.
مراجع
[1] A. Celikyilmaz, E. Clark, and J. Gao, Evaluation of Text Generation: A Survey, arXiv preprint arXiv:2006.14799, Jun. 2020.
[2] A. M. Lamb, et al., "Professor forcing: a new algorithm for training recurrent networks," in Proc. 30th Int. Conf. on Neural Information Processing Systems, pp. 4601-4609, Barcelona, Spain, 5-10 Dec. 2016.
[3] O. Press, A. Bar, B. Bogin, J. Berant, and L. Wolf, Language Generation with Recurrent Generative Adversarial Networks without Pre-Training, arXiv preprint arXiv:1706.01399, Jun. 2017.
[4] Y. Zhang, et al., "Adversarial feature matching for text generation," in Proc. Int. Conf. on Machine Learning, pp. 4006-4015, Sydney, Australia, 6-11 Aug. 2017.
[5] S. Bengio, O. Vinyals, N. Jaitly, and N. Shazeer, "Scheduled sampling for sequence prediction with recurrent neural networks," in Proc. 28th Int. Con. on Neural Information Processing Systems, pp. 1171-1179, Montreal, Canada, 7-12 Dec. 2015.
[6] M. A. Ranzato, S. Chopra, M. Auli, and W. Zaremba, "Sequence level training with recurrent neural networks," in Proc. 4th Int. Conf. on Learning Representations, 16 pp., San Juan, Puerto Rico, 2-4 May 2016.
[7] F. Huszár, How (Not) to Train Your Generative Model: Scheduled Sampling, Likelihood, Adversary, arXiv preprint arXiv:1511.05101, 9 pp., Nov. 2015.
[8] S. R. Bowman, et al., "Generating sentences from a continuous space," in Proc. 20th SIGNLL Conference on Computational Natural Language Learning, pp. 10-21, Berlin, Germany, 7-12 Aug. 2015.
[9] Z. Yang, Z. Hu, R. Salakhutdinov, and T. Berg-Kirkpatrick, "Improved variational autoencoders for text modeling using dilated convolutions," in Proc. Int. Conf. on Machine Learning, pp. 3881-3890, Sydney, Australia, 6-11 Aug. 2017.
[10] I. Goodfellow, et al., "Generative adversarial nets," Proc. 27th Int. Con. on Neural Information Processing Systems, pp. 2672-2680, Montreal, Canada, 8-13 Dec. 2014.
[11] L. Yu, W. Zhang, J. Wang, and Y. Yu, "Seqgan: sequence generative adversarial nets with policy gradient," in Proc. 31st AAAI Conf. on Artificial Intelligence, pp. 2852-2858, San Francisco, Ca, USA, 4-9 Feb. 2017.
[12] G. L. Guimaraes, B. Sanchez-Lengeling, C. Outeiral, P. L. C. Farias, and A. Aspuru-Guzik, Objective-Reinforced Generative Adversarial Networks (ORGAN) for Sequence Generation Models, arXiv preprint arXiv:1705.10843, 7 pp., May 2017.
[13] M. J. Kusner and J. M. Hernández-Lobato, GANS for Sequences of Discrete Elements with the Gumbel-Softmax Distribution, arXiv preprint arXiv:1611.04051, 6 pp., Nov. 2016.
[14] E. Jang, S. Gu, and B. Poole, Categorical Reparameterization with Gumbel-Softmax, arXiv preprint arXiv:1611.01144, 13 pp., Nov. 2016.
[15] L. Mescheder, S. Nowozin, and A. Geiger, "The numerics of GANS," in Proc. 30th Int. Conf. on Neural Information Processing Systems, pp. 1825-1835, Barcelona, Spain, 5-10 Dec. 2017.
[16] T. Salimans, et al., "Improved techniques for training GANS," in Proc. 30th Int. Conf. on Neural Information Processing Systems, pp. 2234-2242, Barcelona, Spain, 5-10 Dec. 2016.
[17] A. Dash, J. C. Borges Gamboa, S. Ahmed, M. Liwicki, M. Z. Afzal, TAC-GAN - Text Conditioned Auxiliary Classifier Generative Adversarial Network, arXiv preprint arXiv:1703.06412 ,9 pp.,
Mar. 2017.
[18] I. Gulrajani, F. Ahmed, M. Arjovsky, V. Dumoulin, and A. C. Courville, "Improved training of wasserstein gans," in Proc. 31th Conf. on Neural Information Processing Systems, pp. 5767-5777, Long Beach, CA, USA, 4-9 Dec. 2017.
[19] S. Rajeswar, S. Subramanian, F. Dutil, C. Pal, and A. Courville, "Adversarial generation of natural language," in Proc. of the 2nd Workshop on Representation Learning for NLP, pp. 241-251, Vancouver, Canada, 3-3 Aug. 2017.
[20] K. Lin, D. Li, X. He, Z. Zhang, and M. T. Sun, "Adversarial ranking for language generation," in Proc. 31th Conf. on Neural Information Processing Systems, pp. 3155-3165, Long Beach, CA, USA, 4-9 Dec. 2017.
[21] T. Che, et al., Maximum-Likelihood Augmented Discrete Generative Adversarial Networks, arXiv preprint arXiv:1702.07983, 11 pp., Feb. 2017.
[22] J. Guo, et al., "Long text generation via adversarial training with leaked information," in Proc. 31st AAAI Conf. on Artificial Intelligence, pp. 5141-5148, San Francisco, Ca, USA, 4-9 Feb. 2017.
[23] T. Iqbal and S. Qureshi, "The survey: text generation models in deep learning," J. of King Saud University-Computer and Information Sciences, pt A, vol. 34, no. 6, pp. 2515-2528, Jun. 2020.
[24] ا. حاجیپور و س. سدیدپور، "تولید خودکار متن فارسی با استفاده مدلهای مبتنی بر قاعده و تعبیه واژگان،" فصلنامه پدافند الکترونیکی و سایبری، جلد 9،
شماره 4، صص. 54-43، زمستان 1400.
[25] م. شمس و ا. سلطانی، "استفاده از رویکرد تشویق و جریمه در شبکه مولد مخالف برای تولید خودکار جملات فارسی،" کنفرانس ملی سیستمهای هوشمند و محاسبات سریع، 16 صص. تهران،، 1-1 بهمن 1399.
[26] K. Wang and X. Wan, "Sentigan: generating sentimental texts via mixture adversarial networks," in Proc. 27th In. Joint Conf. on Artificial Intelligence, pp. 4446-4452, Stockholm, Sweden, 13-19 Jul. 2018.
[27] Universuty of Tehran, Database Research Group (DBRG) Laboratory, https://dbrg.ut.ac.ir/hamshahri/
[28] S. Bakhshaei, S. Khadivi, N. Riahi, and H. Sameti, "A study to find influential parameters on a Farsi-English statistical machine translation system," in Proc. 5th In. Symp. on Telecommunications, pp. 985-991, Tehran, Iran, 4-6 Dec. 2010
[29] R. K. Srivastava, K. Greff, and J. Schmidhuber, Highway Networks, arXiv preprint arXiv:1505.00387, 6 pp., May 2015.
[30] A. S. Vezhnevets, et al., "FeUdal networks for hierarchical reinforcement learning," in Proc. in Proc. of the 34th Int. Con. on Machine Learning, pp. 3540-3549, Sydney, Australia, 6-11 Aug. 2017.
[31] K. Papineni, S. Roukos, T. Ward, and W. J. Zhu, "BLEU: a method for automatic evaluation of machine translation," in Proc. of the 40th Annual Meeting of the Association for Computational Linguistics, pp. 311-318, Philadelphia, PA, USA, 7-12, Jul. 2002.
[32] Y. Zhu, et al., "Texygen: a benchmarking platform for text generation models," in Proc. of the 41st Int.ACM SIGIR Conf. on Research & Development in Information Retrieval, pp. 1097-1100, Ann Arbor, MI, USA, 8 -12 Jun. 2018.
[33] C. Y. Lin, "ROUGE: a package for automatic evaluation of summaries," in Proc. of Workshop on Text Summarization of ACL, pp. 74-81, Barcelona, Spain, Jul. 2004.
[34] A. Lavie, K. Sagae, and S. Jayaraman, "The significance of recall in automatic metrics for MT evaluation," in Proc. Conf. of the Association for Machine Translation in the Americas, pp. 134-143, Washington, DC, USA, 28 Sept.-2 Oct. 2004.
نوشین ریاحی تحصيلات خود را در مقطع كارشناسي مهندسی برق-الکترونیک در سال 1367 از دانشگاه صنعتی اصفهان و در مقاطع كارشناسي ارشد و دكتري در رشته مهندسی برق- الکترونیک بهترتيب در سالهاي 1370 و 1379 از دانشگاه صنعتی شریف به پايان رسانده است و هماكنون دانشیار گروه مهندسي كامپيوتر دانشکده فنی مهندسی دانشگاه الزهرا(س) ميباشد. زمينههاي تحقيقاتي مورد علاقه ايشان عبارتند از: پردازش متن، پردازش گفتار و صوت، پردازش و تولید سیگنالهای زیستی، تحلیل احساس و خلاصه سازی متن.
سحر جندقی در سال 1395 مدرك كارشناسي مهندسي مکاترونیک خود را از دانشگاه صتعتي شاهرود و در سال 1399 مدرك كارشناسي ارشد مهندسي کامپیوتر- هوش مصنوعی خود را از دانشگاه الزهرا (س) دريافت نمود. زمينههاي علمي مورد علاقه
نامبرده عبارتند از: پردازش متن، خلاصه سازی متن و رباتیک.