تکنیک‌های خلاصه‌سازی چندسندی خودکار متون فارسی مبتنی بر الگوریتم‌های فرااکتشافی

نوع مقاله : مقاله پژوهشی

نویسندگان

1 دانشکده فنی و مهندسی، دانشگاه گلستان، گرگان، ایران

2 گروه کامپیوتر- دانشکده فنی و مهندسی-دانشگاه گلستان

چکیده

هدف:ارائه الگوی خلاصه‌سازی استاندارد متون فارسی با رویکرد تبدیل مسئله خلاصه‌سازی به مسئله بهینه‌سازی توسط الگوریتم‌های فرااکتشافی سازگار.
روش‌شناسی: در این پژوهش از اسناد استاندارد پیکره چندسندی «پاسخ» که شامل 50 موضوع مختلف از انواع گونه‌های خبری از خبرگزاری‌های پرببینده ایران، برای ارزیابی استفاده شده است. هر موضوع حاوی 20 سند و همچنین 5 خلاصه چکیده‌ای و 5 خلاصه استخراجی است. ابتدا عملیات پیش‌پردازش روی متون ورودی انجام و خلاصه‌های اولیه تولید شدند. این کار به‌کمک معیار TF-ISF، معیارهای خوانایی و انسجام جملات، ویژگی شباهت با عنوان، ویژگی موقعیت جمله در متن، و ویژگی طول جمله انجام شد. با توجه به هر یک از این معیارها، وزنی به هر یک از جملات خلاصه اختصاص داده و ماتریس شباهت ایجاد شد. سپس، خروجی سیستم استخراج توسط دو الگوریتم فرااکتشافی ژنتیک و جستجوی فاخته برای رسیدن به خلاصه‌ نهایی پردازش شد. درنهایت، خروجی به‌دست‌آمده از مرحله قبل به‌کمک ابزار ارزیابی Rouge و مقایسه با خلاصه‌های انسانی تحلیل شدند.
یافته‌ها: میانگین همه مقادیر به‌دست‌آمده از ابزار ارزیابی Rouge در محاسبه میزان هم‌پوشانی نمونه‌های مشترک خلاصه‌های انسانی و خلاصه ماشینی توسط الگوریتم جستجوی فاخته بیشتر از مقادیر به‌دست‌آمده توسط الگوریتم ژنتیک و همچنین سامانه خلاصه‌ساز برخط ایجاز بودند. از میان هشت معیار موجود در این ابزار، دو معیار ارزیابی طولانی‌ترین زیررشته مشترک با مقدار 0.33 و تعداد لغات مشابه در متن با مقدار 0.40 نتایج بهتری نسبت به بقیه معیارها داشتند.
نتیجه‌گیری: نتایج حاصل از مقایسه دو الگوریتم به‌کاررفته، حاکی از عملکرد بهتر الگوریتم جستجوی فاخته در هر یک از معیارهای ابزار Rouge است. از طرفی مقایسه زمانی نتایج نشان می‌دهد که میانگین زمانی محاسبه‌شده برای خلاصه‌سازی توسط سیستم پیشنهادی با الگوریتم جستجوی فاخته کمتر است.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Automatic Persian Multi-Text Summarization Techniques based on Meta-Heuristic Algorithms

نویسندگان [English]

  • fatemeh Ahangari 1
  • soheila karbasi 2
  • mehdi Yaghoubi 1
1 Department of Computer Science, Golestan University, 49138-15759
2 Department of Computer Science, Golestan University, 49138-15759, S.karbasi@gu.ac.ir
چکیده [English]

Purpose: The main objective of this study is to present a pattern for standard summarization of Persian texts with the approach of converting the problem to optimization problem by compatible meta-heuristic algorithms.
Methodology: In this research, standard multi-text "Pasokh" collection, which contains 50 different types of news from the most popular news agencies in Iran, each containing 20 documents, as well as 5 summaries of abstractive and 5 extractive, used for evaluation. First, the preprocessing performed on the input texts and the initial summary generated with TF-ISF benchmark, readability and consistency criteria of the sentences, similarity to the title, position of the sentence in the text, and the length of the sentence. With respect to each of these criteria, weighting function assigned to extracted sentences and a similarity matrix created. Then, output of the extraction system processed by Genetic algorithm and Cuckoo search algorithm for the final summary. Eventually, the output obtained from the previous step analyzed using the Rouge evaluation tools and the comparison with the human abstracts.
Findings: The average of all values obtained in Rouge evaluation tools for calculation the overlapping of common samples of human summaries and machine summaries by Cuckoo search algorithm were higher than the values obtained by Genetic algorithm as well as Ijaz online summarizer system.
Meanwhile, among the eight criteria, the longest common sub-sentence with a value of 0.33 and the number of common words in the text with 0.40 were better than the rest.
Conclusion: The results of the comparison of two algorithms indicate that the Cuckoo search algorithm is better in the entire criteria. On the other hand, comparing the results suggests that the average time calculated for summarizing by the proposed system is also less.

کلیدواژه‌ها [English]

  • Automatic text summarization
  • Extractive summarization
  • Meta-Heuristic algorithms
  • Genetic algorithm
  • Cuckoo search algorithm
  • Rouge evaluation tools
اخوان، تارا؛ شمس‌فرد، مهرنوش؛ و عرفانی جورابچی، مونا (1387، اسفند). خلاصه‌ساز تک‌سندی و چندسندی متون فارسی:PARSUMIST. مقاله ارائه‌شده در چهاردهمین کنفرانس سالانه انجمن کامپیوتر ایران، تهران.
پورمعصومی، آصف؛ کاهانی، محسن؛ طوسی، سیداحمد؛ استیری، احمد، و قائمی، هادی (1393). ایجاز: یک سامانه عملیاتی برای خلاصه‌سازی تک سندی متون خبری فارسی. پردازش علایم و داده‌ها، 11 (1)، 33-48.
رحیمی‌راد، مژگان (۱۳۹۳، اسفند). بهبود انتخاب ویژگی با الگوریتم‌های تکاملی بهینه‌سازی ازدحام ذرات و ژنتیک برای طبقه‌بندی متن. مقاله ارائه‌شده در نخستین سمپوزیوم ملی رباتیک و هوش مصنوعی، اهواز.
شاکری، حسین؛ تقویان، فاطمه؛ و بهبودی، فاطمه (1390، دی). یک روش جدید خلاصه سازی متن فارسی مبتنی بر ویژگی‌های جملات. مقاله ارائه‌شده در دومین همایش فناوری اطلاعات، حال، آینده، مشهد.
طالب علی، لیلا؛ ریاحی، نوشین (1394، آبان). مروری بر روش‌های خلاصه‌سازی خودکار متون. مقاله ارائه‌شده در کنفرانس بین‌المللی پژوهش‌های کاربردی در فناوری اطلاعات، کامپیوتر و مخابرات، تربت حیدریه.
عرب احمدی، فاطمه زهرا (1397). بررسی تاثیر تکنیک‌های خلاصه‌سازی بر روی دسته‌بندی متون فارسی. پایان‌نامه کارشناسی ارشد، دانشگاه گلستان، گرگان.
کریمی، زهره؛ شمس‌فرد، مهرنوش (1385، اسفند). سیستم خلاصه‌سازی خودکار متون فارسی. مقاله ارائه‌شده در دوازدهمین کنفرانس سالانه انجمن کامپیوتر، تهران.
مریخ بیات، فرشاد (1393). الگوریتم‌های بهینه‌سازی فراابتکاری. تهران: جهاد دانشگاهی.
مشکی، محسن (1388). خلاصه‌سازی گزینشی چندسندی متون فارسی. پایان‌نامه کارشناسی ارشد، دانشگاه علم و صنعت ایران، تهران.
Baeza-Yates, R., & Ribeiro-Neto, B. (2011). Modern Information Retrieval: the concepts and technology behind search. New York; Toronto: Addison Wesley.
Behmadi Moghaddas, B., Kahani, M., Toosi, S. A., Pourmasoumi, A., & Estiri, A. (2013). Pasokh: a standard corpus for the evaluation of Persian text summarizers. In 3rd International eConference on Computer and Knowledge Engineering, October 31 - November 1, (pp. 471-475), IEEE.
Fattah, M. A., & Ren, F. (2009). GA, MR, FFNN, PNN and GMM based models for automatic text summarization. Computer Speech & Language, 23 (1), 126-144.
Foong, O.-M., & Oxley, A. (2011). A hybrid PSO model in extractive text summarizer. In IEEE Symposium on Computers & Informatics, March 20-23, (pp. 130-134). Piscataway, NJ: IEEE.
Goel, S., Sharma, A., & Bedi, P. (2011). Cuckoo search clustering algorithm: a novel strategy of biomimicry. In World Congress on Information and Communication Technologies, December 11-14, (pp. 916-921). Piscataway: IEEE.
Gupta, V. (2010). A survey of text summarization extractive techniques. Journal of Emerging Technologies in web Intelligence, 2 (3). 259-268.
Hassel, M., & Mazdak, N. (2004). FarsiSum, a Persian Text Summarizer. Proceedings of the 20th International Conference on Computational Linguistics, August August 23-27, (pp. 82-84). East Stroudsburg, PA: Association for Computational Linguistics.
Hernandez, R., & Ledeneva, Y. (2009). Word Sequence Models for Single Text Summarization. In Proceedings of the Second International Conferences on Advances in Computer-Human Interactions, February 1-7, (pp. 44-48), IEEE.
Honarpisheh, M. A., Ghassem-Sani, G. R., & Mirroshandel, G. (2008). A multi-document multilingual automatic summarization system. In Proceedings of the Third International Joint Conference on Natural Language Processing, (pp. 733-738). Retrieved June 17, 2019, from https://www.aclweb.org/anthology/I08-2101
Hovy, E. (2005). Text Summarization. In R. Mitkov (Ed.), the Oxford Handbook of Computational Linguistics (pp. 583-598). Oxford: Oxford University Press.
ISO 215:1986. (1986). Documentation -- Presentation of contributions to periodicals and other serials. Retrieved June 27, 2019, from https://www.iso.org/standard/4086.html  
Kalami, S. (2015). Implementation of Binary Genetic Algorithm in MATLAB. Retrieved June 27, 2019, from https://www.mathworks.com/matlabcentral/mlc-downloads/downloads/submissions/52856/ versions/2/previews/YPEA101%20Genetic%20Algorithms/01%20Binary%20Genetic%20Algorithm/Crossover.m/index.html
Ledeneva, Y., Gelbukh, A., & Hernández, R. (2008). Terms derived from frequent sequences for extractive text summarization. In A. Gelbukh (Ed.), Computational Linguistics and Intelligent Text Processing. Proceedings of the 9th international conference on Computational linguistics and intelligent text processing, February 17-23, (pp. 593-604). Berlin, Heidelberg: Springer-Verlag.
Martens, D., De Backer, M., & Haesen, R. (2007). Classification with ant colony optimization. IEEE Transactions on Evolutionary Computation, 11 (5), 651-665.
Mirshojaei, H., & Masoomi, B. (2015). Text summarization using cuckoo search optimization algorithm. Journal of Computer & Robotics, 8 (2), 19-24.
Mitra, M., Singhal, A., & Buckley, C., (1997). Automatic text summarization by paragraph extraction. Retrieved June 17, 2019, from https://www.aclweb.org/anthology/W97-0707  
Qazvinian, V., Hassanabadi, L. S., & Halavati, R. (2008). Summarising text with a genetic algorithm-based sentence extraction. International Journal of Knowledge Management Studies, 2 (4), 426-444.
Rai, P., & Varshney, A. (2015). Comparative analysis of meta-heuristic algorithms based on their application areas. International Journal of Innovative Research in Computer and Communication Engineering, 3 (6), 5982-5988.
Rautray, R., & Balabantaray, R. C. (2017a). An evolutionary framework for multi document summarization using Cuckoo search approach: MDSCSA. Applied Computing and Informatics, 14 (2), 134-144.
Rautray, R., & Balabantaray, R. C. (2017b). Bio-inspired approaches for extractive document summarization: a comparative study. Karbala International Journal of Modern Science, 3 (3), 119-130.
Silla, J., Nascimento, C., Pappa, G. L., Freitas, A. A., Kaestner, C. A. A. (2004). Automatic text summarization with genetic algorithm-based attribute selection. In C. Lemaître C., C. A. Reyes, & J. A. González (Eds.), Advances in Artificial Intelligence – IBERAMIA 2004 (vol. 3315, pp. 305-314). Berlin, Heidelberg:  Springer.
Song, W., Choi, L. C., Park, S. C., & Ding, X. F. (2011). Fuzzy evolutionary optimization modeling and its applications to unsupervised categorization and extractive summarization. Expert Systems with Applications, 38 (8), 9112-9121. 
Suanmali, L., Salim, N., & Binwahlan, M. S. (2009). Fuzzy Logic Based Method for Improving Text Summarization. International Journal of Computer Science and Information Security, 2 (1). Retrieved June 12, 2019, from https://pdfs.semanticscholar.org/2478/77f2f680fe8f81672c90dcfb9b7d2c94c388.pdf
Yang, X. S., & Deb, S. (2009). Cuckoo search via Lévy flights. In World Congress on Nature & Biologically Inspired Computing, December 9-11, (pp. 210-214). Retrieved June 17, 2019, from https://www.cs.tufts.edu/comp/150GA/homeworks/hw3/_reading7%20Cuckoo%20search.pdf
Yang, X. S., & Deb, S. (2014). Cuckoo search: Recent advances and applications. Neural Computing and Applications, 24 (1) 169-174.
Yu, X., & Gen, M. (2010). Introduction to evolutionary algorithms. London: Springer.
Zhang, P., & Li, C., (2009). Automatic text summarization  based on sentences clustering and extraction. In the 2nd IEEE International Conference on Computer  Science and  Information  Technology, August 8-11, (pp. 167-170). IEEE
CAPTCHA Image