تحلیل همپوشانی عناصر واسط در بازنمایی اسناد متنی: مطالعه‌ای به روش الگوریتم «RAKE»

نوع مقاله : مقاله پژوهشی

نویسندگان

1 دانشجوی دکتری، علم اطلاعات و دانش شناسی دانشگاه قم، قم، ایران.

2 استاد، علم اطلاعات و دانش‌شناسی،دانشگاه قم، قم، ایران.

3 استادیار، مهندسی فناوری اطلاعات، پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)، تهران، ایران

10.30484/nastinfo.2024.3594.2276

چکیده

هدف: پژوهش حاضر با هدف بررسی میزان همپوشانی کلیدواژه­‌های استخراج‌شده از عناصر واسط در بازنمایی اسناد متنی با استفاده از الگوریتم «Rake» انجام شد.
روش: در این پژوهش، با استفاده از الگوریتم «Rake» کلیدواژه‌های مجموعه داده‌ای شامل 500 مقاله علمی در پنج گروه موضوعی مختلف استخراج شد. سپس همپوشانی بین کلیدواژه‌های عنوان، چکیده و کلیدواژه‌های نویسندگان موردبررسی قرار گرفت.
یافته‌ها: نتایج نشان داد که همپوشانی بین کلیدواژه‌های عنوان و کلیدواژه‌های نویسندگان حدود 45 درصد و همپوشانی بین کلیدواژه‌های چکیده و کلیدواژه‌های نویسندگان حدود 18 درصد بود. در ادامه مشاهده شد که کلیدواژه‌های عنوان دارای پوشش 22 درصدی کلیدواژه‌های چکیده بودند. نتایج همچنین نشان داد که همپوشانی و پراکندگی بین کلیدواژه‌های چکیده و کلیدواژه‌های نویسندگان و نیز بین کلیدواژه‌های چکیده و کلیدواژه‌های عنوان به‌طور متوازن و تقریباً یکسان بود؛ اما مشاهده شد که کلیدواژه‌های عنوان و کلیدواژه‌های نویسندگان دارای پراکندگی بیشتری بودند؛ که نشان­‌دهنده احتمال همپوشانی بیشتر بین کلیدواژه­‌های عنوان و کلیدواژه­‌های نویسنده یک مقاله در مقایسه با کلیدواژه­‌های چکیده و کلیدواژه­‌های نویسنده و همچنین کلیدواژه­‌های چکیده و کلیدواژه­‌های عنوان است. بعلاوه درک خوبی از مفاهیم و مباحث حوزۀ پژوهشی در رشته‌های روانشناسی و مدیریت دولتی وجود داشت، درحالی‌که در رشته‌های فناوری اطلاعات و حقوق عمومی نیاز به بهبود و تقویت درک مفاهیم مشاهده شد. میزان همپوشانی بین کلیدواژه‌های چکیده و کلیدواژه‌های نویسندگان در پنج گروه موضوعی حدود 20 درصد بود.
نتیجه‌گیری: استفاده مناسب از کلیدواژه‌ها، نوشتن چکیده‌هایی با محتوای هماهنگ با موضوع موردنظر و انتخاب عناوین متناسب می‌تواند به بهبود فرایند استخراج مفاهیم، ذخیره‌سازی و بازیابی مقالات علمی کمک کند، ازجمله اینکه کلیدواژه‌ها، چکیده‌ها و عناوین می‌توانند به‌عنوان ورودی برای الگوریتم‌های استخراج مفاهیم، همچنین به‌عنوان بخش‌هایی از ساختار ذخیره‌سازی اطلاعات در سرعت دسترسی کاربران به اطلاعات موردنیازشان و به‌عنوان ورودی برای الگوریتم‌های بازیابی اطلاعات برای دسترسی سریع به مقالات مرتبط کمک بسزایی داشته باشند.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Overlap Analysis of Interface Elements in the Representation of Textual Documents: A Study Using the "Rapid Automatic Key phrase Extraction Algorithm"

نویسندگان [English]

  • elham Yalveh 1
  • Yaghoub Norouzi 2
  • Askan Khatir 3
1 Ph.D candidate, Knowledge and Information Science, University of Qom, Qom, Iran
2 professor,, Department of Knowledge and Information Science, University of Qom, Qom, Iran
3 Assistant Professor , Information Technology Engineering; Iranian Research Institute for Information Science and Technology (IranDoc); Iran
چکیده [English]

Purpose: The present study investigated the degree of overlap of keywords extracted from interface elements in the representation of text documents using the "Rapid Automatic Keyphrase Extraction Algorithm."
Method: In this research, the "Rapid Automatic Keyphrase Extraction Algorithm" was used.
Keywords were extracted from a dataset including 500 scientific articles in five different subject groups. Then, the overlap between the keywords of the title, abstract, and keywords of the authors was examined.
Findings: The results showed that the overlap between title keywords and authors' keywords was about 45%, and the overlap between abstract keywords and authors' keywords was about 18%. Further, it was observed that the keywords of the title covered 22% of the keywords of the abstract. The results also showed that the overlap and dispersion between the keywords of the abstract and the keywords of the authors and between the keywords of the abstract and the keywords of the title were balanced and almost the same. However, it was observed that the keywords of the title and the keywords of the authors were more scattered, which indicates the possibility of more overlap between the keywords of the title and the keywords of the author of an article compared to the keywords of the abstract and the keywords of the author, as well as the keywords of the abstract and the keywords of the title. Is. In addition, there was a good understanding of the concepts and topics of the research field in the fields of psychology and public administration, while the need to improve and strengthen the knowledge of concepts was observed in the fields of information technology and public law. The amount of overlap between abstract keywords and authors' keywords in five subject groups was about 20%.
Conclusion: Appropriate use of keywords, writing abstracts with content in harmony with the topic and choosing suitable titles can help to improve the process of extracting concepts, storing and retrieving scientific articles, including that keywords, abstracts and titles can be used as input for algorithms for extracting concepts, as well As parts of the information storage structure, they can contribute significantly to the speed of users' access to the information they need and as input for information retrieval algorithms for quick access to related articles.

کلیدواژه‌ها [English]

  • Text Documents
  • Keyword Extraction
  • Keyword Overlap
  • Document Representation
  • Data Dispersion
انصـاری، مریم (1379). بررسـی انطباق میان توصیفگر­های نمایه­‌سـازی و کلید­واژه­‌های عنوان پایا‌ن­‌نامه­‌های دکتـرای تخصصی کودکان، زنان، قلب و عروق و روان‌پزشکی. پایان­‌نامه کارشناسی ارشد کتابداری و اطلاع‌­رسانی پزشکی، دانشگاه علوم پزشکی و خدمات بهداشتی-درمانی ایران، تهران.
انصـاری، مصطفی، روضـه، محبوبه، مشـایخ کندسکلایی، کبـری و گوهـری وثوق، صـالحه (1400). بررسـی میزان انطباق کلیدواژه‌های پایان‌نامه‌های پرستاری و مامایی دانشگاه‌های علوم پزشکی شهر تهران با سرعنوان‌های موضوعی پزشکی اصطلاح‌نامه MeSH. نشریه پژوهش پرستاری، 16 (3):1-8.
بنی اقبال، ناهید، خسروی، فریبرز و پیرهادی، صـدیقه (1390). مقایسه واژه­‌های عنوان و چکیده پایان­‌نامـه­‌ها با توصیفگر­های تعیین­‌شده در نمایه سازمان اسناد و کتابخانه ملی ایران. مطالعات ملی کتابداری و سازمان‌دهی اطلاعات، 86 (2): 134-147.
خطـیر، اشکان و گنجـه­‌فـر، سهیل (1397). تحـلیل توزیـع و تمرکز کلیـد­واژه­‌های پایان­‌نامـه­‌ها و رسـاله­‌ها و میـزان تطـابق با توصیفگـرها، عنوان و چکیده. پژوهشنامه پردازش و مدیریت اطلاعات، 34 (1): 411-428.
دانش، فرشید و رحیمی، فروغ (1402). داده‌کاوی متنی انتشارات کووید-۱۹ به‌منظور کشف و استخراج روندهای نوظهور. مجله میکروب‌شناسی پزشکی ایران، ۱۷ (۲): ۱5۰-۱60.
داور پنـاه، محمدرضـا (1375). بررسـی میــزان سـازگاری عنــاوین مقالات فارسـی با محتوای آن‌هـا. پژوهشــنامه پــردازش و مدیریت اطلاعات،12 (2): 1-12.
درزی خلـردی، صغری و رضوی، علی‌اصغر (1397). همخوانی کلیدواژه‌­های مقاله­‌های مجلات دانشـگاه علوم کشـاورزی و منابـع طبیعـی ساری با اصطلاح‌نامه کب. فصـلنامه دانش شناسـی (علوم کتابداری و اطلاع‌رسـانی و فناوری اطلاعات)، 41 (11): 48-57.
قاضـی میر سعید، جواد و مسعودی، فاطمه (1398). بررسـی حضور توصیفگر­های MeSH در مقالات مجلات ایرانی دندانپزشکی به زبان لاتین و نمایه شده در.PubMed مجله دانشکده دامپزشکی مشهد، 43 (2):148-154.
کریمی منش، مصـطفی (1392). کشـف کلیدواژه­‌هـای یک مسـتند بر مبنای آنالـیز معنایی. پایان­‌نامـه کارشناسـی ارشـد مهندسـی کامپیوتر نرم‌افزار، دانشگاه پیام نور استان تهران، تهران.
محـرابی، الهـه، محبی، آزاده و احمدی، عبـاس (1400). بهبود الگوریتم Rake برای اسـتخراج کلید­واژه از متون علمی فارسی. مطالعه موردی: پایان‌­نامه­‌ها و رساله­‌های فارسی. پژوهشنامه پردازش و مدیریت اطلاعات، 37 (1): 197-228.
یلوه، الهام، نوروزی، یعقوب و خطـیر، اشکان (1400). مروری نظام‌مـند بر پژوهش‌های بهبـود الگـوریتم کا-میانه برای خوشـه‌بندی داده‌هـا. پژوهشنامه پردازش و مدیریت اطلاعات، ۳۷ (۲): ۵27-۵56.
یلوه، الهام، نوروزی، یعقوب و خطیر، اشکان (1402). بهینه‌سازی سازمان‌دهی اسناد متنی فارسی با استفاده از تکنیک خوشه‌بندی. پژوهشنامه پردازش و مدیریت اطلاعات، 38 (3):937-968.
References
Ansari, M. (2018). Investigation of the Compatibility between Indexing Descriptors and Keywords of Specialized Doctoral Theses Titles in Pediatrics, Women, Cardiology, and Psychiatry. Master’s Thesis in Medical Library and Information Science, Faculty of Medical Management and Information Science, Iran University of Medical Sciences and Health Services, Tehran. [In Persian]
Ansari, M., Rouzeh, M., Mashaekh Kandeskalaei, K., & Gohari Vosoogh, S. (2021). Investigation of the Compatibility of Keywords in Nursing and Midwifery Theses of Medical Sciences Universities in Tehran City with MeSH Medical Subject Headings. Nursing Research Journal, 16 (3):1-8. [In Persian]
Bani Eghbal, N., Khosravi, F., & Pir Hadi, S. (2011). Comparison of Thesis Title and Abstract Words with Descriptors Determined in the Index of the National Library and Archives of Iran. National Library and Information Organization Studies, 86 (2): 134-147. [In Persian]
Baruni, J., & Sathiaseelan, J. (2020). Keyphrase Extraction from Document Using RAKE and TextRank Algorithms. Int. J. Comput. Sci. Mob. Comput, 9: 83-93.
Davar Panah, M. (1996). Investigation of the Compatibility of Persian Article Titles with Their Content. Information Processing & Management Journal, 12 (2):1-12. [In Persian]
Derzi Khallordi, S., & Rezavi, A. A. (2018). The Concordance of Keywords in Articles of Sari University of Agricultural Sciences and Natural Resources with CAB Thesaurus. Knowledge Studies Quarterly (Library and Information Science and Information Technology), 41(11): 48-57. [In Persian]
Danesh, F., & Rahimi, F. (2023). Text Mining of COVID-19 Publications for Discovery and Extraction of Emerging Trends. Iranian Journal of Medical Microbiology, 17 (2):150-160. [In Persian]
 Ghazi Mir Saeed, J., & Masoudi, F. (2019). Investigation of the Presence of MeSH Descriptors in Latin Language Articles of Iranian Dental Journals Indexed in PubMed. Journal of Mashhad Faculty of Veterinary Medicine, 43 (2): 54-148. [In Persian]
Gil‐Leiva, I., & Alonso‐Arroyo, A. (2007). Keywords given by authors of scientific articles in database descriptors. Journal of the American society for information science and technology, 58(8): 1175-1187.
Hulth, A. (2003). Improved Automatic Keyword Extraction Given More Linguistic Knowledge. Conference on Empirical Methods in Natural Language Processing.216-223.DOI: https://doi.org/10.3115/1119355.1119383
Karimi Manesh, M. (2013). Discovery of Keywords in a Documentary Based on Semantic Analysis.
Master's thesis in Computer-Software Engineering, Payam Noor University, Tehran Province. [In Persian]
Kharazi, H. (2015). Persian Stop Word List. https://github.com/kharazi/persian-stopwords (Retrieved: May 31, 2021).
Khatir, A., & Ganjehfar, S. (2018). Analysis of Distribution and Concentration of Keywords in theses and dissertations and their alignment with descriptors, title, and abstract. Information Processing & Management Journal, 34 (1): 411-428. [In Persian]
Kim, D., Lee, M. H., & Choi, M. (2016). Comparison and analysis of keywords in the Korean ophthalmic optics society articles to MeSH terms. Journal of Korean Ophthalmic Optics Society, 21(2): 83-90.
Kipp, M. E. (2011). Tagging of biomedical articles on CiteULike: A comparison of user, author and professional indexing. Knowledge Organization, 38(3): 245-261.
Liu, F., Huang, X., Huang, W., & Duan, S. X. (2020). Performance evaluation of keyword extraction methods and visualization for student online comments. Symmetry, 12(11): 19-23.
Mehrabi, E., Mohebbi, A., & Ahmadi, A. )2021(. Improving the Rake Algorithm for Extracting Keywords from Persian Scientific Texts. Case Study: Persian Theses and Dissertations. Information Processing & Management Journal, 37 (1): 197-228. [In Persian]
Névéol, A., Doğan, R. I., & Lu, Z. (2010). Author keywords in biomedical journal articles. AMIA ... Annual Symposium proceedings. AMIA Symposium, 2010, 537–541.
Parsaei-Mohammadi, P., Ghasemi, A. H., & Hassanzadeh-Beheshtabad, R. (2017). A comparative study of the origin, structure, and indexing language of the Persian and English keywords of articles indexed in the IranMedex database and their compliance with the Persian medical thesaurus and Medical Subject Headings. Journal of education and health promotion, 6(1):2. DOI:https://doi.org/10.4103/jehp.jehp_137_14
Rose, S., Engel, D., Cramer, N., & Cowley, W. (2010). Automatic keyword extraction from individual. documents. Text mining: applications and theory, 1: 1-2. DOI: https://doi.org/10.1002/9780470689646.ch1
Song, G., Ye, Y., Du, X., Huang, X., & Bie, S. (2014). Short text classification: a survey. Journal of multimedia, 9(5): 635-643.
Subramanian, L., & Karthik, R. (2017). Keyword Extraction: A Comparative Study Using Graph Based Model And Rake. Publication on International Journal of Advanced Research, Article.5(3):1133-1137.
Yalveh, E., Norouzi, Y., & Khatir, A. (2021). A Systematic Review of K-means Algorithm
 Improvement Research for Data Clustering. Information Processing & Management Journal, 37 (2): 527-556. [In Persian]
Yalveh, E., Norouzi, Y., & Khatir, A. (2023). Optimizing the Oranization of Persian Text Documents Using Clustering Technique. Information Processing & Management Journal, 38 (3): 937-968. [In Persian]
Zhang, C. (2008). Automatic keyword extraction from documents using conditional random fields. Journal of Computational Information Systems, 4(3): 1169-1180.
 
CAPTCHA Image