مرور نظام‌مند مطالعات حوزه خلاصه‌سازی انتزاعی مبتنی بر پرس‌و‌جو

نوع مقاله : مقاله مروری

نویسندگان

1 دانشجوی دکتری، علم اطلاعات و دانش‌شناسی، دانشگاه اصفهان، اصفهان، ایران

2 استاد، علم اطلاعات و دانش‌شناسی، دانشگاه اصفهان، اصفهان، ایران

3 دانشیار، علم اطلاعات و دانش‌شناسی، دانشگاه اصفهان، اصفهان، ایران

4 استادیار، هوش مصنوعی، دانشگاه اصفهان، اصفهان، ایران

10.30484/nastinfo.2025.3644.2295

چکیده

هدف: امروزه افراد به این حقیقت واقف‌اند که دانش قدرت است؛ لذا از بازیابی اطلاعات به سمت بازیابی دانش و کشف دانش سوق پیدا کرده‌اند. از طرفی، مطالعه حجم عظیم اسناد متنی وب، دسترس‌پذیری و کاربردپذیری دانش را برای آن‌ها دشوار نموده است. یکی از راهکارها جهت مواجهه با این مسئله، خلاصه‌سازی انتزاعی مبتنی بر پرس‌وجو است. خلاصه‌سازی انتزاعی مبتنی بر پرس‌وجو یک رویکرد سریع و کارآمد برای پیمایش متون است و یک حوزه پژوهشی بسیار پویا محسوب می‌شود. در این پژوهش با استفاده از مرور نظام‌مند، مطالعات پیرامون این حوزه شناسایی و تجزیه‌وتحلیل شده‌اند.
روش: در پژوهش کاربردی حاضر با استفاده از دستورالعمل پریزما، یک مرور نظام‌‌مند انجام شده است. این دستورالعمل در قالب چهار گام شناسایی، غربالگری، شایستگی و شمول با استفاده از یک راهبرد جستجوی مناسب و بدون محدودیت زمانی در پایگاه‌های اسکوپوس، وب‌آوساینس، آی‌تریپل‌ای، پایگاه علمی کتابخانه دیجیتال ای‌سی‌ام، گوگل اسکالر، پروکوئست، نورمگز، مگیران، سید، سیویلیکا، علم نت و گنج اعمال شده است. درنهایت از 1714 مدرک شناسایی‌شده 31 مورد واجد شرایط بوده و مشمول مرور نظام‌مند شده‌اند.
یافته‌ها: ماحصل مرور انجام‌شده نشان می‌دهد که مطالعات این حوزه قدمت چندانی ندارند و با سیر توأم صعودی و نزولی منتشر شده‌‌اند. اکثر این مطالعات از نوع مقاله منتشرشده در مجلات هستند. پژوهشگران برای سیستم‌های خلاصه‌سازی پیشنهادی بیشتر از رویکرد یک‌مرحله‌ای استفاده نموده‌اند و یادگیری‌های با نظارت و خودنظارتی بیشتر موردتوجه آن‌ها بوده است. همچنین، از روش‌های مبتنی بر قانون، آمار و یادگیری ماشین بهره گرفته‌اند. مدل‌های به‌کار گرفته‌شده مبتنی بر گراف، شبکه‌های عصبی و از پیش آموزش‌دیده است. نوع ورودی سیستم‌ها بیشتر تک‌سندی بوده و Debatepedia به‌عنوان محبوب‌ترین مجموعه داده شناسایی شده است. از میان هفده معیار ارزیابی ROUGE بیشترین کاربرد را داشته است.
نتیجه‌گیری: بررسی‌ها نشان داد که چگونه هم‌افزایی‌های اتفاق افتاده در یادگیری، مدل‌ها، روش‌های مورداستفاده و معیارهای ارزیابی کاهش چالش‌هایی از قبیل عدم تناسب خلاصه‌ تولیدشده با پرس‌و‌جو، عدم تناسب خلاصه تولیدشده با متن منبع، فقدان داده‌های برچسب‌گذاری شده برای آموزش مدل‌ها، افزونگی، مجموعه داده‌های محدود، فقدان مجموعه داده مخصوص این نوع خلاصه‌سازی، عدم وجود معیارهای ارزیابی بهبودیافته برای ارزیابی دقیق خلاصه‌های تولیدشده، ابهام معنایی ناشی از عدم تمایز بین جملات با معنای متفاوت و عدم رابطه هم‌ترازی بین توالی‌های ورودی و خروجی را به دنبال داشته است و درنهایت به بهبود عملکرد کلی سیستم‌های خلاصه‌سازی و توسعه آن‌ها کمک نموده است. اما، توانایی درک معنا در سیستم‌ها هنوز فاصله میان خلاصه‌های سیستمی و خلاصه‌های انسانی را پر نکرده است؛ زیرا معنای درک شده هنوز سطحی بوده و تا حدی وابستگی به ساختارهای نحوی در مدل‌ها دیده می‌شود. درواقع، توانایی درک معنا می‌تواند ضامن ایجاد سیستم‌هایی باشد که معنا و بینش‌های عمیق نهفته در متن را تشخیص داده و براساس وظیفه مشخص‌شده آن‌ها را در خروجی خود اعمال می‌کنند. بر این قرار، ارائه نوآوری‌هایی جهت رفع این ناکارآمدی به‌عنوان جهت‌های پژوهشی آینده پیشنهاد می‌شود. در این مسیر باید مدل‌سازی‌های معنایی و درک معنا در این سیستم‌های خلاصه‌سازی نهادینه شود که به اصلاح و پیشرفت مسیر تکامل روش‌شناسی‌های موجود کمک می‌نماید. همچنین، بهتر است با تغییر و تکامل منابع اطلاعاتی و تحولات درخواست‌های کاربران و زمینه‌های دانشی آن‌ها نیز همگام شد. افزون بر این، خلأ این سیستم‌ها در زبان‌های غیرانگلیسی احساس می‌شود. این امر با ایجاد و تقویت ابزارهای پردازش زبان طبیعی برای زبان‌های غیر انگلیسی قابلیت عملیاتی‌سازی دارد.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Systematic Review of Query-based Abstractive Summarization Studies

نویسندگان [English]

  • Neda Abbasi Dashtaki 1
  • Mehrdad CheshmehSohrabi 2
  • Mitra Pashootanizade 3
  • Hamidreza Baradaran Kashani 4
1 PhD. candidate, Knowledge and Information Science, University of Isfahan, Isfahan, Iran
2 Professor, Knowledge and Information Science, University of Isfahan, Isfahan, Iran
3 Associate Professor, Knowledge and Information Science, University of Isfahan, Isfahan, Iran
4 Assistant Professor, Artificial Intelligence, University of Isfahan, Isfahan, Iran
چکیده [English]

Purpose: Today, people are aware of the fact that knowledge is power. Therefore, there has been a shift from information retrieval to knowledge retrieval and knowledge discovery. On the other hand, the study of the vast volume of textual documents on the web has made access to and usability of knowledge challenging for them. One of the solutions to tackle this issue is query-based abstract summarization. Query-based abstract summarization is a fast and efficient approach for navigating texts and is considered a highly dynamic research area. In this study, a systematic review of the studies in this field has been conducted to identify and analyse the relevant research.
Method: In the present applied research, a systematic review was conducted using the PRISMA guidelines. This guideline is implemented in four steps: identification, screening, eligibility, and inclusion, utilizing an appropriate search strategy without time restrictions in the Scopus, Web of Science, IEEE Xplore, the ACM Digital Library, Google Scholar, ProQuest, Noor Mags, Mag Iran, SID, Civilica, Elm net, and Ganj databases. Ultimately, out of the 1,714 identified documents, 31 were found to be eligible and included in the systematic review.
Findings: The findings of the conducted review indicate that studies in this field are relatively recent and have been published with both upward and downward trends. Most of these studies are in the form of articles published in journals. Researchers have predominantly utilized a one-stage approach for the proposed summarization systems, with a greater focus on supervised and self-supervised learning. Additionally, they have employed methods based on rules, statistics, and machine learning. The models used are based on graphs, neural networks, and pre-trained architectures. The input type for the systems is mostly single-document, with Debatepedia identified as the most popular dataset. Among the seventeen of evaluation metrics, ROUGE has been the most widely used.
Conclusion: The reviews indicate how the synergies that have occurred in learning, models, methods used, and evaluation metrics have helped to mitigate challenges such as the mismatch between the generated summary and the query, the incongruity between the generated summary and the source text, the lack of labelled data for training models, redundancy, limited datasets, the absence of datasets specifically for this type of summarization, the lack of improved evaluation metrics for accurately assessing generated summaries, semantic ambiguity due to the lack of distinction between sentences with different meanings, and the absence of alignment between input and output sequences. Ultimately, these improvements have contributed to enhancing the overall performance of summarization systems and their development. However, the ability to understand semantic in these systems has not yet bridged the gap between system-generated summaries and human summaries. This is because the understood semantic remains superficial and shows a degree of reliance on the syntactical structures in the models. In fact, the ability to understand semantic can guarantee the creation of systems that recognize the deeper semantics and insights embedded in the text and apply them in their output based on the specified task. Accordingly, the presentation of innovations to address these inefficiencies is proposed as directions for future research. In this regard, semantic modelling and semantic understanding should be institutionalized within these summarization systems, contributing to the refinement and advancement of existing methodologies. Furthermore, it is essential to keep pace with the changing and evolving information sources as well as the developments in user requests and their knowledge domains. Additionally, there is a noticeable gap for these systems in non-English languages. This can be addressed by developing and strengthening natural language processing tools for non-English languages, enabling their practical implementation.

کلیدواژه‌ها [English]

  • Automatic Summarization
  • Query-based Summarization
  • Abstractive Approach
  • Systematic Review
  • PRISMA
CAPTCHA Image

مقالات آماده انتشار، پذیرفته شده
انتشار آنلاین از تاریخ 30 دی 1403
  • تاریخ دریافت: 09 شهریور 1403
  • تاریخ بازنگری: 19 آبان 1403
  • تاریخ پذیرش: 30 دی 1403