چکیدهنویسی یکی از ابزارهای عمدة تجزیه و تحلیل و سازماندهی مدارک است که به دو صورت دستی یا ماشینی انجام میشود. با پیشرفتهایی که در زمینة نرمفزاری و سختافزاری بهوقوع پیوسته و در حال تکامل است توجه و گرایش به تهیه و تولید چکیدههای خودکار گسترش پیدا کرده است. این مقاله، ضمن تقسیمبندی رویکردهای چکیدهنویسی خودکار به چکیدهنویسی تکسندی شامل رویکردهای سنتی، آماری (مبتنی بر مجموعه)، رویکردهای مبتنی بر ساختار گفتمان، و رویکردهای مبتنی بر دانش و نیز چکیدهنویسی چندمدرکی به بررسی پیشرفتهای صورتگرفته در این زمینه میپردازد. عوامل و موارد قابل ملاحظه در نظام چکیدهسازی خودکار در سه بخش جنبههای دروندادی شامل ساختار متن، حوزه، سطح تخصصی، محدودیت زبان، مقیاس، رسانه، نوع، واحد و زبان؛ جنبههای هدف شامل موقعیت، مخاطب، و کاربرد؛ جنبههای بروندادی شامل محتوا، قالب، سبک، فرایند تولید، جایگزینی، و طول نیز مورد بررسی قرار گرفته است.
An analysis of the advances in automatic text summarization
نویسندگان [English]
Gh. Azadi Ahmadabadi
چکیده [English]
Summarization as one of the main devices for analysis and organization of documents is done manually or automatically. With the advancement of technology, production of automatic text summarization has been developed. In the present article the approaches of automatic text summarization are divided into single document summarization and multi-document summarization. Single document summarization includes traditional approaches, statistical processing (based on the collection), approaches based on the structure of forum and knowledge-based approaches. Multidocument summarization evaluates the advances in this field. Effective factors on the system of automatic text summarization have been evaluated in three parts: (1) input aspects (including text structure, field, level of proficiency, language limit, scale, medium, type, unit and language); (2) objective aspects (including position, audience, application); and (3) output aspects (including content, format, method, the process of production, replacement and length).
کلیدواژهها [English]
Information organization, automatic summarization, automatic abstracting, single document summarization, multi-document summarization