بررسی نقش هستی شناسی و نمودار دانش در طبقه بندی اسناد متنی: مروری بر مطالعات

نوع مقاله : مقاله مروری

نویسندگان

1 دانشجوی دکتری، علم اطلاعات و دانش شناسی، دانشگاه اصفهان، اصفهان، ایران

2 دانشیار، گروه علم اطلاعات و دانش شناسی، دانشگاه اصفهان، اصفهان، ایران

3 استادیار، گروه مهندسی کامپیوتر، دانشگاه اصفهان، اصفهان، ایران

10.30484/nastinfo.2024.3548.2264

چکیده

‌‌‌هدف: باتوجه‌به افزایش نرخ استفاده از اینترنت و افزایش حجم اسناد الکترونیکی قابل‌مشاهده در وب طبقه‌بندی خودکار متن تبدیل به یکی از روش‌های کلیدی برای ارتقای بازیابی اطلاعات و مدیریت دانش مجموعه‌های متنی دیجیتالی شده است. افراد با طبقه‌بندی متون می‌توانند اطلاعات موردنیاز خود را بادقت بیشتر و سرعت بالاتر جستجو و بازیابی کنند. آن چیزی که در بحث طبقه‌بندی خودکار اسناد حائز اهمیت است، برچسب‌گذاری اسناد به کلاس‌های از پیش تعریف شده است به‌گونه‌ای که اسنادی که در یک‌طبقه جای می‌گیرند بیشترین شباهت و با اسناد سایر طبقه‌ها بیشترین تفاوت را داشته باشند و قابلیت استفاده از روابط معنایی را داشته باشد. در ایــن راســتا، پژوهــش حاضــر به بررسی نقش هستی‌شناسی و نمودار دانش در طبقه‌بندی خودکار اسناد متنی می‌پردازد.

روش: این مطالعه به‌مرور پژوهش‌ها و اسناد مرتبط با کاربرد ابزارهای معنایی مانند هستی‌شناسی‌ها و نمودار دانش در طبقه‌بندی اسناد متنی پرداخته است. به‌منظور جمع‌آوری متون، سه پایگاه اطلاعاتی داخلی شامل «بانک اطلاعات نشریات کشور»، «پایگاه مرکز اطلاعات علمی جهاد دانشگاهی»، و «مرجع دانش»، و سه پایگاه استنادی خارجی یعنی «وب آو ساینس»، «اسکوپوس»، و «گوگل اسکالر» بدون درنظرگرفتن بازۀ زمانی در هر دودسته بررسی شده است.

یافته‌ها: نتایج واکاوی متون نشان داد در مدل فضای برداری ارتباط معنایی بین کلمات در نظر گرفته نمی‌شود و ترتیب کلمات در جملات را از بین می‌رود. با نادیده‌گرفتن روابط معنایی و نحوی مختلف بین کلمات در زبان طبیعی، بازنمایی متفاوتی از اسناد فراهم می‌شود. اما هستی‌شناسی‌ها و نمودار دانش با دریافت معنای موجودیت‌ها و کلاس‌ها به تقویت مدل‌های یادگیری ماشینی کمک می‌نمایند. استفاده از این ابزار‌ها به‌عنوان یک‌ مرجع ‌خارجی‌ در ‌حین فرایند ‌طبقه‌بندی عمل می‌کند و ‌دانش‌ ‌زمینه را برای مدل‌های طبقه‌بندی ‌فراهم می‌نماید. به‌طورکلی استفاده از این ابزارها به ماشین‌ها اجازه می‌دهند معنای داده‌هایی را که با آن‌ها کار می‌کنند، درک کنند.

نتیجه‌گیری: کاربست هستی‌شناسی‌ها و نمودار دانش در طبقه‌بندی اسناد متنی می‌تواند موجب تقویت نتایج الگوریتم‌های یادگیری ماشین از طریق بهره‌برداری از دانش ‌زمینه ‌شود. این ابزارها می‌تواند معانی کلمات را از جملات دارای ابهام آزاد نمود و مشکلات مرتبط با زبان طبیعی را حل کند. استفاده از هستی‌شناسی و نمودار دانش می‌تواند به طور مؤثری در طبقه‌بندی اسناد متنی کمک کند و باعث ارتقای دقت و کارایی مدل‌های طبقه‌بندی شود. اما ساخت و ادغام هستی‌شناسی و نمودار دانش امری خسته‌کننده، زمان‌بر و پیچیده است که امکان‌پذیری و ارزش عملی آن‌ها را محدود می‌کند. در زبان فارسی علاوه بر مشکل مطرح شده در به‌کارگیری هستی‌شناسی‌ها و نمودار دانش در طبقه‌بندی اسناد محدودیت‌ها مانند ویژگی‌های خاص زبان فارسی در نگارش و محدودیت فنی وجود دارد؛ لذا استفاده از هستی‌شناسی و نمودارهای دانش عمومی‌ و یا دامنه در بحث طبقه‌بندی اسناد متنی نیازمند توجه به محدودیت‌های زبانی، پیچیدگی فنی است و علاوه بر این مستلزم توسعه و تلاش‌های بیشتری بالاخص در زبان فارسی است.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

The Role of Ontology and Knowledge Graph in Text Document Classification: A Review of Studies

نویسندگان [English]

  • Saiede khalilian 1
  • Mitra Pashootanizade 2
  • ali mansouri 2
  • hamidreza baradaran kashani 3
1 Phd Candidate, Knowledge and Information Science, University of Isfahan, Isfahan, Iran
2 Associate Professor, Knowledge and Information Science, University of Isfahan, Isfahan, Iran
3 Assistant Professor, Computer Engineering, University of Isfahan, Isfahan, Iran
چکیده [English]

Purpose: With the increasing use of the internet and the growing volume of electronically accessible documents on the web, automatic text classification has become a key method for enhancing information retrieval and managing digital text collections. Text classification allows individuals to search for and retrieve information with greater accuracy and speed. The significance of automatic document classification lies in labeling documents into predefined classes in such a way that documents within a class exhibit the highest similarity and the greatest dissimilarity with documents from other classes while being able to utilize semantic relationships. This study investigates the application of ontology and knowledge graphs in automatic text document classification.

Methods: This study reviewed research and documents related to the application of semantic tools such as ontologies and knowledge graphs in text document classification. To collect texts, three domestic databases including the "National Journal Database," the "Scientific Information Database of Jihad University," and "Marefate Danesh," along with three internal databases such as "Magiran", "SID" and "Civilica" and three external citation databases such as "Web of Science", "Scopus" and "Google Scholar" It has been examined in both categories, regardless of the period.

Findings: Results of text exploration show that the vector space model does not consider the semantic relationships between words and disregards the word order in sentences. Neglecting the various semantic and syntactic relationships between words in natural language provides a different representation of documents. However, ontologies and knowledge graphs help strengthen machine learning models by capturing the meaning of entities and classes. The use of these tools acts as an external reference during the classification process and provides domain knowledge for classification models. In general, using these tools allows machines to comprehend the meaning of the data they work with.

Conclusion: The application of ontologies and knowledge graphs in the classification of textual documents can strengthen the results of machine learning algorithms through the use of background knowledge. These tools can free the meanings of words from ambiguous sentences and solve problems related to natural language. The use of ontology and knowledge graphs can effectively help in the classification of textual documents and improve the accuracy and efficiency of classification models. However, the construction and integration of ontologies and knowledge graphs is a tedious, time-consuming, and complex task that limits the feasibility and practical application of these tools. limits In the Persian language, in addition to the problems raised in the application of ontologies and knowledge graphs in the classification of documents, there are limitations such as the specific features of the language in writing and technical limitations. Therefore, the use of ontology and knowledge graphs in the discussion of the classification of textual documents requires attention to linguistic limitations and technical complexity, and the need for further development and efforts is felt, especially in Persian

کلیدواژه‌ها [English]

  • Automatic Classification
  • Text Documents
  • Knowledge Graph
  • Ontology
  • Domain knowledge
CAPTCHA Image

مقالات آماده انتشار، پذیرفته شده
انتشار آنلاین از تاریخ 01 اردیبهشت 1403
  • تاریخ دریافت: 21 دی 1402
  • تاریخ بازنگری: 21 اسفند 1402
  • تاریخ پذیرش: 01 اردیبهشت 1403