داده‌کاوی و استقرار دادگان اصطلاحنامه چندزبانه فرهنگی ایران (اصفا) در چارچوب کریسپ

نوع مقاله : مقاله پژوهشی

نویسنده

عضو هیأت علمی، سازمان اسناد و کتابخانه ملی ج.ا. ایران

10.30484/nastinfo.2023.3405.2209

چکیده

هدف: نظام ساده ‌‌‌سازماندهی دانش (اسکاس) یک مدل داده‌ای رایج برای ‌‌به‌اشتراک‌گذاری و پیونددهی نظام‌های ‌‌‌سازماندهی دانش از طریق وب است. اسکاس مسیر مهاجرت استاندارد و کم‌هزینه را برای انتقال نظام‌های سازمان دانش موجود به وب معنایی ارائه می‌دهد. پیوستن اصفا به جریان وب معنایی نیازمند تبدیل و استقرار دادگان اصفا براساس ‌اسکاس در قالب گراف آر.دی.اف. است. به این منظور باید رکوردهای مبتنی بر مارک ایران مهندسی مجدد شوند. هدف این پژوهش مهندسی مجدد دادگان اصفا با داده‌کاوی آنها در چهارچوب کریسپ و استقرار آنها بر روی پلتفرم اسکاسموس است.

روش: این پژوهش از نوع توسعه‌ای – کاربردی است و از روش‌شناسی کریسپ-دی.ام.، از نوع بدون نظارت و خوشه‌بندی سلسله‌مراتبی برای داده‌کاوی استفاده شده است. در مرحله اول درک کسب و کار، هدف اصلی پروژه تبدیل دادگان اصفا به مدل داده‌ای اسکاس در قالب گراف آر.دی. اف. تعیین شد. در مرحله درک داده، داده‌های میراثی اصفا شامل 11006 رکورد و ذخیره شده در قالب مارک ایران و شامل 18 حوزه، آموزش و پرورش، ادبیات، ارتباطات، اقتصاد، تاریخ، تصوف و عرفان، جامعه‌شناسی، جغرافیا، حقوق، روان‌شناسی، زبان‌شناسی، دین، علوم سیاسی، فلسفه، فناوری و علوم تجربی، کتابداری و اطلاع رسانی، مدیریت، فرهنگ و هنر است. در مرحله سوم، آماده‌سازی داده، داده‌های مفقود و پرت شناسایی و ویرایش شدند. برای انتخاب ویژگی‌ها در لایه پیش‌پردازش مهندسی داده، عناصر ضروری برای تبدیل به اسکاس شناسایی و جدول انطباق آنها با فیلدهای مارک ایران تدوین شد. در مرحله مدل‌سازی مقادیر ویژگی هدف با تکنیک خوشه‌بندی سلسله‌مراتبی و با استفاده از ماکروکد در اکسل تولید شد. ارزیابی مدل با تکنیک بررسی بصری و روش نمونه‌گیری تصادفی تایید شد. در مرحله ششم تبدیل داده‌های مارک ایران به اسکاس در قالب گراف آر.دی.اف. با استفاده از ابزار اسکاس‌پلی انجام و داده‌ها به بستر پلتفرم ووک‌بنچ منتقل شد. با استفاده از قالب تورتل، دادگان اصفا در پلتفرم اسکاسموس مستقر شد.

یافته‌ها: یافته اصلی این پروژه استقرار و توسعه دادگان اسکاس اصفا در پلتفرم منبع باز اسکاسموس به نشانی skosmos.nlai.ir است. مجموع رکوردها پس از ایجاد رکوردهای مربوط به حوزه و مجموعه برای خوشه‌بندی به 11880 رکورد افزایش یافت. در مرحله آماده‌‌‌سازی داده یکی از یافته‌های مهم این پروژه تدوین جدول انطباق بین عناصر هسته اسکاس و فیلدهای مارک ایران بود.

یافته‌ها: یافته اصلی این پروژه استقرار و توسعه دادگان اسکاس اصفا در پلتفرم منبع باز اسکاسموس به نشانی skosmos.nlai.ir است. مجموع رکوردها پس از ایجاد رکوردهای مربوط به حوزه و مجموعه برای خوشه‌بندی به 11880 رکورد افزایش یافت. در مرحله آماده‌‌‌سازی داده یکی از یافته‌های مهم این پروژه تدوین جدول انطباق بین عناصر هسته اسکاس و فیلدهای مارک ایران بود.

نتیجه‌گیری: در این پژوهش با بهره‌گیری از علم داده روش نوآورانه‌‌‌ای برای داده‌کاوی دادگان اصطلاحنامه‌‌‌ای به‌کار رفت.‌‌روش‌شناسی‌های به‌کار رفته در ادبیات این پژوهش تنها در دو مرحله آماده‌‌‌سازی و استقرار و توسعه از شش مرحله به‌کار رفته در این پژوهش جاگرفتند.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Data Mining and Deployment of Multilingual Iranian Cultural Thesaurus (ASFA) Dataset in the CRISP Framework

نویسنده [English]

  • S. Akbari Daryan
Assistant Professor of National Library and Archives of Iran
چکیده [English]

Purpose: Simple Knowledge Organization System (SKOS) is a common data model for sharing and linking knowledge organization systems through the web. SKOS provides a standard and low-cost migration path for transferring existing knowledge organization systems to the Semantic Web. To join ASFA into the semantic web, ASFA dataset needs to be converted and deployed as RDF graph based on SKOS. For achieve this, ASFA's records base on IranMARC must be reengineered. The purpose of this research is to reengineer Asfa dataset with their data mining in the CRISP framework and deploy it on the open-source platform Skosmos.

Method: This research is of the developmental-applied type and it is based on CRISP-D.M. methodology, unsupervised type and hierarchical clustering technique were used for data mining. The initial stage of the project involved understanding the business goal, which was to convert the ASFA dataset into the SKOS data model in the form of RDF graph. The data understanding stage revealed that ASFA's heritage data consists 11006 records stored IranMARC format and categorized into 18 fields, including education, literature, communication, economy, history, Sufism and mysticism, sociology, geography, law, psychology, linguistics, and religion, political science, philosophy, technology and experimental science, librarianship and information, management, culture and art. In the data preparation stage, missing and outlier data were identified and corrected. To select the features in the preprocessing layer of data engineering, the essential elements to be converted into SKOS were identified and their mapping table with IranMARC fields was compiled. The modeling stage utilized hierarchical clustering technique macrocode in Excel to generate target feature values. Thee model was evaluated through visual inspection technique and random sampling method. In the sixth step, IranMARC data was converted to SKOS as RDF grap using SkosPlay tool and the data was transferred to the Vocbench platform. ASFA Dataset was deployed on the Skosmos platform using the Turtle format.

Findings: The main finding of this project is the deployment and development of ASFA Dataset based on SKOS/RDF on the open source platform Skosmos at skosmos.nlai.ir. The total number of records increased to 11,880 records creating collection records for clustering. One of the important finding during data preparation stage was the compilation of the mapping table between SKOS core elements and IranMARC fields.

Findings: The main finding of this project is the deployment and development of ASFA Dataset based on SKOS/RDF on the open source platform Skosmos at skosmos.nlai.ir. The total number of records increased to 11,880 records creating collection records for clustering. One of the important finding during data preparation stage was the compilation of the mapping table between SKOS core elements and IranMARC fields.

Conclusion: By integrating stages of methodologies used in the literature review within CRISP framework, we have developed an innovative method for converting the thesauri into a lightweigh ontology based on SKOS/RDF graph format.

کلیدواژه‌ها [English]

  • Data Mining
  • SKOS
  • IranMARC
  • RDF Graph
  • reengineering
  • Skosmos
  • ASFA Thesaurus
CAPTCHA Image

مقالات آماده انتشار، پذیرفته شده
انتشار آنلاین از تاریخ 22 خرداد 1402
  • تاریخ دریافت: 03 اردیبهشت 1402
  • تاریخ بازنگری: 14 خرداد 1402
  • تاریخ پذیرش: 22 خرداد 1402