کاربرد مترادف‌ها در سرعنوان‌های موضوعی فارسی و اصطلاح‌نامۀ اصفا بر مبنای ابزار واژگانی فارس‌نت

نوع مقاله : مقاله پژوهشی

نویسنده

استادیار، علم اطلاعات و دانش‌شناسی، گروه علوم داده، اطلاعات و هوش مصنوعی، سازمان اسناد و کتابخانه ملی جمهوری اسلامی ایران، تهران، ایران

10.30484/nastinfo.2024.3629.2288

چکیده

هدف: ترادف یا هم­­‌معنایی از ویژگی‌های مهم زبان‌های طبیعی است. ازآنجاکه یک مفهوم واحد ممکن است با دو یا چند شکل واژگانی بیان شود و معلوم نیست کدام شکل واژگانی بازگوکنندۀ یک مفهوم واحد در سامانۀ بازیابی مورد جستجو قرار خواهد گرفت، سامانه باید بتواند از همه مترادف‌های یک مفهوم به مدرکی که مفهوم در آن موردبحث قرارگرفته ارجاع دهد. این پژوهش با هدف بررسی وضعیت به‌کارگیری مترادف‌های سرعنوان­های گزیده/ اصطلاحات مرجح را در ساخت سرعنوان­های ناگزیده/ اصطلاحات نامرجح در سرعنوان‌های موضوعی فارسی و اصطلاح‌نامۀ فرهنگی فارسی «اصفا»، در تطبیق با فارسنت، به‌عنوان منبع واژگانی جامع زبان فارسی، انجام شد.
روش: پژوهش از حیث هدف کاربردی و از جنبۀ روش‌شناسی، تحلیل محتوا بود و از فنون متن‌کاوی و پردازش زبان طبیعی برای سنجش میزان کاربرد مترادف‌ها در هر دو واژگان کنترل‌شده با سنجش شباهت دو گروه داده استفاده کرده است. ۳۲۷۰ سرعنوان موضوعی و ۲۰۲۰ اصطلاح اصلی به‌صورت هدفمند از دو منبع سرعنوانهای موضوعی فارسی و اصطلاح‌نامۀ اصفا، به‌عنوان دو مجموعه واژگان کنترل‌شده مورداستفاده در تدوین کتابشناسی ملی ایران، انتخاب شد. سرعنوان­‌های ناگزیده، اصطلاحات نامرجح مربوط به هر سرعنوان/ اصطلاح اصلی و مترادف­‌های هر یک از فارسنت نیز استخراج شد. پایایی با تکرار استخراج بخشی از سرعنوان‌ها/اصطلاحات توسط پژوهشگر دوم با شباهت ۶۱۸/۰ و ۷۰۶/۰ از بازۀ میان صفر تا ۱ به ترتیب برای سرعنوان­‌ها و اصطلاحات به دست آمد. با استفاده از زبان برنامه­‌نویسی پایتون شباهت میان هریک از دو دستۀ داده سرعنوان­‌های ناگزیده و اصطلاحات نامرجح با مترادف­‌های سرعنوان‌­ها/ اصطلاحات اصلی مربوط به آن‌ها در فار­س‌نت با سنجۀ کسینوس شباهت اندازه‌­گیری شد.
یافتهها: در نمونۀ گرفته‌شده از سرعنوان­‌های موضوعی فارسی،2561 سرعنوان اصلی (3/78 درصد) دارای سرعنوان ناگزیده بوده‌اند که به سرعنوان گزیده ارجاع می‌دهد. 2316 سرعنوان اصلی (8/70 درصد) نیز دارای مترادف در فارسنت بوده‌­اند. نمرۀ شباهت میان سرعنوان­‌های ناگزیده و مترادف­‌های سرعنوان اصلی مربوط به هر یک ۱۲۵/۰ به دست آمد که نشان از شباهت پایین آن‌هاست. همچنین در نمونۀ گرفته‌شده از اصطلاح‌نامۀ اصفا، 545 اصطلاح (حدود 27 درصد) دارای اصطلاح ارجاعی نامرجح بوده‌اند. 1376 اصطلاح (68 درصد) از این اصطلاحات نیز دارای مترادف در فار­س‌نت هستند؛ یعنی تعداد 1475 اصطلاح (73 درصد) فاقد اصطلاح نامرجح (که ارجاع به اصطلاح اصلی می‌­دهند) بوده‌اند. نمرۀ شباهت میان اصطلاحات نامرجح در اصطلاح‌نامۀ اصفا و مترادف­‌های اصطلاح اصلی مربوط به هر یک 131/0 به دست آمد که نمرۀ پایینی است. 
نتیجهگیری: در سرعنوان­‌های موضوعی فارسی تقید بیشتری در ساخت و به‌کارگیری ارجاعات موضوعی دیده می‌شود، ولی در هر دو واژگان کنترل‌شده تعداد کمی از سرعنوان‌ها و اصطلاحات ارجاعی (ناگزیده و نامرجح) از میان مترادف‌های مفاهیم در زبان فارسی انتخاب‌شده‌اند. این پژوهش معرفی مترادف‌های عبارت‌ها را برای همه کاربران، ازجمله فهرست‌نویسان و متصدیان ساخت مستندات موضوعی، چه هنگام جستجوی مفاهیم و چه در ساخت اصطلاحات توصیه می‌کند، چراکه می‌تواند به بهبود وضعیت بانک‌های مستند موضوعی و درنهایت تجربه متکامل‌تر کاربر در جستجوی موضوعی و بازیابی منابع کمک کند.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

The Use of Synonyms in Persian Subject Headings and Asfa Thesaurus Based on Farsnet Lexical Tool

نویسنده [English]

  • Farzaneh Shadanpour
Assistant Professor, Knowledge and Information Science, Research Department of Data Science, Information and Artificial Intelligence, National Library and Archives Islamic Republic of Iran, Tehran, Iran
چکیده [English]

Purpose: Synonymy is one of the important features of natural languages. Since a single concept may be expressed by two or more lexical forms, and it is not predictable which lexical form of a single concept will be searched for, the retrieval system must be able to refer from all synonyms of the same idea to the document in which the concept is discussed. This research aimed to investigate the use of synonyms in non-preferred headings/ terms in Persian subject headings and Asfa Thesaurus, using Farsentas a comprehensive lexical source of the Persian language.
Method: This was an applied research in terms of its goals, and used content analysis as a general methodology, specifically Natural Language Processing techniques and tools to measure the extent to which synonyms are used to build non-preferred headings/ terms in both controlled vocabulary, by measuring the similarity of the two groups of data. 3270 main subject headings and 2020 main thesaurus terms were selected, in a purposive sampling procedure, from Persian Subject Headings, and Asfa Thesaurus, as two controlled vocabulary used in the process of compiling the Iran National Bibliography. Non-preferred headings/ terms related to each main heading/ term, as well as synonyms of each, were also extracted from Farsent. Reliability was obtained by repeating the extraction of a part of the headings/ terms by a second researcher with a score of 0.618 and 0.706 between zero and 1 respectively. The similarity between the two data sets of non-preferred headings/terms with the synonyms of main headings/ terms related to them in Farsnet was measured using Cosine Similarity.
Findings: In the sample taken from Persian subject headings, 2561 main subject headings (78.3%) have non-preferred headings that refer to them. 2316 main subject headings (70.8%) also have synonyms in Farsent. The similarity score between non-preferred headings and synonyms of the corresponding main headings was 0.125, thus very low. Also, in the sample taken from Asfa, 545 main terms in Asfa (about 27%) have non-preferred terms. 1376 terms (68%) of these main terms also have synonyms in Farsnet. Thus, 1475 main terms (73%) do not have non-preferred terms (which refer to the main term). The similarity score between non-preferred terms in the Asfa Thesaurus and the synonyms of the corresponding main terms was 0.131, very low as well.
Conclusion: More commitment to the construction and use of subject references in the form of non-preferred headings is observable in Persian Subject Headings, but a small number of referential headings and terms (non-preferred) have been selected from among the synonyms of main subjects/terms in the Persian language. This research recommends the introduction of synonyms of terms for all users, including catalogers and those involved in the creation of controlled vocabularies, both during the search for concepts and in the creation of terms, because it can be a step towards improving subject authority databases and, ultimately, a more exhaustive user subject search and retrieval experience.

کلیدواژه‌ها [English]

  • Semantic Relations
  • Synonym
  • Persian Subject Headings
  • Persian Cultural Thesaurus (Asfa)
  • Farsnet
  • Similarity Measuring
  • Cosine Similarity
برنتی، سید محمدرضا (1399، 28 فروردین). داده‌کاوی - ۵ - شباهت کسینوسی: معیارهای شباهت. بلاگ شخصی سیدمحمدرضا برنتی. https://www.berneti.ir داده-کاوی-۵-شباهت-کسینوسی/#
برنجیان، شاپوررضا و رئیسی، سارا (1393). بازیابی کلمات معادل در سیستم های اطلاعاتی.  دومین همایش ملی پژوهش‌های کاربردی در علوم کامپیوتر و فناوری اطلاعات، تهران. https://civilica.com/doc/455401/
حسابی، اکبر (۱۳۹۵). مقایسه‌ی روابط معنایی درون زبانی اسامی در فارس‌نت، یورونت و وردنت پرینستون. جستارهای زبانی، ۷ (۴): ۱۴۹-۱۷۳.
سلطانی، پوری (۱۳۸۵). سرعنوان‌های موضوعی فارسی. دائره‌المعارف کتابداری و اطلاع‌رسانی (ج ۲). تهران: سازمان اسناد و کتابخانه ملی جمهوری اسلامی ایران.
سلطانی، پوری، فانی، کامران و زهادی، فیروزان. (ویراستاران) (۱۳۹۷). سرعنوان‌های موضوعی فارسی (ویراست ۴). تهران: سازمان اسناد و کتابخانه ملی جمهوری اسلامی ایران. بازیابی ازhttp://portal.nlai.ir/
فارسنت. (بی تا). بازیابی از:
معرفی و تاریخچه اصفا. (بی تا). بازیابی از https://portals.nlai.ir/thesaurus/
 
References
Abdul Hassan, A. K., & Hadi, M. J. (2017). Sense-Based Information Retrieval Using Fuzzy Logic and Swarm Intelligence. International Journal of Multimedia and Ubiquitous Engineering, 12(1): 363-376. http://dx.doi.org/10.14257/ijmue.2017.12.1.31
Asfa: Introduction and history (n.d.). https://portals.nlai.ir/thesaurus/ [In Persian]
Basile, Y. (2015). WordNet as an Ontology for Generation [Paper presentation].WebNLG 2015 1st International Workshop on Natural Language Generation from the Semantic Web, June 2015, Nancy, France. hal-01195793
Berenjian, Sh. R., & Reissi, S. (2014). Retrieving equivalent words in information systems. The Second National Conference on Applied Research in Computer Science and Information Technology, Tehran. https://civilica.com/doc/455401. [In Persian]
Berneti, M. R. (2020, April, 17). Data mining-5- Cosine Similarity: Similarity Criteria. Seyed Mohammad Reza Berneti Personal Blog. https://www.berneti.ir داده-کاوی-۵-شباهت-کسینوسی/#. [In Persian]
Bharathi, G., & Venkatesan, D. (2012). Improving information retrieval using document clusters and semantic synonym extraction. Journal of Theoretical and Applied Information Technology, 36(2): 167- 172.
Fellbaum, C. (Ed.). (1998). WordNet. An Electronic Lexical Database. MIT Press, MA. https://doi.org/10.7551/mitpress/7287.001.0001
Fernandez Lanza, S., Grana, J., & Sobrino, A. (2003). Introducing FDSA (Fuzzy Dictionary of Synonyms and Antonyms): applications on information retrieval and stand-alone use. Mathematics & Soft Computing, 10(2): 57-70. Available at: https://raco.cat/index.php/Mathware/article/view/84890
Hesabi, A. (2016). A Comparison between Intra lingual Semantic Relations of Nouns in Fars Net, Euro Net and Princeton Word Net. Language Related Research, 7(4): 149 -173. [In Persian]
Kelbessa, I.W. (2021). The effects of having lists of synonyms on the performance of Afaan Oromo Text Retrieval system. ArXiv, abs2103.02900
Li, Ch., Zhang, M., Bendersky, M., Deng, H., Metzler, D., & Najork, M. (2019). Multi-view Embedding-based Synonyms for Email Search Multi-view Embedding-based Synonyms for Email Search. In Proceedings of SIGIR ’19, July 21–25, 2019, Paris, France (pp 575- 584). https://doi.org/10.1145/3331184.3331250
Li, S.‌ Li, B., Yao, H., Zhou, S.,‌ Zhu, J., &‌ Zeng, Z. (2022). Completing WordNets with Sememe Knowledge. Electronics, 11(79). DOI: 10.3390/electronics11010079
Li, Y., Hsu, B. J., & Zhai, Ch. X. (2013). Unsupervised identification of synonymous query intent templates for attribute intents. In Proceedings of the 22nd ACM international conference on Conference on information & knowledge management (CIKM'13),  San Francisco Ca, USA, 27 October 2013- 1 November 2013(pp. 2029–2038). Association for Computing Machinery, New York, NY, USA. https://doi.org/10.1145/2505515.2505694. Miller, G. A. (1995). Wordnet: A lexical database for English. Communication ACM, 38(11): 39-41. DOI: 10.1145/219717.219748
Miller, J., Beckwith, R., Fellbaum, C., Gross D., & Miller, K. (1990). Introduction to Wordnet: An on-line Lexical Database. International Journal of Lexicography, 3(4): 235-244. Nancy, France. hal-01195793
Shamsfard, M., Hesabi, A., Fadaei, H., Mansoory, N., Noor, P., Famian, A.R., Bagherbeigi, S., Fekri, E., & Monshizadeh, M. (2009). Semi Automatic Development of FarsNet; The Persian WordNet.  In Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC'10), Valletta, Malta. European Language Resources Association (ELRA). Available at: http://www.lrec-conf.org/proceedings/lrec2010/pdf/784_Paper.pdf
Shi, H. (2019). A principaled approach to the evaluation of topic modeling algorithms. [Doctoral dissertation Northwestern University, Illinois]. Retrieved from ProQuest Dissertations & Theses Global database. (UMI No. 13883392)
Soltani, P. (2006). Persian subject headings. The encyclopedia of library and information science (vol. II). Tehran: Iran National Library and Archives. [In Persian]
Soltani, P., Fani, K., Zohadi, F. (Eds), & Azizian, N., (Assitant editor). (2018). List of Persian Subject Headings (4th Ed.). Tehran: National Library and Archives of Iran. [In Persian]
Soto, A., Olivas, J.A., & Prieto, M.E. (2008). Fuzzy Approach of Synonymy and Polysemy for Information Retrieval. In: R. Bello, R. Falcón, W. Pedrycz, and J. Kacprzyk, (eds) Granular Computing: At the Junction of Rough Sets and Fuzzy Sets (pp. 179-198) Springer, Berlin, Heidelberg. https://link.springer.com/chapter/10.1007/978-3-540-76973-6_12
Zeng, Q. T., Redd, D., Rindflesch, T., & Nebeker, J. (2012). Synonym, topic model and predicate-based query expansion for retrieving clinical documents. AMIA Annual Symposium Proceedings, 2012, 3-7 November 2012, Chicago, Illinois, USA (pp.1050-1059). Available at: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3540443/
CAPTCHA Image