طراحی و پیاده‌سازی یک سیستم بازیابی اسناد چاپی فارسی

بهمنی, زهرا

doi:10.30484/nastinfo.2019.2142.1817

طراحی و پیاده‌سازی یک سیستم بازیابی اسناد چاپی فارسی

نوع مقاله : مقاله پژوهشی

نویسنده

زهرا بهمنی

مربی، مهندسی کامپیوتر، دانشگاه صنعتی خاتم‌الانبیاء بهبهان

10.30484/nastinfo.2019.2142.1817

چکیده

هدف: معرفی، دسته‌بندی، و نقد پژوهش‌‌ها دربارۀ سیستم‌های بازشناسی و بازیابی اسناد چاپی فارسی و پیشنهاد یک سیستم بازیابی اسناد چاپی با رویکردی نو.
روش‌شناسی: شیوه‌ای جدید با رویکرد جداسازی، طراحی و سپس پیاده‌سازی شده است. برای آموزش و آزمایش سیستم، پایگاه داده‌ای شامل تصویر 50 صفحه متن فارسی در 5 قلم مختلف فراهم آمد. از نیمی از این داده‌ها برای آموزش و نیمی دیگر برای آزمایش سیستم استفاده شد.
یافته‌ها: سیستم‌های بازشناسی یا بازیابی سند چاپی فارسی از یکی از سه رویکرد مبتنی بر جداسازی، مبتنی بر شکل کلی کلمه، و رویکرد ترکیبی پیروی می‌کنند. این پژوهش یک سیستم مبتنی بر جداسازی پیشنهاد و پیاده‌سازی و نتایج ارائه شده است.
نتیجه‌گیری: نتایج نشان می‌دهد نظام پیشنهادی، روش مناسبی برای پیاده‌سازی نظام‌های بازشناسی یا بازیابی اسناد فارسی است.

کلیدواژه‌ها

موضوعات

فناوری اطلاعات

عنوان مقاله [English]

A System for Printed Persian Documents

نویسنده [English]

Z. Bahmani

Lecturer, Computer Engineering, Behbahan Khatam Alanbia University of Technology, Behbahan

چکیده [English]

Purpose: Introducing recognition systems and retrieval systems for Farsi printed document images and categorizing conducted researches with identifying strengths and weaknesses points of each category and presenting a retrieval system for Farsi printed document images in a new way.
Methodology: This paper is an applied research.An application designed and implied for Farsi printed document images retrieval. A new method in segmentation approach presented and implemented. A database including 50 Farsi documents scanned in 5 fonts provided for training and testing levels. Half of this database is used for training and other half for testing.
Findings: Persian printed document image recognition and retrieval systems follow one of three approaches: based on segmentation, based on sub-word shape and hybrid approach. The first approachhas received less attention dueto specific challenges. In this paper a system based on segmentation proposed and implemented and the results presented.
Conclusion: Results show that proposed system is anuseful method to Implement recognition systems and retrieval systems for Farsi printed document images.

کلیدواژه‌ها [English]

Printed documents recognition of
Printed documents retrieval
Digital library
Sub-words
Sub-letters

مراجع

ابراهیمی، افشین (1384). استفاده از شکل کلی زیر- کلمات چاپی در بازیابی تصویر مستندات و بازشناسی متون فارسی. پایان‌نامه دکتری، دانشگاه تربیت مدرس، تهران.

ابراهیمی، افشین؛ کبیر، احسان‌اله (1384الف، 4-6 بهمن). بازشناسی زیر-کلمات چاپی با درنظرگرفتن نقاط آنها. مقاله ارائه‌شده در یازدهمین کنفرانس بین‌المللی سالانه انجمن کامپیوتر ایران، تهران. بازیابی 26 دی 1398، از https://www.civilica.com/Paper-ACCSI11-ACCSI11_077.html

ابراهیمی، افشین؛ کبیر، احسان‌اله (1384ب، 4-6 بهمن). طراحی یک دیکشنری تصویری برای زیر-کلمات چاپی با درنظرگرفتننقاط آنها. مقاله ارائه‌شده در یازدهمین کنفرانس بین‌المللی سالانه انجمن کامپیوتر ایران. تهران. بازیابی 26 دی 1398، از https://www.civilica.com/Paper-ACCSI11-ACCSI11_137.html

ابراهیمی، افشین؛ کبیر، احسان‌اله (1385). خوشه‌بندی تصاویر زیر- کلمات چاپی فارسی با استفاده از ویژگی‌‌های مکان مشخصه و الگوریتم -K میانگین. دانشکده فنی دانشگاه تبریز، 33 (1)، 1-11.

بهمنی، زهرا (1390). بازیابی براساس محتوای اسناد چاپی فارسی. پایان‌نامه کارشناسی ارشد، دانشگاه الزهرا، تهران.

خسروی، حسین؛ کبیر، احسان‌اله (1386، 6-8 آذر).بازشناسی متن چاپی فارسی برمبنای جداسازی هوشمند. مقاله ارائه‌شده در سومین کنفرانس بین‌المللی فناوری اطلاعات و دانش، مشهد. بازیابی 26 دی 1398، از https://www.civilica.com/Paper-ICIKT03-ICIKT03_037.html

خسروی، حسین؛ کبیر، احسان‌اله (1388). ارزیابی روش‌‌های بازشناسی متون فارسی برمبنای شکل کلی زیرکلمات. نشریه ﻣﻬﻨﺪسی ﺑﺮق و مهندسی ﻛﺎﻣﭙﻴﻮﺗﺮ اﻳﺮان، 7 (4)، 267-280.

داودی، هما؛ کبیر، احسان‌اله (1393). اﺳﺘﻔﺎده از ﻣﻨﺎﻃﻖ ﺷﺎﺧﺺ زﻳﺮ- ﻛﻠﻤﺎت ﭼﺎپی فارسی ﺑﺮای کاهش فضای جستجو در بازشناسی آنها.مهندسی ﺑﺮق و مهندسی ﻛﺎﻣﭙﻴﻮﺗﺮ اﻳﺮان، 12 (1)، 1-11.

رفیعی کراچی، شعبانعلی (1373). شکستن کلمات تایپ‌شده به ‌حروف در رسم‌الخط‌‌های مختلف. پایان‌نامه کارشناسی ارشد، دانشگاه تربیت مدرس، تهران.

سرابی نوبخت، سعید (1392). بازشناسی مستقل از اندازه متون چاپی فارسی با استفاده از توصیفگرهای مستقل از مقیاس و روش‌های انتخاب ویژگی. پایان‌نامه کارشناسی ارشد، دانشگاه خوارزمی، تهران.

شمسی، محبوبه؛ رسولی کناری، عبدالرضا؛ و شادروان، سوده (1388). روشی نو در تشخیص حروف در متون چاپی عربی و فارسی با استفاده از پویش خط زمینه. مهندسی برق مجلسی، 3 (3)، 51-58.

عزمی، رضا (1378). بازشناسی متون چاپی فارسی.پایان‌نامه دکتری، دانشگاه تربیت مدرس، تهران.

عزمی، رضا؛ کبیر، احسان‌اله (1378). معرفی روش جدیدی برای جداسازی حروف در متون چاپی بدون توجه به ‌نوع قلم. استقلال، 18 (2)، 1-10.

عزمی، رضا؛ کبیر، احسان‌اله (1383). طراحی سه دیکشنری تصویری برای بازشناسی زیرکلمات چاپی. امیرکبیر، 15 ( آ-59)، 29-43.

مرتضوی طباطبائی، زهراسادات (1391). بازشناسی متون فارسی مبتنی بر کدگذاری شکل و اطلاعات معنایی زمینه. پایان‌نامه کارشناسی ارشد، دانشگاه الزهرا، تهران.

نامور، بی‌تا (1395). بهبود بازشناسی متون فارسی با استفاده از اطلاعات در سطح زیرکلمه و کلمه. پایان‌نامه کارشناسی ارشد، دانشگاه الزهرا، تهران.

نظام‌آبادی، حسین؛ کبیر، احسان‌اله (1379، 17 اسفند). جداسازینقاط چسبیده به ‌بدنه حروف چاپی. مقاله ارائه‌شده در اولین کنفرانس ماشین بینایی و پردازش تصویر ایران، بیرجند. بازیابی 28 دی 1398، از https://www.civilica.com/Paper-ICMVIP01-ICMVIP01_037.html

نظام‌آبادی‌پور، حسین؛ کبیر، احسان‌اله (1383). ﺍﻟﮕﻮﺭﻳﺘﻢ ﺍﺻﻼﺡ ﺷﺪﻩ جداسازی ﺣﺮﻭﻑ ﺩﺭ ﻣﺘﻮﻥ ﭼﺎﭘﻲ ﺑﺎ ﺑﺮﭼﺴﺐ‌ﺯﺩﻥ ﺑﻪ ﻛﺎﻧﺘﻮﺭ بالایی ﻛﻠﻤﺎﺕ. استقلال، 23 (1)، 48-33.

نامور، بی‌تا؛ عزمی، رضا (1396، 30-31 فروردین). بهبود بازشناسی متن فارسی با استفاده از اطلاعات در سطح کلمات. مقاله ارائه‌شده در سومین کنفرانس بین‌المللی بازشناسی الگو و تحلیل تصویر ایران. شهر کرد. بازیابی 29 دی 1398، از https://www.civilica.com/Paper-IPRIA03-IPRIA03_058.html

کارگروه خط و زبان فارسی در محیط رایانه‌ای (1387). پژوهشنامه نویسه‌خوان نوری (OCR) فارسی. تهران: شورای عالی اطلاع‌رسانی.

Azmi, R., & Kabir, E. (2001). A new segmentation technique for omnifont Farsi text. Pattern Recognition Letters, 22 (2), 97-104.

Bahmani, Z., & Azmi, R. (2011a). Farsi/Arabic Document Image Retrieval Through Sub Letter Shape Coding. In International Conference on Networks and Information ICNI Chengdu. New York: ASME.

Bahmani, Z., & azmi, R. (2011b). Farsi/Arabic document image retrieval through sub -letter shape coding for mixed Farsi/Arabic and English text. International Journal of Computer Science Issues, 8 (5), 166-172.

Nasrollahi, S., & Ebrahimi, A. (2013). Printed Persian subword recognition using wavelet packet descriptors. Hindawi Publishing Corporation Journal of Engineering, 2013, 1-12. Retrieved Januery 19, 2020, from

https://pdfs.semanticscholar.org/19dc/c02e406669291fbc9406fb862d5732e71a90.pdf

Pourasad, Y., Hassibi, H., & Ghorbani, A. (2012). A Farsi/Arabic word spotting approach for printed document images. Internatıonal Journal of Natural and Engineering Sciences, 6 (1), 15-18.

Pourasad, Y., Hassibi, H., & Ghorbani, A. (2013). A word spotting method for Farsi machine-printed document images. Turkish Journal of Electrical Engineering & Computer Sciences, 21 (3), 734-746.

Boukharouba, A. (2017). A new algorithm for skew correction and baseline detection based on the randomized Hough Transform. Journal of King Saud University - Computer and Information Sciences, 29 (1),29-38.

Reynaldo Phangtriastu, M., Harefa, J., & Felita Tanoto, D. (2017). Comparison between neural network and support vector machine in optical character recognition. Procedia Computer Science, 116, 351-357.