توضیحات
ABSTRACT
This paper presents a fast and simple method for Farsi/Arabic subwords recognition in a large lexicon. Byomitting dots and complementary parts of machine-printed characters, a dataset including 9445 Farsi/Arabic subwords written by a single font and single size was obtained. This dataset not only reduces the number of subwords, but makes it suitable for both Farsi/Arabic languages. After normalizing boundary points of each subword, Fourier descriptor features are extracted. Experimental results on 30 plain text shows accuracy of 82.1% on subword level. Considering this large and comprehensive dataset, the obtained results are still promising which can be enhanced in the future by the use of Farsi/Arabic language grammar for connecting subwords.
INTRODUCTION
Spotting words in printed documents in Latin and Chinese has received remarkable attention and high precision rates have been reported. Compared to other languages, the work done on Farsi/Arabic words is not sufficient. Special characteristics of Farsi/Arabic alphabet make word recognition more challenging. Farsi/Arabic optical character recognition and document analysis dates back to a few decades ago. The first attempts returns to printed Farsi text recognition or script recognition. In order to recognize Farsi/Arabic words, some methods have been applied. Spectral features using 2D Fourier transform have been used. Each image is transformed into polar coordinates . The use of hidden Markov model for Arabic word recognition has used in some works such as . Based on the fact that there are a large number of words in Farsi/Arabic, these languages provide large lexicons which include common words. The problem associated with the large lexicons is the time that the input image has to be compared with the words in the lexicon. So, recognition time becomes a critical issue for large lexicons. In this case, a fast approach for eliminating unlikely candidates can be useful to reduce the time needed to compare entities. For more .information the reader can refers to
چکیده
این مقاله یک روش سریع و ساده برای به رسمیت شناختن لغات فارس / عربی در یک لغت نامه بزرگ ارائه می دهد. نقاط بی حوصلگی و قطعات مکمل نشانه های ماشین چاپ شده، یک مجموعه داده شامل 9445 پاراگراف فارسی / کلمات عربی نوشته شده توسط یک فونت تک و تنها به دست آمده است. این مجموعه داده نه تنها شمار کلمات زیر را کاهش می دهد، بلکه آن را برای هر دو زبان فارسی / عربی مناسب می کند. پس از عادت دادن به مرزهای هر کلمه، ویژگی های توصیفگر فوریه استخراج می شود. نتایج تجربی در 30 متن ساده نشان می دهد که دقت 1/82 درصد در سطح سواد شعر است. با توجه به این مجموعه داده های گسترده و جامع، نتایج به دست آمده هنوز هم امیدوار کننده است که می تواند در آینده با استفاده از دستور زبان فارسی / عربی برای اتصال زیر کلمات تقویت شود.
مقدمه
واژگان کلیدی در اسناد چاپ شده در لاتین و چینی توجه خاصی را به خود جلب کرده و میزان دقت بالا گزارش شده است. در مقایسه با سایر زبان ها، کار بر روی کلمات فارسی / عربی به اندازه کافی کافی نیست. ویژگی های ویژه الفبای فارسی / عربی، تشخیص لغات را بسیار دشوار می کند. شناسایی شخصیت های فارسی / عربی و تحلیل سند به چند دهه قبل باز می گردد. اولین تلاش برای شناسایی متن چاپ شده فارسی یا شناسایی اسکریپت است. برای به رسمیت شناختن واژه های فارسی / عربی، برخی از روش ها استفاده شده است. ویژگی های طیفی با استفاده از تبدیل 2D فوریه استفاده شده است. هر تصویر به مختصات قطبی تبدیل می شود. استفاده از مدل مارکف پنهان برای تشخیص کلمه عربی در برخی از آثار از جمله. بر اساس این واقعیت که تعداد زیادی از کلمات در زبان فارسی / عربی وجود دارد، این زبان ها دارای لغات زیادی هستند که عبارتند از کلمات مشترک. مشکلی که با واژگانهای بزرگ مرتبط است، زمانی است که تصویر ورودی باید با کلمات در واژگانی مقایسه شود. بنابراین، زمان تشخیص یک مسئله مهم برای سخنرانی های بزرگ است. در این مورد، یک روش سریع برای از بین بردن نامزدهای نامطلوب می تواند مفید باشد برای کاهش زمان مورد نیاز برای مقایسه اشخاص. برای اطلاعات بیشتر، خواننده میتواند به آن اشاره کند.
Year: 2012
Publisher : The first international cross-language processing of Persian and language
By : Parnia Bahar, Saeed Mozaffari
File Information: English Language/ 6 Page / size: 576 KB
Only site members can download free of charge after registering and adding to the cart
سال : 1391
ناشر : نخستین کىفراس بین المللی پردازش خط و زبان فارسی
کاری از : پرنیا بهار، سعید مظفری
اطلاعات فایل : زبان انگلیسی / 6 صفحه / حجم : KB 576
نقد و بررسیها
هنوز بررسیای ثبت نشده است.