توضیحات
ABSTRACT
This paper focuses on language separation and font recognition in multilingual and multi-font texts. The purpose of this task is to improve performance of general OCR systems, dealing with omni-fonts and different languages. The proposed method is based on an innovative fractal dimension measurement. The extracted features with this method are independent of document contents and considers language and font recognition problem as texture identification task. Experimental results on three different languages namely, Farsi, Arabic and English with their most popular fonts show that the proposed method not only separates these languages but recognizes their font types accurately.
INTRODUCTION
Nowadays, OCR systems are utilized by many individuals to convert scanned text images into machine readable form. Every OCR system is made of several modules such as image acquisition, preprocess, layout analysis, character recognition and document regeneration . To increase the accuracy of these systems, some new modules are added every day. Language identification and font recognition are two pre-processing stages recently emerged in many OCR systems. Multilingual OCR systems must deal with variety of languages and lack of such ability decreases their recognition rates. Moreover, the operation of those OCR systems handling multi-font document images is more difficult than those deals with single-font document. There are different language identification and font recognition systems based on SVM, Wavelettransform, Gabor filter, Sobel-Robert gradient, and Fractal dimension for Latin documents. However ,due to the complexities of Farsi and Arabic languages, number of papers in these fields are limited. The utilized technique for font identification problem in , is based on combination of directional gradients, Sobel and Roberts for identifying ten popular Farsi fonts. In, Sami Ben Moussa used two fractal dimension methods called BCD and DCD for the purpose of ten Arabic font recognition. In , a multi-channel Gabor filtering technique is proposed for English font recognition. In, a font recognition method based on empirical mode decomposition (EMD) is proposed. Five basic strokes was used to haracterize the stroke attributes of six Chinese fonts. Ding et al employed a 3-level wavelet transform for font identification of seven Chinese fonts .
چکیده
این مقاله بر روی جداسازی زبان و تشخیص فونت در متون چند زبانه و چند فونت تمرکز دارد. هدف از این کار بهبود عملکرد سیستم های OCR عمومی، برخورد با فونت های omni و زبان های مختلف است. روش پیشنهادی بر اساس یک اندازه ابعاد فراکتال نوآورانه است. ویژگی های استخراج شده با این روش مستقل از محتویات سند هستند و مشکل تشخیص زبان و فونت را به عنوان وظیفه شناسایی بافت در نظر می گیرند. نتایج تجربی در سه زبان مختلف یعنی فارس، عربی و انگلیسی با فونت های محبوب خود نشان می دهد که روش پیشنهادی نه تنها این زبان ها را جدایی می دهد بلکه دقیقا فونت ها را نیز به رسمیت می شناسد.
مقدمه
امروزه سیستم های OCR توسط بسیاری از افراد برای تبدیل تصاویر متن اسکن شده به شکل قابل خواندن ماشین استفاده می شوند. هر سیستم OCR از چندین ماژول مانند گرفتن تصویر، پیش پردازش، تجزیه و تحلیل طرح، تشخیص شخصیت و بازسازی سند ساخته شده است. برای افزایش دقت این سیستم ها، برخی از ماژول های جدید اضافه می شوند هر روز. شناسایی زبان و تشخیص فونت دو مرحله پیش پردازش است که به تازگی در بسیاری از سیستم های OCR ظاهر شده است. سیستم های OCR چند زبانه باید با زبان های مختلف مقابله کنند و فقدان چنین توانایی ها میزان شناخت آنها را کاهش می دهد. علاوه بر این، بهره برداری از این سیستم های OCR با استفاده از تصاویر سند چند منظوره سخت تر از آنهایی است که با سند تک فونت مشغول به کار هستند. شناسایی زبان های مختلف و سیستم های تشخیص فونت بر اساس SVM، Wavelettransform، فیلتر گابور، گرادیان سوبل-رابرت و ابعاد فراکتال برای اسناد لاتین وجود دارد. با این حال، با توجه به پیچیدگی زبان های فارسی و عربی، تعداد مقالات در این زمینه ها محدود است. تکنیک مورد استفاده برای شناسایی فونت در فونت، بر اساس ترکیبی از شیوه های جهت، سوبل و رابرتز برای شناسایی ده فونت محبوب فارسی است. در سامی بن موسی دو روش فراکتال به نام BCD و DCD به منظور شناسایی ده قلم عربی استفاده شده است. در داخل، یک روش فیلتر چند کانال گابور برای شناخت فونت انگلیسی پیشنهاد شده است. در یک روش تشخیص فونت بر اساس تجزیه حالت تجربی (EMD) پیشنهاد شده است. پنج سیکل پایه برای مشخص کردن ویژگی های سکته قلبی شش فونت چینی استفاده شد. دینگ و همکاران، یک تغییر شکل موج 3 را برای شناسایی فونت از هفت فونت چینی استفاده کردند.
Year: 2012
Publisher : The first international conference on Persian language and language processing
By : Akram Alsadat Hajian Nezhad, Saeed Mozaffari
File Information: English Language/ 5 Page / size: 664 KB
Only site members can download free of charge after registering and adding to the cart
سال : 1391
ناشر : نخستین کنفرانس بین المللی پردازش خط و زبان فارسی
کاری از : اکرم السادات حاجیان نژاد، سعید مظفری
اطلاعات فایل : زبان انگلیسی / 5 صفحه / حجم : KB 664
نقد و بررسیها
هیچ دیدگاهی برای این محصول نوشته نشده است.