توضیحات
ABSTRACT
In this paper an accurate Persian POS tagger suitable for MT is prepared. First a new set of POS tags is defined which is general and more usable for MT rather than detailed ones; Then an accurate tagged corpus is prepared with modifying Bijankhan corpus. Stanford POS tagger is trained on the modified Bijankhan, the resulting tagger gives a 99.36% accuracy which shows significant improvement over previous Persian taggers. Result of utilization of this tagger for statistical machine translation is investigated. Outputs show better performance compared to simple SMT, while using previous tagger in SMT drops the BLEU compared to simple SMT.
INTRODUCTION
One of the most important and effective factors in machine translation process, is the existence of accurate linguistic tools such as : POS tagger, parser, word net and morphological analyzer for the languages involved in translation process. In the rule based MT systems, existence of these tools is of vital importance and using these tools are unavoidable , as the accuracy of the MT system has been significantly affected by the accuracy of the tools which are used. But statistical machine translation (SMT) often makes no use of linguistic information, relying purely on corpus data and statistical modeling to train and decode. In addition parallel corpus data is an expensive resource and not always available in the quantity required to build models which can perform to acceptable standards. Especially in languages like Persian, thelack of such corpora is a serious problem in their SMT translation. In such languages using linguistic features could be so useful but the linguistic tools should be suitable for the purpose . In this study we prepared an example of such tools i.e. POS tagger. Experiments showed that using basic POS tags rather than detailed ones result in better performance for our purpose. Bijankhan corpus was our only available option for training the tagger. Investigations showed that the corpus can’t be used for our purpose without some modifications. First step wasreducing the number of tags defined for Persian words and second step was correcting some effective mistakes in POS tags assigned to words.
چکیده
در این مقاله یک برچسب دقیق فارسی POS برای MT آماده شده است. اول مجموعه ای جدید از برچسب های POS تعریف شده است که به طور کلی و بیشتر برای MT استفاده می شود به جای جزئیات دقیق است. سپس یک جسم دقیق نشان داده شده با اصلاح Bijankhan corpus تهیه می شود. نشانگر POS استنفورد بر مبنای Bijankhan اصلاح شده است، که نتیجهگرایی آن یک دقت 99.36٪ را نشان می دهد که نشان دهنده بهبود چشمگیر نسبت به قبلی استtaggers فارسی. نتیجه استفاده از این نشانگر برای ترجمه ماشین آماری مورد بررسی قرار گرفته است. خروجی عملکرد بهتر را نسبت به SMT ساده نشان می دهد، در حالی که با استفاده از تگ قبلی در SMT، BLEU نسبت به SMT ساده را کاهش می دهد.
مقدمه
یکی از مهمترین و موثرترین عوامل در فرایند ترجمه ماشین، وجود ابزارهای دقیق زبان شناختی مانند: برچسب POS، تجزیه کننده، شبکه کلمه و تحلیل مورفولوژیکی برای زبان های درگیر در فرآیند ترجمه است. در نظامهای مبتنی بر قانون، وجود این ابزارها از اهمیت حیاتی برخوردار است و استفاده از این ابزارها اجتناب ناپذیر است، زیرا دقت سیستم MT به طور قابل توجهی با دقت ابزارهایی که مورد استفاده قرار می گیرد، تحت تأثیر قرار می گیرد. اما ترجمه آماری ماشین (SMT) اغلب از اطلاعات زبان شناختی استفاده نمی کند و صرفا بر مبنای اطلاعات کورس و مدل سازی آماری برای آموزش و رمزگشایی است. علاوه بر این داده های کروی موازی یک منبع گرانقیمت است و همیشه در مقدار مورد نیاز برای ساخت مدل هایی که می تواند به استانداردهای قابل قبول برسد، در دسترس نیست. به ویژه در زبانهایی مانند فارسی، از جمله چنین افرادی یک مشکل جدی در ترجمه SMT آنهاست. در چنین زبان هایی با استفاده از ویژگی های زبانی می تواند بسیار مفید باشد، اما ابزار زبان شناسی باید برای این هدف مناسب باشد. در این مطالعه یک نمونه از چنین ابزارهایی مانند POS tagger را آماده کردیم. آزمایشات نشان داد که با استفاده از برچسب های POS پایه به جای جزئیات دقیق، عملکرد بهتر برای هدف ما نتیجه می گیرد. Bijankhan corpus تنها گزینه ای بود که ما برای تدریس استفاده کردیم. تحقیقات نشان داد که بدن ما نمی تواند بدون تغییرات مورد استفاده قرار گیرد. اولین گام تعدیل تگ هایی که برای کلمات فارسی تعریف شده بود و مرحله دوم اصلاح بعضی اشتباهات موثر در برچسب های POS برای کلمات بود.
Year: 2012
Publisher : The first international conference on Persian language and language processing
By : Zakieh Shakeri, Noushin Riahi, Shahram Khadivi
File Information: English Language/ 4 Page / size: 361 KB
Only site members can download free of charge after registering and adding to the cart
سال : 1391
ناشر : نخستین کنفرانس بین المللی پردازش خط و زبان فارسی
کاری از : زکیعه شکری، نووشین ریاحی، شهرام خدیوی
اطلاعات فایل : زبان انگلیسی / 4 صفحه / حجم : KB 361
نقد و بررسیها
هنوز بررسیای ثبت نشده است.