• 0سبد خرید فروشگاه
تعلیم
  • صفحه اصلی
  • محصولات
    • همه تعلیم ها
      • اقتصاد-Economy
        • علوم بورس-Science stock
        • علوم بانکداری-Banking science
        • علوم تجارت-Business Sciences
      • علوم برق-Electrical Sciences
        • مقالات برق-Electrical Articles
        • علوم الکترونیک-Electronic science
      • علوم زیست شناسی-Biological Sciences
        • زمین شناسی-Geology
          • مقالات جغرافیا-Geography Papers
      • علوم اجتماعی-social Sciences
      • علوم ایمنی و بهداشت-Health and safety
        • مقالات ایمنی و بهداشت – Health and safety
      • علوم پزشکی-Medical Sciences
        • علوم روانشناسی-Psychological Science
          • روانشناسی موفقیت-Psychology of success
        • مقالات پزشکی-medical articles
        • مقالات آنتی بیوتیک-Articles antibiotics
        • مقالات دندانپزشکی-Dental articles
      • علوم ریاضیات و فیزیک-Science, mathematics and physics
        • مقالات ریاضی – Mathematical articles
        • مقالات فیزیک-Physics articles
      • علوم زبان انگلیسی-Science in English
      • علوم سیاسی-political science
      • علوم شیمی-Chemical Sciences
        • مقالات شیمی-Chemistry Articles
        • مقالات پتروشیمی-Petrochemical articles
      • علوم صنایع غذایی-Food Industry Science
        • علوم تغذیه-nutrition science
      • علوم صنایع-Industrial science
        • مهندسی مواد-Materials Engineering
          • مقالات متالورژی- Metallurgy Articles
      • علوم عمران-Civil Sciences
        • مقالات عمران-Civil Articles
      • علوم کامپیوتر-computer science
        • مقالات فناوری اطلاعات-Articles of Information Technology
        • مقالات کامپیوتر-Computer Articles
          • دیتابیس-database
          • داده کاوی-Data Mining
          • داده های عظیم-Big data
          • رایانش ابری-cloud computing
          • هادوپ-Hadoop
          • سیستم فازی-Fuzzy System
      • علوم کشاورزی-Agricultural Sciences
        • مقالات کشاورزی-Agricultural Articles
        • مقالات شیلات-Fisheries Articles
        • مقالات محیط زیست-Environmental articles
      • علوم مالی و اداری-Financial and Administrative Science
        • مقالات حسابداری-Accountant Articles
      • علوم مدیریت-Management Sciences
        • مدیریت کسب و کار-business management
        • مقالات مدیریت-Management Articles
        • مقالات کارآفرینی-Entrepreneurship articles
      • علوم تربیت بدنی-Physical Education Sciences
      • علوم ورزشی-Sports Sciences
      • علوم معماری-Architectural Science
      • علوم هنر-Art Science
      • علوم مکانیک-Mechanical Sciences
        • مقالات مکانیک-Mechanical Articles
      • مذهبی-Religious
      • ادبیات-Literature
        • مقالات زبان فارسی-Articles in Persian language
  • مجله اینترنتی
  • حساب کاربری من
  • آموزش دانلود
  • قوانین سایت
  • درباره ما
  • جستجو
  • منو منو
Preparing an accurate Persian POS tagger suitable for[taliem.ir]

Preparing an accurate Persian POS tagger suitable for MT

۰ تومان

In this paper an accurate Persian POS tagger suitable for MT is prepared. First a new set of POS tags is defined which is general and more  usable for MT rather than detailed ones; Then an accurate tagged corpus is prepared with modifying Bijankhan corpus. Stanford POS tagger is trained on the modified Bijankhan, the resulting tagger gives a 99.36% accuracy which shows significant improvement over previous Persian taggers. Result of utilization of this tagger for statistical machine translation is investigated. Outputs show better performance compared to simple SMT, while using previous tagger in SMT drops the BLEU compared to simple SMT.

دسته: مقالات زبان فارسی-Articles in Persian language, مقالات-Article برچسب: MT, POS tag, SMT
  • توضیحات
  • نظرات (0)

توضیحات

ABSTRACT

In this paper an accurate Persian POS tagger suitable for MT is prepared. First a new set of POS tags is defined which is general and more  usable for MT rather than detailed ones; Then an accurate tagged corpus is prepared with modifying Bijankhan corpus. Stanford POS tagger is trained on the modified Bijankhan, the resulting tagger gives a 99.36% accuracy which shows significant improvement over previous Persian taggers. Result of utilization of this tagger for statistical machine translation is investigated. Outputs show better performance compared to simple SMT, while using previous tagger in SMT drops the BLEU compared to simple SMT.

INTRODUCTION

One of the most important and effective factors in machine translation process, is the existence of accurate linguistic tools such as : POS tagger, parser, word net and morphological analyzer for the languages involved in translation process. In the rule based MT systems, existence of these tools is of vital importance and using these tools are unavoidable , as the accuracy of the MT system has been significantly affected by the accuracy of the tools which are used. But statistical machine translation (SMT) often makes no use of linguistic information, relying purely on corpus data and statistical modeling to train and decode. In addition parallel corpus data is an expensive resource and not always available in the quantity required to build models which can perform to acceptable standards. Especially in languages like Persian, thelack of such corpora is a serious problem in their SMT translation. In such languages using linguistic features could be so useful but the linguistic tools should be suitable for the purpose . In this study we prepared an example of such tools i.e. POS tagger. Experiments showed that using basic POS tags rather than detailed ones result in better performance for our purpose. Bijankhan corpus  was our only available option for training the tagger. Investigations showed that the corpus can’t be used for our purpose without some modifications. First step wasreducing the number of tags defined for Persian words and second step was correcting some effective mistakes in POS tags assigned to words.

چکیده

در این مقاله یک برچسب دقیق فارسی POS برای MT آماده شده است. اول مجموعه ای جدید از برچسب های POS تعریف شده است که به طور کلی و بیشتر برای MT استفاده می شود به جای جزئیات دقیق است. سپس یک جسم دقیق نشان داده شده با اصلاح Bijankhan corpus تهیه می شود. نشانگر POS استنفورد بر مبنای Bijankhan اصلاح شده است، که نتیجهگرایی آن یک دقت 99.36٪ را نشان می دهد که نشان دهنده بهبود چشمگیر نسبت به قبلی استtaggers فارسی. نتیجه استفاده از این نشانگر برای ترجمه ماشین آماری مورد بررسی قرار گرفته است. خروجی عملکرد بهتر را نسبت به SMT ساده نشان می دهد، در حالی که با استفاده از تگ قبلی در SMT، BLEU نسبت به SMT ساده را کاهش می دهد.

مقدمه

یکی از مهمترین و موثرترین عوامل در فرایند ترجمه ماشین، وجود ابزارهای دقیق زبان شناختی مانند: برچسب POS، تجزیه کننده، شبکه کلمه و تحلیل مورفولوژیکی برای زبان های درگیر در فرآیند ترجمه است. در نظامهای مبتنی بر قانون، وجود این ابزارها از اهمیت حیاتی برخوردار است و استفاده از این ابزارها اجتناب ناپذیر است، زیرا دقت سیستم MT به طور قابل توجهی با دقت ابزارهایی که مورد استفاده قرار می گیرد، تحت تأثیر قرار می گیرد. اما ترجمه آماری ماشین (SMT) اغلب از اطلاعات زبان شناختی استفاده نمی کند و صرفا بر مبنای اطلاعات کورس و مدل سازی آماری برای آموزش و رمزگشایی است. علاوه بر این داده های کروی موازی یک منبع گرانقیمت است و همیشه در مقدار مورد نیاز برای ساخت مدل هایی که می تواند به استانداردهای قابل قبول برسد، در دسترس نیست. به ویژه در زبانهایی مانند فارسی، از جمله چنین افرادی یک مشکل جدی در ترجمه SMT آنهاست. در چنین زبان هایی با استفاده از ویژگی های زبانی می تواند بسیار مفید باشد، اما ابزار زبان شناسی باید برای این هدف مناسب باشد. در این مطالعه یک نمونه از چنین ابزارهایی مانند POS tagger را آماده کردیم. آزمایشات نشان داد که با استفاده از برچسب های POS پایه به جای جزئیات دقیق، عملکرد بهتر برای هدف ما نتیجه می گیرد. Bijankhan corpus تنها گزینه ای بود که ما برای تدریس استفاده کردیم. تحقیقات نشان داد که بدن ما نمی تواند بدون تغییرات مورد استفاده قرار گیرد. اولین گام تعدیل تگ هایی که برای کلمات فارسی تعریف شده بود و مرحله دوم اصلاح بعضی اشتباهات موثر در برچسب های POS برای کلمات بود.

Year: 2012

Publisher : The first international conference on Persian language and language processing

By :  Zakieh Shakeri, Noushin Riahi, Shahram Khadivi

File Information: English Language/ 4 Page / size: 361 KB

Only site members can download free of charge after registering and adding to the cart

Download tutorial

سال : 1391

ناشر : نخستین کنفرانس بین المللی پردازش خط و زبان فارسی

کاری از : زکیعه شکری، نووشین ریاحی، شهرام خدیوی

اطلاعات فایل : زبان انگلیسی / 4 صفحه / حجم : KB 361

فقط اعضای سایت پس از ثبت نام و اضافه کردن به سبد خرید می توانند دانلود رایگان کنند.خوشحال می شویم به ما پبیوندید

آموزش دانلود

نقد و بررسی‌ها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین کسی باشید که دیدگاهی می نویسد “Preparing an accurate Persian POS tagger suitable for MT” لغو پاسخ

برای فرستادن دیدگاه، باید وارد شده باشید.

محصولات مرتبط

  • Research on Construction Methods of Big Data Semantic Model

    ۰ تومان
    افزودن به سبد خرید نمایش جزئیات
  • The Internet of Things: A survey

    ۰ تومان
    افزودن به سبد خرید نمایش جزئیات
  • Big Data Processing in Cloud Computing Environments

    اطلاعات بیشتر نمایش جزئیات
  • كاربردهاي نوين تكنولوژي بيومتريك در مباحث بازاريابي و خرده فروشي

    ۰ تومان
    افزودن به سبد خرید نمایش جزئیات

درباره فروشگاه

  • ایران
  • تعلیم مرکزی از دانش و علم و فناوریست ،جایی است که کلی مقاله و پروپزال رایگان در اختیار شما کاربران عزیز قرار می گیرد
  • info[at]taliem.ir

دوست عزیز شما می توانید فایل های رایگانی از جمله : نرم افزار ، کتاب ، جزوه ، مقاله و پروپوزال و غیره را از سایت تعلیم دانلود کنید و لازم به ذکر است که 80 در صد محصولات سایت تعلیم به صورت کاملا رایگان ارائه می شود.

در صورتی که فایل یا مقاله ای در سایت نشر داده شده است که دارای حق نشر می باشد خواهشمند است نویسنده یا ناشر با ایمیل زیر ما را در جریان قرار دهد تا از سایت حذف گردد

                taliemsite[@]gmail.com

شما را از پربازدید ترین مقالات مطلع می کنیم

دوست خوبم در صورت هر سوال یا مشکل از طریق تلفن یا پست الکترونیکی زیر می توانیم بهترین خدمات را به شما ارائه دهیم و مطمئن باشید تمام سعی خود را جهت ارائه بهترین خدمت به شما تقدیم خواهیم کرد.

تلفن:07734236086[دور کار-با ایمیل باشما هستیم]

پست الکترونیک : info[@]taliem.ir

اینستاگرام : taliemsit

تعلیم دانشگاهی برای تمام علوم
  • Facebook
  • Twitter
  • LinkedIn
  • Instagram
  • Pinterest
  • Reddit
Language Discrimination and Font Recognition in Machine Printed Documents Using...Language Discrimination and Font[taliem.ir]Semantically Clustering of Persian Words[taliem.ir]Semantically Clustering of Persian Words
رفتن به بالا