• 0سبد خرید فروشگاه
تعلیم
  • صفحه اصلی
  • محصولات
    • همه تعلیم ها
      • اقتصاد-Economy
        • علوم بورس-Science stock
        • علوم بانکداری-Banking science
        • علوم تجارت-Business Sciences
      • علوم برق-Electrical Sciences
        • مقالات برق-Electrical Articles
        • علوم الکترونیک-Electronic science
      • علوم زیست شناسی-Biological Sciences
        • زمین شناسی-Geology
          • مقالات جغرافیا-Geography Papers
      • علوم اجتماعی-social Sciences
      • علوم ایمنی و بهداشت-Health and safety
        • مقالات ایمنی و بهداشت – Health and safety
      • علوم پزشکی-Medical Sciences
        • علوم روانشناسی-Psychological Science
          • روانشناسی موفقیت-Psychology of success
        • مقالات پزشکی-medical articles
        • مقالات آنتی بیوتیک-Articles antibiotics
        • مقالات دندانپزشکی-Dental articles
      • علوم ریاضیات و فیزیک-Science, mathematics and physics
        • مقالات ریاضی – Mathematical articles
        • مقالات فیزیک-Physics articles
      • علوم زبان انگلیسی-Science in English
      • علوم سیاسی-political science
      • علوم شیمی-Chemical Sciences
        • مقالات شیمی-Chemistry Articles
        • مقالات پتروشیمی-Petrochemical articles
      • علوم صنایع غذایی-Food Industry Science
        • علوم تغذیه-nutrition science
      • علوم صنایع-Industrial science
        • مهندسی مواد-Materials Engineering
          • مقالات متالورژی- Metallurgy Articles
      • علوم عمران-Civil Sciences
        • مقالات عمران-Civil Articles
      • علوم کامپیوتر-computer science
        • مقالات فناوری اطلاعات-Articles of Information Technology
        • مقالات کامپیوتر-Computer Articles
          • دیتابیس-database
          • داده کاوی-Data Mining
          • داده های عظیم-Big data
          • رایانش ابری-cloud computing
          • هادوپ-Hadoop
          • سیستم فازی-Fuzzy System
      • علوم کشاورزی-Agricultural Sciences
        • مقالات کشاورزی-Agricultural Articles
        • مقالات شیلات-Fisheries Articles
        • مقالات محیط زیست-Environmental articles
      • علوم مالی و اداری-Financial and Administrative Science
        • مقالات حسابداری-Accountant Articles
      • علوم مدیریت-Management Sciences
        • مدیریت کسب و کار-business management
        • مقالات مدیریت-Management Articles
        • مقالات کارآفرینی-Entrepreneurship articles
      • علوم تربیت بدنی-Physical Education Sciences
      • علوم ورزشی-Sports Sciences
      • علوم معماری-Architectural Science
      • علوم هنر-Art Science
      • علوم مکانیک-Mechanical Sciences
        • مقالات مکانیک-Mechanical Articles
      • مذهبی-Religious
      • ادبیات-Literature
        • مقالات زبان فارسی-Articles in Persian language
  • مجله اینترنتی
  • حساب کاربری من
  • آموزش دانلود
  • قوانین سایت
  • درباره ما
  • جستجو
  • منو منو
Semantically Clustering of Persian Words[taliem.ir]

Semantically Clustering of Persian Words

۰ تومان

Clustering is one of data mining task which aims to divides a set of objects into groups so that similar objects fall into the same group and  objects with different features are put into different and separate groups. This paper presents a technique for semantic word clustering which is one of the applications of data mining techniques in the task of natural language processing. Word clustering is used in various fields of textmining such as word disambiguation, information retrieval, language modelling, and text classification. This paper proposes a graph based method to clustering Persian words. The proposed method is a type of pattern-based clustering. This method includes two parts; in the first part using statistical similarity measures such as Chi-Square, pointwise mutual information (PMI), and Cosine a word co-occurrence graph is obtained. In the second part, the graph is further divided into appropriate clusters by Newman’s graph clustering algorithm. Our researches show that Chi-square is the best measure to cluster the words in Persian.

دسته: مقالات زبان فارسی-Articles in Persian language, مقالات-Article برچسب: component, Graph-base Clustering., Persian NLP, Text Mining, Word Clustering
  • توضیحات
  • نظرات (0)

توضیحات

ABSTRACT

  Clustering is one of data mining task which aims to divides a set of objects into groups so that similar objects fall into the same group and  objects with different features are put into different and separate groups. This paper presents a technique for semantic word clustering which is one of the applications of data mining techniques in the task of natural language processing. Word clustering is used in various fields of textmining such as word disambiguation, information retrieval, language modelling, and text classification. This paper proposes a graph based method to clustering Persian words. The proposed method is a type of pattern-based clustering. This method includes two parts; in the first part using statistical similarity measures such as Chi-Square, pointwise mutual information (PMI), and Cosine a word co-occurrence graph is obtained. In the second part, the graph is further divided into appropriate clusters by Newman’s graph clustering algorithm. Our researches show that Chi-square is the best measure to cluster the words in Persian

INTRODUCTION

Word clustering is the task of divides a set of words into groups so that words within a group are closely related and have no strong relation with words in other groups. Relationships between and among words can be semantic or derivational. For example words such as Ping-Pong, world cup and football are semantically related with label sport whereas derivational relationships present words with the same root. Rapid grows of textual data in the world has increasing necessitated the application of data mining techniques. Word clustering is one of the practical techniques which on the one hand can improve performance of the text mining1 application and on the other hand can reduce the  dimensions of textual data. Some natural language processing applications such as question answering, document clustering and text  classifying employ word clustering techniques. For instance Momtazi and Klakow used a type of word clustering technique to the task of Question Answering (QA) (2009).

چکیده

خوشه بندی یکی از کارهای داده کاوی است که هدف آن مجموعه ای از اشیا را به گروه ها تقسیم می کند تا اشیاء مشابه در یک گروه قرار بگیرند و اشیاء با ویژگی های مختلف به گروه های مختلف و جداگانه قرار می گیرند. این مقاله یک روش برای خوشه بندی واژگان معنایی است که یکی از کاربردهای تکنیک های داده کاوی در وظیفه پردازش زبان طبیعی است. خوشه بندی ورد در زمینه های مختلف textmining مانند ابهام زدن کلمه، بازیابی اطلاعات، مدل سازی زبان و طبقه بندی متن استفاده می شود. این مقاله یک روش مبتنی بر گراف برای خوشه بندی واژگان فارسی پیشنهاد می کند. روش پیشنهادی نوعی خوشه بندی مبتنی بر الگو است. این روش شامل دو بخش است؛ در بخش اول با استفاده از اقدامات تشابه آماری مانند چی میدان، اطلاعات متقابل معکوس (PMI)، و کوزین یک گراف هماهنگی کلمه به دست آمده است. در بخش دوم، نمودار توسط الگوریتم خوشه بندی گراف نیومن به خوشه های مناسب تقسیم می شود. تحقیقات ما نشان می دهد که کای مربع بهترین روش برای خواندن کلمات در فارسی است.

مقدمه

خوشه بندی ورد، وظیفه مجموعه ای از کلمات را به گروه ها تقسیم می کند تا کلمات درون یک گروه از یکدیگر نزدیک و ارتباطی قوی با کلمات در گروه های دیگر نداشته باشند. روابط میان کلمات و کلمات می تواند معنایی یا مشتق شده باشد. به عنوان مثال کلمات مانند پینگ پنگ، جام جهانی و فوتبال به معنای معنایی مرتبط با ورزش برچسب است در حالی که روابط مشتق شده کلمات با یک ریشه در حال حاضر وجود دارد. رشد سریع داده های متنی در جهان باعث افزایش نیاز به استفاده از تکنیک های داده کاوی شده است. خوشه بندی واژگان یکی از تکنیک های عملی است که از یک طرف می تواند عملکرد نرم افزار text mining1 را بهبود بخشد و از سوی دیگر می تواند ابعاد داده های متنی را کاهش دهد. برخی از برنامه های کاربردی پردازش زبان طبیعی مانند پاسخ به سوال، خوشه بندی مدارک و طبقه بندی متن، از روش های خوشه بندی کلمه استفاده می کنند. به عنوان مثال، ممتازي و كلوك نوعي از روش خوشه بندي واژگان را به وظيفه پاسخ سوال (QA) (2009) مورد استفاده قرار دادند.

 

 

 

Year: 2012

Publisher : The first international conference on Persian language and language processing

By :  Alireza Arasteh, Mohammad Hossein Elahimanesh, Ahmad Sharif, Behrouz Minaei-Bidgoli

File Information: English Language/ 5 Page / size: 584 KB

Only site members can download free of charge after registering and adding to the cart

Download tutorial

سال : 1391

ناشر : نخستین کنفرانس بین المللی پردازش خط و زبان فارسی

کاری از : علیرضا آراسته، محمد حسین الیحمانه، احمد شریف، بهروز مینا بیضگولی

اطلاعات فایل : زبان انگلیسی / 5 صفحه / حجم : KB 584

فقط اعضای سایت پس از ثبت نام و اضافه کردن به سبد خرید می توانند دانلود رایگان کنند.خوشحال می شویم به ما پبیوندید

آموزش دانلود

نقد و بررسی‌ها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین کسی باشید که دیدگاهی می نویسد “Semantically Clustering of Persian Words” لغو پاسخ

برای فرستادن دیدگاه، باید وارد شده باشید.

محصولات مرتبط

  • The Internet of Things: A survey

    ۰ تومان
    افزودن به سبد خرید نمایش جزئیات
  • Energy Efficient D2D Communications: A Perspective of Mechanism Design

    ۰ تومان
    افزودن به سبد خرید نمایش جزئیات
  • New Signal Designs for Enhanced Spatial Modulation

    ۰ تومان
    افزودن به سبد خرید نمایش جزئیات
  • Big Data and Cloud Computing: Current State and Future Opportunities

    ۰ تومان
    افزودن به سبد خرید نمایش جزئیات

درباره فروشگاه

  • ایران
  • تعلیم مرکزی از دانش و علم و فناوریست ،جایی است که کلی مقاله و پروپزال رایگان در اختیار شما کاربران عزیز قرار می گیرد
  • info[at]taliem.ir

دوست عزیز شما می توانید فایل های رایگانی از جمله : نرم افزار ، کتاب ، جزوه ، مقاله و پروپوزال و غیره را از سایت تعلیم دانلود کنید و لازم به ذکر است که 80 در صد محصولات سایت تعلیم به صورت کاملا رایگان ارائه می شود.

در صورتی که فایل یا مقاله ای در سایت نشر داده شده است که دارای حق نشر می باشد خواهشمند است نویسنده یا ناشر با ایمیل زیر ما را در جریان قرار دهد تا از سایت حذف گردد

                taliemsite[@]gmail.com

شما را از پربازدید ترین مقالات مطلع می کنیم

دوست خوبم در صورت هر سوال یا مشکل از طریق تلفن یا پست الکترونیکی زیر می توانیم بهترین خدمات را به شما ارائه دهیم و مطمئن باشید تمام سعی خود را جهت ارائه بهترین خدمت به شما تقدیم خواهیم کرد.

تلفن:07734236086[دور کار-با ایمیل باشما هستیم]

پست الکترونیک : info[@]taliem.ir

اینستاگرام : taliemsit

تعلیم دانشگاهی برای تمام علوم
  • Facebook
  • Twitter
  • LinkedIn
  • Instagram
  • Pinterest
  • Reddit
Preparing an accurate Persian POS tagger suitable for MTPreparing an accurate Persian POS tagger suitable for[taliem.ir]Classification of Persian accents speech using[[taliem.ir]Classification of Persian accents speech using histogram of pitch contour
رفتن به بالا