توضیحات
ABSTRACT
Clustering is one of data mining task which aims to divides a set of objects into groups so that similar objects fall into the same group and objects with different features are put into different and separate groups. This paper presents a technique for semantic word clustering which is one of the applications of data mining techniques in the task of natural language processing. Word clustering is used in various fields of textmining such as word disambiguation, information retrieval, language modelling, and text classification. This paper proposes a graph based method to clustering Persian words. The proposed method is a type of pattern-based clustering. This method includes two parts; in the first part using statistical similarity measures such as Chi-Square, pointwise mutual information (PMI), and Cosine a word co-occurrence graph is obtained. In the second part, the graph is further divided into appropriate clusters by Newman’s graph clustering algorithm. Our researches show that Chi-square is the best measure to cluster the words in Persian
INTRODUCTION
Word clustering is the task of divides a set of words into groups so that words within a group are closely related and have no strong relation with words in other groups. Relationships between and among words can be semantic or derivational. For example words such as Ping-Pong, world cup and football are semantically related with label sport whereas derivational relationships present words with the same root. Rapid grows of textual data in the world has increasing necessitated the application of data mining techniques. Word clustering is one of the practical techniques which on the one hand can improve performance of the text mining1 application and on the other hand can reduce the dimensions of textual data. Some natural language processing applications such as question answering, document clustering and text classifying employ word clustering techniques. For instance Momtazi and Klakow used a type of word clustering technique to the task of Question Answering (QA) (2009).
چکیده
خوشه بندی یکی از کارهای داده کاوی است که هدف آن مجموعه ای از اشیا را به گروه ها تقسیم می کند تا اشیاء مشابه در یک گروه قرار بگیرند و اشیاء با ویژگی های مختلف به گروه های مختلف و جداگانه قرار می گیرند. این مقاله یک روش برای خوشه بندی واژگان معنایی است که یکی از کاربردهای تکنیک های داده کاوی در وظیفه پردازش زبان طبیعی است. خوشه بندی ورد در زمینه های مختلف textmining مانند ابهام زدن کلمه، بازیابی اطلاعات، مدل سازی زبان و طبقه بندی متن استفاده می شود. این مقاله یک روش مبتنی بر گراف برای خوشه بندی واژگان فارسی پیشنهاد می کند. روش پیشنهادی نوعی خوشه بندی مبتنی بر الگو است. این روش شامل دو بخش است؛ در بخش اول با استفاده از اقدامات تشابه آماری مانند چی میدان، اطلاعات متقابل معکوس (PMI)، و کوزین یک گراف هماهنگی کلمه به دست آمده است. در بخش دوم، نمودار توسط الگوریتم خوشه بندی گراف نیومن به خوشه های مناسب تقسیم می شود. تحقیقات ما نشان می دهد که کای مربع بهترین روش برای خواندن کلمات در فارسی است.
مقدمه
خوشه بندی ورد، وظیفه مجموعه ای از کلمات را به گروه ها تقسیم می کند تا کلمات درون یک گروه از یکدیگر نزدیک و ارتباطی قوی با کلمات در گروه های دیگر نداشته باشند. روابط میان کلمات و کلمات می تواند معنایی یا مشتق شده باشد. به عنوان مثال کلمات مانند پینگ پنگ، جام جهانی و فوتبال به معنای معنایی مرتبط با ورزش برچسب است در حالی که روابط مشتق شده کلمات با یک ریشه در حال حاضر وجود دارد. رشد سریع داده های متنی در جهان باعث افزایش نیاز به استفاده از تکنیک های داده کاوی شده است. خوشه بندی واژگان یکی از تکنیک های عملی است که از یک طرف می تواند عملکرد نرم افزار text mining1 را بهبود بخشد و از سوی دیگر می تواند ابعاد داده های متنی را کاهش دهد. برخی از برنامه های کاربردی پردازش زبان طبیعی مانند پاسخ به سوال، خوشه بندی مدارک و طبقه بندی متن، از روش های خوشه بندی کلمه استفاده می کنند. به عنوان مثال، ممتازي و كلوك نوعي از روش خوشه بندي واژگان را به وظيفه پاسخ سوال (QA) (2009) مورد استفاده قرار دادند.
Year: 2012
Publisher : The first international conference on Persian language and language processing
By : Alireza Arasteh, Mohammad Hossein Elahimanesh, Ahmad Sharif, Behrouz Minaei-Bidgoli
File Information: English Language/ 5 Page / size: 584 KB
Only site members can download free of charge after registering and adding to the cart
سال : 1391
ناشر : نخستین کنفرانس بین المللی پردازش خط و زبان فارسی
کاری از : علیرضا آراسته، محمد حسین الیحمانه، احمد شریف، بهروز مینا بیضگولی
اطلاعات فایل : زبان انگلیسی / 5 صفحه / حجم : KB 584
نقد و بررسیها
هیچ دیدگاهی برای این محصول نوشته نشده است.