توضیحات
چکیده
با رشد روز افزون منابع اطلاعاتي و حجم مقالات و مطالب توليد شده در زمينه هاي مختلف و به شکل هاي متنوع اعم ازرسانه های مختلف ديجيتال نياز به دسترسي آسان اطلاعات نيز افزايش مييابد. يکي از نياز هاي اوليه در بالا بردن سرعت دسترسي که اطلاعات و پردازش اين مطالب که غالباً داراي حجم بالايي نيز ميباشند، دسته بندي اين اطلاعات در طبقات مختلف ميباشد. دسته بندي متون به عم برچسب زدن يا تفکيک يک متن در قالب يکي از دسته هاي از پيش تعیین شده گفته ميشود. در اين مقاله به بررسي عملکرد الگوريتم WKNN3با استفاده از معيار وزن دهي tf-idfميپردازيم. همچنکين براي بالابردن دقت در انتخاب طبقه صحيح و به منظور افزايش کارايي الگوريتم از روش ميانگین گيري از داده ها به عنوان معيار ارزيابي استفاده میکنیم. نتايج به دست آمده از تفکيک متون فارسی با استفاده از روش هاي فوق نشان دهنده دقت 98درصد ميباشد.
مقدمه
با پیشرفت در علوم کامپیوتری وگسترش کاربرد ان در تمام زمینه ها , حجم ذخیره و پردازش اطلاعات افزایش یافته و امکان دسترسی به این اطلاعات از محل های دیگر نیز با استفاده از شبکه های موجود بین کامپیوترها امکان پذیر شده است . به منظور بهبود نحوه دسترسی به این اطلاعات وجود سیستم هایی برای انجام اعمالی از قبیل فیلترینگ ,طبقه بندی ,جستجو…ضروری میباشد.دسته بندی متن فرایند تصمیم گیری برای نسبت دادن یک متن به یک گروه خاص از متون میباشد. از سیستم برای دسته بندی متن ها یا سایت ها برای دسترسی آسان به اطلاعات انها استفاده میشود. به منظور دسته بندی متون میتوان از الگوریتم های متنوعی استفاده نمود که از آن جمله میتوان به شبکه های عصبی , نزدیکترین همسایگی , Naive ، SVM Bayes
و غیره اشاره نمود.
ABSTRACT
With the increasing growth of information sources and the volume of articles and materials produced in various fields and in various forms, including various digital media, the need for easy access to information also increases. One of the primary requirements for speeding up access to information and processing of these materials, which are often high volume, is to classify this information in different categories. The categorization of texts is referred to as the purpose of tagging or separating a text in the form of one of the preset categories. In this paper, we examine the performance of the WKNN3 algorithm using the tf-idf weighing criterion. Also, we use the method of data interagency as an evaluation criterion in order to raise the accuracy of choosing the correct class and in order to increase the efficiency of the algorithm. The results obtained from the separation of Persian texts using the above methods show a precision of 98%.
INTRODUCTION
With the advancement of computer science and its application in all fields, the volume of storage and processing of information has increased and access to this information from other locations is also possible using existing networks between computers. In order to improve the access to this information, there is a need for systems to perform actions such as filtering, classifying, searching … The text field is the decision process to assign a text to a specific group of texts. The system is used to categorize texts or sites for easy access to their information. Various algorithms can be used to categorize texts, including neural networks, closest neighbors, Naive, SVM Bayes
And so on.
Year: 2012
Publisher : The first international conference on Persian language and language processing
By : Farzin Yaghmaie, Saeed Tavbadi
File Information: persian Language/ 5 Page / size: 611 KB
Only site members can download free of charge after registering and adding to the cart
سال : 1391
ناشر : نخستین کنفرانس بین المللی پردازش خط و زبان فارسی
کاری از : فرزين يغمايی ،سعید تعبدی
اطلاعات فایل : زبان فارسی / 5 صفحه / حجم : KB 611
نقد و بررسیها
هنوز بررسیای ثبت نشده است.