توضیحات
چکیده
این مقاله یک الگوریتم جدید به نام ID6NBرا برای توسعه درخت تصمیم ، معرفی میکند که شامل الگوریتم ID3غیر افزایشی Quinlanاست. این الگوریتم راهحلهایی برای دو مشکل ذیل ارائه میکند: – وضعیتی که در آن رای گیری اکثریت تصمیم نادرست میدهد (یعنی ساخت دو نوع قانون متفاوت برای داده یکسان.) کاهش ابعاد – در الگوریتم غیر افزایشی درخت تصمیمگیری، تخمین صفت مناسب برای یک گره جایی که دو یا چند صفت بهره اطلاعاتی یکسانی دارند. مشکل اکثریت به کمک الگوریتم Naive Bayesحل میشود. برای کاهش ابعاد نیز یک راه حل ارائه شده است. در نهایت، دقت طبقه بندی به شدت بهبود یافته است. آزمایش گسترده و گسترش یافته در تعدادی از مجموعه دادههای واقعی و مصنوعی نشان میدهد که ID6NBیک الگوریتم دستهبندی state-of-the-artاست که نسبت به سایر روشهای یادگیری درخت تصمیمگیری، خروجی بهتری دارد.
مقدمه
فرایند کشف دانش در مجموعه داده KDDاست که توسط Fayyadو همکارانش تعریف شده است. KDD به عنوان فرایندی جهت شناسایی ساختار داده معتبر و مفید از ساختار داده بی اهمیت است. داده کاوی گام اصلی در فرایند KDD است که با شمارش الگوهای نمایش داده شده در یک مجموعه داده است. کلاسبندی وظیفه اولیه داده کاوی است که هدفش ، یادگیری یک تابع ای است که رکوردهای مجموعه داده را به یک از چندین کلاس از قبل تعیین شده بفر مبنفای وییگیهای ان رکوردها، دسته بندی می کند. روش های رای[ دسته بندی مانند: ,Back Propagation, Naive Bayes SVM, ID3, C4.5همگی به منظور بهبود عملکرد، طراحی شده اند. جنبه های دیگر کشف دانش مانند دو قانون متفاوت درباره ی داده یکسان، نشان کننده ی وجود وییگی های مرتبط است که مشخص کننده ی شرط دومی بفرای الگوریتم های موجود می باشند. بنابراین مدل های کلاس بندی ناشی از داده های واقعی برای داده های متناقض و ناچیز موeر نیستند. در این مقاله ،ID6NB برای حل این مشکل، راه حلی ارائه نموده است.
ABSTRACT
This paper introduces a new algorithm called ID6NB for decision tree development, which includes Quinlan non-incremental ID3 algorithm. This algorithm offers solutions to the following two problems: – the situation where the majority vote casts the wrong decision (ie, making two different rules for the same data). That have two or more attributes of the same information interest. The majority problem is solved by the Naive Bayes algorithm. A solution for dimming is also provided. Finally, the classification accuracy is greatly improved. Extensive experimentation on a number of real and synthetic datasets shows that ID6NB is a state-of-the-art classification algorithm that outperforms other decision tree learning methods.
INTRODUCTION
The process of knowledge discovery is in the KDD dataset as defined by Fayyad et al. KDD is unimportant as a process for identifying valid and useful data structures. Data mining is a key step in the KDD process by counting the patterns displayed in a dataset. Classification is the primary task of data mining, its purpose being to learn a function that classifies data set records into one of several predefined classes based on the wigfaces of those records. Voting methods [categories such as, ID3, Naive BayesSVM, Back Propagation, C4.5 are all designed to improve performance. Other aspects of knowledge discovery, such as two different rules on the same data, indicate the existence of related properties that determine the latter condition for the existing algorithms. Therefore, classification models derived from real data are not applicable to inconsistent and insignificant data. In this article, ID6NB offers a solution to this problem.
Year: 2015
Source :Second International Conference on Research in Science and Technology
By : Aydin Naseri Fard, Sara Seyed Esmail Sarraf, Dr. Mohammad Reza Babaei
File Information: persian Language/ 14 Page / size: 1.10 MB
سال : 1394
منبع : دومین کنفرانس بین المللی پژوهش در علوم و تکنولوژی
کاری از : آیدین ناصری فرد , سارا سید اسماعیل صراف , دکترمحمدرضا بابایی
اطلاعات فایل : زبان فارسی / 14 صفحه / حجم : MB 1.10
نقد و بررسیها
هنوز بررسیای ثبت نشده است.