توضیحات
چکیده
یادگیری یک طبقه بند از یک مجموعه داده نامتعادل یک مسئله مهم در داده کاوی و یادگیری ماشین است. ازآنجاکه اطلاعات بیشتری درباره کلاس های حداکثر نسبت به کلاس های حداقل در یک مجموعه داده نامتعادل وجود دارد، طبقه بند درباره نمونه های کلاس حداکثر دچار بیش برازش میشود. مطالعات قبلی بر افزایش حساسیت یادگیری نسبت به نمونه های کلاس حداقل تمرکز کرده اند و یا از روش های متوازن سازی قبل از یادگیری، بهره گرفته اند. اما تعیین اینکه کلاس های حداکثر و حداقل تا چه اندازه باید متوازن شوند، هنوز یک مسئله حل نشده است. بیشتر مطالعات انجام شده، روی مسائل طبقه بندی نامتعادل دوکلاسی تمرکز کرده اند. یکی از متداولترین روشهای حل مسائل نامتعادل چندکلاسی، تجزیه آنها به یک سری از مسائل نامتعادل دودویی است. از میان این استراتژی ها، روشهای تجزیه یکی در مقابل همه و یکی در مقابل یکی توجه زیادی را به خود جلب کرده اند. در این پژوهش، برای حل مسئله طبقه بندی نامتعادل چندکلاسی از تجزیه یکی در مقابل یکی استفاده شده است بدین ترتیب مسئله نا متعادل کلاسی به چندین زیر مسئله دوکلاسی تبدیل میشود. برای غلبه بر مشکل عدم توازن در زیر مسئله های دوکلاسی، از ایده ترکیب تجمعی استفاده شده که در آن از الگوریتم های هوش جمعی برای انتخاب ترکیب بهینه از نمونه ها جهت طبقه بندی بهره گرفته شده است.
مقدمه
امروزه به لطف پیشرفت تکنولوژی با حجم بالایی از داده ها سروکار داریم که میتوان از استخراج اطلاعات مفید از آنها در حوزه های مختلف کاربردی مانند پزشکی، بیوانفورماتیک، ایمنی شبکه و غیره بهره گرفت. روشهای یادگیری ماشین و داده کاوی ابزارهایی برای پردازش و کار با داده ها هستند که هدف ارائه روشها و الگوریتم هایی برای بهره گیری هرچه بیشتر از داده ها است. در بعضی از کاربردهای دنیای واقعی مانند داده های مربوط به سرطان با داده های نامتعادل مواجه هستیم. داده های نامتعادل به داده هایی گفته میشود که در آنها یک یا چند کلاس دارای تعداد نمونه های خیلی بیشتر در مقایسه با دیگر کلاسها هستند. کلاس با تعداد نمونه زیاد را کلاس حداکثر و کلاس با کمترین نمونه را کلاس حداقل مینامند. وقتی مشکل عدم توازن کلاس وجود دارد، اغلب نگرانی ها معطوف کلاس حداقل است چرا که هزینه طبقه بندی نادرست نمونه های کلاس حداقل بیشتر از سایر کلاسها است.
ABSTRACT
Learning a classifier from an unbalanced data set is an important issue in data mining and machine learning. Since there is more information about classes of classes than the minimum classes in an unbalanced data set, the classifier overlaps with the maximum class instances. Previous studies have focused on increasing the sensitivity of learning to classroom samples or have used pre-learning balancing methods. But the determination of whether the maximum and minimum classes should be balanced is still not an issue. Most studies have focused on unbalanced classification problems in dictation. One of the most common methods for solving unbalanced multi-class problems is their breakdown into a series of binary imbalances. Among these strategies, the methods of deconstructing one against each and one against one have attracted much attention. In this study, the unbalanced classical classification problem is used to decompose one to one. Thus, the unbalanced class problem becomes a two-part problem. To overcome the imbalance problem under the two-class problem, we use the idea of cumulative composition in which collective intelligence algorithms are used to select the optimal composition of the samples for classification.
INTRODUCTION
Today, thanks to the advancement of technology, we are dealing with a large amount of data that can be used to extract useful information from them in various applications such as medicine, bioinformatics, network security, and so on. Machine learning and data mining methods are tools for processing and working with data that aims to provide methods and algorithms for maximizing data use. In some real-world applications, such as cancer data, we face unbalanced data. Unbalanced data refers to data in which one or more classes have a much larger number of instances than other classes. A class with a large number of instances is called the class maximum and the class with the least sample is the minimum class. When there is a class imbalance problem, most class-concern concerns are minimal, since the cost of classifying improper class instances is at least higher than other classes.
Year: 2017
Publisher : Third Annual National Conference, Computer Engineering and Bioelectric Power Engineering of Iran
By : Manijeh Masoumi, Adel Ghazi Khani
File Information: Persian Language/ 8 Page / size: 498 KB
سال : 1396
ناشر : سومین کنفرانس سالانه ی ملی , مهندسی برق کامپیوتر و بیوالکتریک ایران
کاری از : منیژه معصومی ، عادل قاضی خانی
اطلاعات فایل : زبان فارسی / 8 صفحه / حجم : KB 498
نقد و بررسیها
هنوز بررسیای ثبت نشده است.