• 0سبد خرید فروشگاه
تعلیم
  • صفحه اصلی
  • محصولات
    • همه تعلیم ها
      • اقتصاد-Economy
        • علوم بورس-Science stock
        • علوم بانکداری-Banking science
        • علوم تجارت-Business Sciences
      • علوم برق-Electrical Sciences
        • مقالات برق-Electrical Articles
        • علوم الکترونیک-Electronic science
      • علوم زیست شناسی-Biological Sciences
        • زمین شناسی-Geology
          • مقالات جغرافیا-Geography Papers
      • علوم اجتماعی-social Sciences
      • علوم ایمنی و بهداشت-Health and safety
        • مقالات ایمنی و بهداشت – Health and safety
      • علوم پزشکی-Medical Sciences
        • علوم روانشناسی-Psychological Science
          • روانشناسی موفقیت-Psychology of success
        • مقالات پزشکی-medical articles
        • مقالات آنتی بیوتیک-Articles antibiotics
        • مقالات دندانپزشکی-Dental articles
      • علوم ریاضیات و فیزیک-Science, mathematics and physics
        • مقالات ریاضی – Mathematical articles
        • مقالات فیزیک-Physics articles
      • علوم زبان انگلیسی-Science in English
      • علوم سیاسی-political science
      • علوم شیمی-Chemical Sciences
        • مقالات شیمی-Chemistry Articles
        • مقالات پتروشیمی-Petrochemical articles
      • علوم صنایع غذایی-Food Industry Science
        • علوم تغذیه-nutrition science
      • علوم صنایع-Industrial science
        • مهندسی مواد-Materials Engineering
          • مقالات متالورژی- Metallurgy Articles
      • علوم عمران-Civil Sciences
        • مقالات عمران-Civil Articles
      • علوم کامپیوتر-computer science
        • مقالات فناوری اطلاعات-Articles of Information Technology
        • مقالات کامپیوتر-Computer Articles
          • دیتابیس-database
          • داده کاوی-Data Mining
          • داده های عظیم-Big data
          • رایانش ابری-cloud computing
          • هادوپ-Hadoop
          • سیستم فازی-Fuzzy System
      • علوم کشاورزی-Agricultural Sciences
        • مقالات کشاورزی-Agricultural Articles
        • مقالات شیلات-Fisheries Articles
        • مقالات محیط زیست-Environmental articles
      • علوم مالی و اداری-Financial and Administrative Science
        • مقالات حسابداری-Accountant Articles
      • علوم مدیریت-Management Sciences
        • مدیریت کسب و کار-business management
        • مقالات مدیریت-Management Articles
        • مقالات کارآفرینی-Entrepreneurship articles
      • علوم تربیت بدنی-Physical Education Sciences
      • علوم ورزشی-Sports Sciences
      • علوم معماری-Architectural Science
      • علوم هنر-Art Science
      • علوم مکانیک-Mechanical Sciences
        • مقالات مکانیک-Mechanical Articles
      • مذهبی-Religious
      • ادبیات-Literature
        • مقالات زبان فارسی-Articles in Persian language
  • مجله اینترنتی
  • حساب کاربری من
  • آموزش دانلود
  • قوانین سایت
  • درباره ما
  • جستجو
  • منو منو
حراج!

DATA MINING FOR IMBALANCED DATASETS: AN OVERVIEW

۱ تومان ۰ تومان

A dataset is imbalanced if the classification categories are not approximately equally represented. Recent years brought increased interest  in applying machine learning techniquesto difficult”real-world” problems, many of which are characterized by imbalanced data. Additionally  the distribution of the testing data may differ from that of the training data, and the true misclassification costs may be unknown at learning time. Predictive accuracy, a popular choice for evaluating performanceof a classifier, might not be appropriatewhen  the data is imbalanced andlor the costs of different errors vary markedly. In this Chapter, we discuss some of the sampling techniquesused for balancing the  datasets, and the performance measures more appropriate for mining imbalanced datasets.

دسته: داده کاوی-Data Mining, علوم کامپیوتر-computer science, مقالات کامپیوتر-Computer Articles
  • توضیحات
  • نظرات (0)

توضیحات

ABSTRACT

A dataset is imbalanced if the classification categories are not approximately qually represented. Recent years brought increased interest in  applying machine learning techniquesto difficult”real-world” problems, many of which are characterized by imbalanced data. Additionally the  distribution of the testing data may differ from that of the training data, and the true misclassification costs may be unknown at learning time.  Predictive accuracy, a popular choice for evaluating performanceof a classifier, might not be appropriatewhen the data is imbalanced andlor the  costs of different errors vary markedly. In this Chapter, we discuss some of the sampling techniquesused for balancing the datasets, and the  performance measures more appropriate for mining imbalanced datasets.

INTRODUCTION

The issue with imbalance in the class distribution became more pronounced with the applications of the machine learning algorithms to the real  world. These applications range from telecommunications management (Ezawaet al., 1996), bioinformatics (Radivojac et al., 2004), text  classification (Lewis and Catlett, 1994; Dumais et al., 1998; Mladeni6 and Grobelnik, 1999; Cohen, 1995b), speechrecognition (Liu et al., 2004),  to detection of oil spills in satellite images (Kubat et al., 1998). The imbalance can be an artifact of class distribution and/or different costs of  errors or examples. It has received attention from machine learningand Data Mining community in form of Workshops (Japkowicz, 2000b;  Chawla et al., 2003a; Dietterich et al., 2003; Fem et al. 2004) and Special Issues (Chawla et al., 2004a). The range of papers in these venues  exhibitedthe pervasive and ubiquitous nature of the class imbalanceissues faced by the Data Mining community. Samplingmethodologies  continue to be popular in the research work. However, the research continues to evolve with different applications,as each application providesa  compellingproblem. One focus of the initial workshops was primarily the performance evaluation criteria for mining imbalanced datasets. The  limitation of the accuracy as the performance measure was quickly established. ROC curves soon emerged as a popular choice (Fem et al.,   2004). 2004) and Special Issues (Chawla et al., 2004a). The range of papers in these venues exhibitedthe pervasive and ubiquitous nature of  the class imbalanceissues faced by the Data Mining community. Samplingmethodologies continue to be popular in the research work. However,  the research continues to evolve with different applications,as each application providesa compellingproblem. One focus of the initial workshops was primarily the performance evaluation criteria for mining imbalanced datasets. The limitation of the accuracy as the performance measure  was quickly established. ROC curves soon emerged as a popular choice (Fem et al., 2004).

Year: 2004

Publishe: Universityof Notre Dame

By: Nitesh V. Chawla

File Information: English Language/ 15 Page / size:2,855KB

Download: click

سال : 2004

ناشر :  Universityof Notre Dame

کاری از : Nitesh V. Chawla

اطلاعات فایل : زبان انگلیسی / 15 صفحه / حجم :2,855KB

لینک دانلود : روی همین لینک کلیک کنید

نقد و بررسی‌ها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین کسی باشید که دیدگاهی می نویسد “DATA MINING FOR IMBALANCED DATASETS: AN OVERVIEW” لغو پاسخ

برای فرستادن دیدگاه، باید وارد شده باشید.

محصولات مرتبط

  • کتاب آموزش زبان برنامه نویسی جاوا

    ۰ تومان
    افزودن به سبد خرید نمایش جزئیات
  • کتاب پایگاه داده PostgreSQL

    ۰ تومان
    افزودن به سبد خرید نمایش جزئیات
  • کتاب آموزش بوت استرپ

    ۰ تومان
    افزودن به سبد خرید نمایش جزئیات
  • دانلودکتاب آموزش برنامه نویسی اندروید

    ۰ تومان
    افزودن به سبد خرید نمایش جزئیات

درباره فروشگاه

  • ایران
  • تعلیم مرکزی از دانش و علم و فناوریست ،جایی است که کلی مقاله و پروپزال رایگان در اختیار شما کاربران عزیز قرار می گیرد
  • info[at]taliem.ir

دوست عزیز شما می توانید فایل های رایگانی از جمله : نرم افزار ، کتاب ، جزوه ، مقاله و پروپوزال و غیره را از سایت تعلیم دانلود کنید و لازم به ذکر است که 80 در صد محصولات سایت تعلیم به صورت کاملا رایگان ارائه می شود.

در صورتی که فایل یا مقاله ای در سایت نشر داده شده است که دارای حق نشر می باشد خواهشمند است نویسنده یا ناشر با ایمیل زیر ما را در جریان قرار دهد تا از سایت حذف گردد

                taliemsite[@]gmail.com

شما را از پربازدید ترین مقالات مطلع می کنیم

دوست خوبم در صورت هر سوال یا مشکل از طریق تلفن یا پست الکترونیکی زیر می توانیم بهترین خدمات را به شما ارائه دهیم و مطمئن باشید تمام سعی خود را جهت ارائه بهترین خدمت به شما تقدیم خواهیم کرد.

تلفن:07734236086[دور کار-با ایمیل باشما هستیم]

پست الکترونیک : info[@]taliem.ir

اینستاگرام : taliemsit

تعلیم دانشگاهی برای تمام علوم
  • Facebook
  • Twitter
  • LinkedIn
  • Instagram
  • Pinterest
  • Reddit
Data Mining Applications in HealthcareData Mining in Bioinformatics using Weka
رفتن به بالا