توضیحات
ABSTRACT
Variable and feature selection have become the focus of much research in areas of application for which datasets with tens or hundreds of thousands of variables are available. These areas include text processing of internet documents, gene expression array analysis, and combinatorial chemistry. The objective of variable selection is three-fold: improving the prediction performance of the predictors, providing faster and more cost-effective predictors, and providing a better understanding of the underlying process that generated the data. The contributions of this special issue cover a wide range of aspects of such problems: providing a better definition of the objective function, feature construction, feature ranking, multivariate feature selection, efficient search methods, and feature validity assessment methods.
INTRODUCTION
As of 1997, when a special issue on relevance including several papers on variable and feature selection was published (Blum and Langley, 1997, Kohavi and John, 1997), few domains explored used more than 40 features. The situation has changed considerably in the past few years and, in this special issue, most papers explore domains with hundreds to tens of thousands of variables or features:1 New techniques are proposed to address these challenging tasks involving many irrelevant and redundant variables and often comparably few training examples. Two examples are typical of the new application domains and serve us as illustration throughout this introduction. One is gene selection from microarray data and the other is text categorization. In the gene selection problem, the variables are gene expression coefficients corresponding to the abundance of mRNA in a sample (e.g. tissue biopsy), for a number of patients. A typical classification task is to separate healthy patients from cancer patients, based on their gene expression “profile”. Usually fewer than 100 examples (patients) are available altogether for training and testing. But, the number of variables in the raw data ranges from 6000 to 60,000. Some initial filtering usually brings the number of variables to a few thousand.
چکیده
انتخاب متغیر و ویژگی تبدیل شده است تمرکز تحقیقات زیادی در زمینه های کاربردی که مجموعه داده ها با ده ها یا صدها هزار متغیر در دسترس هستند. این زمینه ها شامل پردازش متن از اسناد اینترنتی، تجزیه و تحلیل آرایه آرایه ژن و شیمی ترکیبی است. هدف انتخاب متغیر سه برابر است: بهبود پیش بینی عملکرد پیش بینی کننده ها، فراهم کردن پیش بینی کننده های سریع تر و ارزان تر و فراهم آوردن درک بهتر فرایند اساسی که داده ها را تولید می کنند. مشارکت در این موضوع خاص طیف گسترده ای از جنبه های چنین مشکلات را پوشش می دهد: ارائه تعریف بهتر از تابع هدف، ساخت و ساز ویژگی ها، رتبه بندی ویژگی، انتخاب ویژگی چند متغیر، روش های جستجوی کارآمد و روش های ارزیابی اعتبار ویژگی.
مقدمه
در سال 1997، هنگامی که یک موضوع خاص در رابطه با چندین مقالات در مورد انتخاب متغیر و ویژگی منتشر شد (Blum and Langley، 1997، کوهی و جان، 1997)، چندین دامنه مورد مطالعه بیش از 40 ویژگی استفاده شده است. این وضعیت در چند سال گذشته بطور قابل توجهی تغییر کرده است و در این موضوع خاص اکثر مقالات در مورد دامنه هایی با صدها تا ده ها هزار متغیر یا ویژگی ها مورد بررسی قرار می گیرند: 1 تکنیک های جدید برای پاسخگویی به این وظایف چالش برانگیز در ارتباط با بسیاری از متغیرهای نامناسب و غیرمستقیم و اغلب تعداد کمی از نمونه های آموزشی وجود دارد. دو نمونه از دامنه های کاربردی جدیدی هستند و ما را به عنوان تصویر در طول این مقدمه خدمت می کنند. یکی از انتخاب ژن از داده های میکروارگانی است و دیگری طبقه بندی متن است. در مشکل انتخاب ژن، متغیرها ضرایب بیان ژن مربوط به فراوانی mRNA در یک نمونه (به عنوان مثال بیوپسی بافتی) برای تعدادی از بیماران است. یک وظیفه طبقه بندی معمول، جدا کردن افراد سالم از بیماران مبتلا به سرطان بر اساس بیان ژن آن “مشخصات” است. معمولا کمتر از 100 نمونه (بیمار) در دسترس برای آموزش و آزمایش در دسترس هستند. اما تعداد متغیرها در داده های خام از 6000 تا 60،000 متغیر است. بعضی از فیلترهای اولیه معمولا تعداد متغیرها را به چند هزار می رساند.
Year: 2003
Publisher : ANDRE
By : Isabelle Guyon, Andre Elisseeff
File Information: English Language/ 26 Page / size: 252 KB
Only site members can download free of charge after registering and adding to the cart
سال : 1382
ناشر : ANDRE
کاری از : ایزابل گویون، آندره الیسهف
اطلاعات فایل : زبان انگلیسی / 26 صفحه / حجم : KB 252
نقد و بررسیها
هنوز بررسیای ثبت نشده است.