توضیحات
هرچند حجم بسیار زیاد داده ها یک موضوع اصلی داده کاوی است ولی غالب روشهای ارائه شده نیاز به پیش پردازشهایی در جهت کاهش حجم داده دارند عموما روشهای ابتدایی کاهش نمونه به عنوان قسمتی از فاز پیش پردازش به کار گرفته می شوند تا سرعت مرحله ی یادگیری و ارزیابی با پیچیدگی الگوریتم یادگیری متناسب شود بدین ترتیب تعمیم پذیری و نرخ کاهش داده مسئله ی اصلی در این زمینه است و افزایش دقت در مرحله اصلی یادگیری اهمیت می یابد درحالت کلی دو دسته الگوریتم کاهش فضا وجود دارند این روشها یا توده های مرکزی را حذف کرده و سعی در حفظ مرزها دارند و یا اینکه نمونه مرزی را کم ارزش فرض کرده و برای افزایش تعمیم پذیری داده های نزدیک به مرکز کلاس ها را حفظ می کنند در مورد برخی از الگوریتمهای یادگیری هیچ کدام از این دو مورد مناسب نیستند. حذف انتخای ازنقاط خاصی از فضا توزیع اماری داده ها را تغییر داده و با تغییر مبنای فاصله فاز یادگیری را دچار مشکل می کند در روش ارائه شده دراین مقاله یک الگوریتم ابتکاری برای تنک کردن داده ها مطرح و نتایج ارزیابی آن برروی داده های کشف نفوذ اورده شده است.
کاری از: سید محمدرضا موسوی ، مهسا فضائلی جوان ، سمانه قدرت نما ، محمدهادی صدرالدینی، منصور ذوالقدری جهرمی
اطلاعات فایل :زبان فارسی /16صفحه/حجم:336k
لینک دانلود:روی همین لینک کلیک کنید
Basic data reduction techniques are applied as a preprocessing to the initial dataset to rationalize speed of the learning process. Consequently, generalization and reduction rate are the main issues, whereas the accuracy will be tackled in the main learning phase.
Data reduction techniques can be divided into two main categories. These techniques are distinguished whether they seek to retain border points or central points. It is not the appropriate case for some learning methods. Selective removal form certain parts of state space will affect the statistical distribution of data, deceiving the distance metric used in the learning phase. In this paper a new simple heuristic method is proposed to consider this issue. The method is applied to KDD intrusion detection dataset and evaluated in comparison with major applicable reduction techniques. Simulation results show that the proposed algorithm has the best storage reduction rate and good generalization accuracy.
information file:English Persian /16 page / size :336 k
download link:click
نقد و بررسیها
هنوز بررسیای ثبت نشده است.