توضیحات
چکیده
امروزه با توجه به گسترش روزافزون اطلاعاتی که بشر با آنها سروکار دارد، بهره گیری از روش هایی نظیر داده کاوی برای استخراج دانش و اطلاعات نهفته در داده ها، امری غیرقابل اجتناب می باشد. داده کاوی علمی است که به منظور استخراج دانش جدید و مفید از میان داده های حجیم معرفی شد. از این رو همواره ورودی الگوریتم هیا داده کاوی داده های خام می باشند، اما همیشه داده ها در یک مکان ذخیره نشده اند و اغلب داده ها بین سرویس دهنده های مختلف پخش شده اند، این امر نیاز به همکاری چند سرویس دهنده برای انجام کاوش دارد که به آن داده کاوی توزیع شده گویند. تکنولوژی داده کاوی نه تنها از الگوریتم های کارآمد و موثری تشکیل شده، بلکه مانند هسته مستقلی اجرا می شود. داده کاوی با برنامه های کاربردی پیچیده در تعاملی بی اهمیت بین اجزای سخت افزاری و نرم افزاری و در محیط های توزیع شده مقیاس بزرگ اجرا می شود. این ویژگی از یک طرف، علت و تاثیر طبیعت ذاتی توزیع داده و از طرف دیگر پیچیدگی فضایی تعداد زیادی از برنامه های داده کاوی را نتیجه می دهد. با رشد بسیاری از برنامه های کاربردی، داده کاوی توزیع شده یک تکنولوژی بحرانی است. در این مقاله بعد از مرور مشکلات موجود در داده کاوی توزیع شده عملیات داده کاوی را در محیط های گرید توصیف می کنیم و طرحی از سیستم های K-Grid نشان خواهیم داد.
مقدمه
بسیاری از رویکردهای داده کاوی (DM) فرض میکنند داده از یک منبع تولید شده است. اگر بسیاری از داده ها از مکان های توزیع شده فیزیکی تولید شوند، این روش ها به مراکز داده ای نیاز دارند که داده ها را از مکان های توزیع شده گردآوری نماید. در برخی از حالات، انتقال حجم بزرگی از داده ها به مراکز داده ها گران است و گاها غیرعملی است. بنابراین، الگوریتم های داده کاوی موازی و توزیع شده برای حل این مسئله توسعه داده شده اند. در این مقاله، داده کاوی توزیع شده (DDM) را مورد بحث قرار میدهیم.
ABSTRACT
Nowadays, given the increasing spread of information that human beings are dealing with, the use of data mining techniques to extract knowledge and information in the data is unavoidable. Scientific data mining is introduced in order to extract new and useful knowledge from massive data. Therefore, the input of the data mining algorithm is always raw data, but data is not always stored in one place, and most data is distributed between different servers, which requires the collaboration of several servers to perform exploration. Referred to as distributed data mining. Data mining technology consists not only of effective and efficient algorithms, but also of an independent core. Data mining is performed with complex applications in a trivial interplay between hardware and software components and in distributed large-scale environments. This feature, on the one hand, is the cause and effect of the inherent nature of the data distribution, and on the other hand, the complexity of the space results in a large number of data mining applications. With the growth of many applications, distributed data mining is a critical technology. In this paper, after reviewing the problems in distributed data mining, we describe data mining operations in grid environments, and we present a plan for K-Grid systems.
INTRODUCTION
Many data mining approaches (DMs) assume that data is generated from a source. If many data are generated from distributed physical locations, these methods require data centers to collect data from distributed locations. In some cases, the transmission of large amounts of data to data centers is expensive and sometimes inaccessible. Therefore, parallel and distributed data mining algorithms have been developed to solve this problem. In this paper, we discuss distributed data mining (DDM).
Year: 2017
Publisher : Second National Conference on Knowledge and Technology of Engineering Sciences of Iran
By : Azadeh Pirhati
File Information: Persian Language/ 7 Page / size: 697374 KB
سال : 1396
ناشر : دومین کنفرانس ملی دانش و فناوری علوم مهندسی ایران
کاری از : آزاده پیرحیاتی
اطلاعات فایل : زبان فارسی / 7 صفحه / حجم : KB 374
نقد و بررسیها
هنوز بررسیای ثبت نشده است.