نوشته‌ها

Design and implementation of data warehouse.[taliem.ir]

Design and Implementation of Data Warehouse with Data Model using Survey-based Services Data

ABSTRACT

Various business organization or government bodies are enhancing their decision making capabilities using data warehouse. For government bodies, data warehouse provides a means by enabling policy making to be formulated much easier based on available data such as survey-based services data. In this paper we present a survey-based service data with the design and implementation of a Data Warehouse framework for data mining and business intelligence reporting. In the design of the data warehouse, we developed a  multidimensional Data Model for the creation of multiple data marts and design of an ETL process for populating the data marts from the data source. The development of multiple data marts will enable easier report generation by identifying common dimension amongst the data marts. The cross-join capabilities of the data marts through common dimensions, demonstrate the ability to easily drill across the data marts for cross data analysis and reporting. In addition, we also have incorporate data quality checking on the data source as well as data detection rules to filter out unmatched data schema and data range from being stored in the data warehouse for analysis.

 

INTRODUCTION

In order to better provide an environment for government, organisations as well as business community in planning and decision making, survey-based services data are collected from various industries to help forms policies decisions. Nevertheless, to achieve this there is a need for the implementation of a business intelligence dashboard and data mining which relies heavily on the formulation of the data warehouse and the data model for enabling such activities. In this paper we present a survey-based service analysis with the design and implementation of a Data Warehouse framework for data mining and business intelligence reporting. In the design of the data warehouse, we developed a multidimensional Data Model for the creation of multiple data marts for the data analysis. With the multiple data marts, it is easier to cater for each report needs by identifying common dimension amongst the data marts. The cross-join capabilities of the data marts through common dimensions, demonstrate the ability to easily drill across the data marts. In addition, we also designed an ETL process for data population from data source to the data warehouse.

 

چکیده

سازمان های مختلف کسب و کار و یا دولت ها توانایی تصمیم گیری خود را با استفاده از انبار داده ها می گیرند. برای سازمان های دولتی، انبار داده ها وسیله ای برای ایجاد سیاست گذاری است. در این مقاله، یک سرویس داده ای مبتنی بر نظرسنجی با طراحی و پیاده سازی یک چارچوب انبار داده برای داده کاوی و گزارش دهی اطلاعات کسب و کار ارائه می شود. در طراحی انبار داده ها، ما یک مدل داده های چند بعدی برای ایجاد بازه داده های متعدد و طراحی یک فرایند ETL برای پر بازه داده از منبع داده طراحی و توسعه. توسعه داده های چندگانه اطلاعات را با شناسایی ابعاد مشترک در میان داده ها، آسان تر می کند. قابلیت های متقابل پیوستن داده ها از طریق ابعاد مشترک. علاوه بر این، ما کنترل کیفیت داده ها و جمع آوری داده ها را در انبار داده ها پیاده سازی کرده ایم.

 

مقدمه

سازمان غیر انتفاعی و غیر انتفاعی، خدمات مبتنی بر نظرسنجی و سازمانهای اطلاعاتی. با این وجود، برای رسیدن به این نیاز به اجرای یک داشبورد اطلاعات کسب و کار و داده کاوی، که به شدت توسط انبار داده پشتیبانی می کند. در این مقاله، ما یک تحلیل سرویس مبتنی بر نظرسنجی را با طراحی و پیاده سازی یک چارچوب انبار داده برای داده کاوی و گزارش دهی اطلاعات کسب و کار. در طراحی انبار داده، ما یک مدل داده چند بعدی برای ایجاد داده های چندگانه برای تجزیه و تحلیل داده ها ایجاد کردیم. با استفاده از داده های چندگانه، آسان تر برای تهیه هر یک از نیازهای گزارش، شناسایی ابعاد مشترک در میان داده ها، آسان تر است. قابلیت اتصال متقابل از داده ها از طریق ابعاد مشترک، نشان می دهد توانایی به راحتی تمرین داده ها marts. علاوه بر این، ما همچنین یک فرآیند ETL برای جمع آوری داده ها از منابع داده ها به انبار داده ها را طراحی کردیم.

 

Year: ۲۰۱۴

Publisher: IEEE

By : Ali Dabbagh, Antonio Hernandez Conte, Lorraine Lubin

File Information: English Language/ 7 Page / size: 663 MB

Download

سال : ۱۳۹۳

ناشر : IEEE

کاری از : علی دباغ، آنتونیو هرناندز کنت، لورین لوبیین

اطلاعات فایل : زبان انگلیسی / ۷ صفحه / حجم : MB 663

لینک دانلود

 

Mining-association-rules-for-the-quality-improvement-of-the-production-process.[taliem.ir]

Mining association rules for the quality improvement of the production process

ABSTRACT

Academics and practitioners have a common interest in the continuing development of methods and computer applications that support or perform knowledge-intensive engineering tasks. Operations  management dysfunctions and lost production time are problems of enormous magnitude that impact the performance and quality of industrial systems as well as their cost of production. Association rule mining is a data mining technique used to find out useful and invaluable information from huge databases. This work develops a better conceptual base for improving the application of association rule mining methods to extract knowledge on operations and information management. The emphasis of the paper is on the improvement of the operations processes. The application example details an industrial experiment in which association rule mining is used to analyze the manufacturing process of a fully integrated provider of drilling products. The study reports some new interesting results with data mining and knowledge discovery  techniques applied to a drill production process. Experiment’s results on real-life data sets show that the proposed approach is useful in finding effective knowledge associated to dysfunctions causes.

INTRODUCTION

Engineering applications of artificial intelligence have attracted substantial consideration from industrial practitioners and researchers because of its ability to learn and comprehend facts and principles in order to acquire knowledge and apply it in practice. Continuous improvement refers to both incremental and breakthrough improvement in organizational performance (Linderman, Schroeder, Zaheer, Liedtke, & Choo, 2004). Improvement can result in such things as improved customer value, reduction of defects and errors, improved productivity, improved cycle time performance safety, and motivation (Evans & Lindsay, 2001). This often occurs through the adherence to a stepwise problem solving approach consisting of number of steps for problem contextualization, problem analysis, solution generation, and lessons learned (Kamsu- Foguem, Coudert, Geneste, & Beler, 2008). The problem-solving approach focuses on a characterization of cognitive processes in reasoning tasks and cognitive considerations deal with knowledge capitalization on certain structural and processing regularities that give strength to generalizations (Patel, Arocha, & Kaufman, 2001). Problem-solving methods play a significant role in knowledge acquisition and engineering, since their abstract knowledge level is valuable to achieve goals of tasks by applying domain knowledge with the sequential process of searching for a solution path.

چکیده

دانشگاهیان و متخصصان علاقمند به توسعه مداوم برنامه ها و برنامه های کامپیوتری هستند که از انجام وظایف مهندسی فشرده پشتیبانی می کنند. اختلالات مدیریت عملیات و زمان تولید از دست رفته مشکلات بزرگی است که بر عملکرد و کیفیت سیستم های صنعتی و نیز هزینه های تولید تاثیر می گذارد. معاونت حقوقی انجمن یک روش داده کاوی است که برای پیدا کردن اطلاعات مفید و ارزشمند از پایگاه داده های بزرگ استفاده می شود. این کار یک مبانی مفهومی بهتر برای بهبود کاربرد روش های استخراج قوانین انجمن برای استخراج دانش در عملیات و مدیریت اطلاعات را توسعه می دهد. تاکید این مقاله بر بهبود فرایندهای عملیاتی است. مثال برنامه جزئیات یک آزمایش صنعتی است که در آن انجمن استخراج معادن به منظور تجزیه و تحلیل فرآیند تولید یک تامین کننده کاملا یکپارچه از محصولات حفاری مورد استفاده قرار می گیرد. این گزارش برخی نتایج جدید جالب را با استفاده از تکنیک های داده کاوی و کشف دانش در فرایند تولید مته ارائه می دهد. نتایج آزمایش بر روی مجموعه داده های واقعی نشان می دهد که رویکرد پیشنهادی در یافتن دانش موثر مرتبط با علل ناکارآمد مفید است.

مقدمه

برنامه های کاربردی مهندسی هوش مصنوعی به دلیل توانایی آن ها در یادگیری و درک حقایق و اصول به منظور دستیابی به دانش و کاربرد آن در عمل توجه زیادی را از طرف متخصصان و محققان صنعتی به خود جلب کرده است. بهبود مستمر به بهبود پیشرفت و پیشرفت در عملکرد سازمانی اشاره دارد (Linderman، Schroeder، Zaheer، Liedtke، & Choo، ۲۰۰۴). بهبودی می تواند در چارچوب ارزش افزوده مشتری، کاهش نقص ها و اشتباهات، بهبود بهره وری، بهبود ایمنی عملکرد چرخه و انگیزه منجر شود (Evans & Lindsay، ۲۰۰۱). این اغلب از طریق پیوستن به یک رویکرد حل مسئله گام به گام شامل تعدادی از مراحل برای متصور ساختن مشکل، تجزیه و تحلیل مشکل، تولید راه حل و درسهای آموخته می شود (Kamsuf-Fogem، Coudert، Geneste، Beler، ۲۰۰۸). رویکرد حل مسئله بر ویژگی های فرآیندهای شناختی در وظایف استدلال و ملاحظات شناختی تمرکز می کند با سرمایه گذاری دانش بر برخی از قانون های ساختاری و پردازش که قدرت تعمیم ها را می دهد (پاتل، آرچا و کافمن، ۲۰۰۱). روش حل مساله نقش مهمی را در کسب دانش و مهندسی بازی می کند، زیرا سطح دانش انتزاعی آنها برای دستیابی به اهداف وظایف با استفاده از دانش دامنه با فرایند پی در پی جستجو برای یک راه حل راه حل ارزشمند است.

Year: ۲۰۱۲

Publisher: ELSEVIER

By :  Aron O’Cass , Liem Viet Ngo , Nima Heirati Bernard Kamsu-Foguem , Fabien Rigal, Félix Mauget

File Information: English Language/ 12 Page / size: 1.04 MB

Download tutorial

سال : ۱۳۹۱

ناشر : ELSEVIER

کاری از : آرون اوکاس، لیم ویتنام نگو، نیما هیرتی برنارد کامسو فوگیم، فابین رگین، فلیکس مگت

اطلاعات فایل : زبان انگلیسی / ۱۲ صفحه / حجم : MB 1.04

لینک دانلود

Amoeba-Based Knowledge Discovery[taliem.ir]

Amoeba-Based Knowledge Discovery

ABSTRACT

We propose an amoeba-based knowledge discovery or data mining system, that is implemented using an amoeboid organism and an associated control system. The amoeba system can be considered as one of the new non-traditional computing paradigms, and it can perform intriguing, massively parallel computing that  utilizes the chaotic behavior of the amoeba .Our system is a hybrid of a traditional knowledge-based unit implemented on an ordinary computer with an amoeba-based search unit and an optical control unit interface. The solutions in our system can have one-to-one mapping to solutions of other well-known areas such as neural networks and genetic algorithms. This mapping feature allows the amoeba to use and apply techniques developed in other areas. Various forms of knowledge discovery processes are introduced. Also, a new type of knowledge discovery technique, called “autonomous metaproblem solving,” is discussed.

INTRODUCTION

Knowledge discovery – the notion of computers automatically finding useful information is an exciting and promising aspect of any application intended to be of practical use . There are several closely related areas to knowledge discovery called by different names. Data mining or knowledge discovery in databases (KDD) primarily focus on extracting useful information from data, particularly from a large amount of data. Machine learning explores techniques to make the machine learn or get smarter by itself. New computing paradigms – For the past 40 years computer hardware has been dominated by  the traditional CMOS (Complementary Metal-Oxide Semiconductor) or silicon-based integrated circuits (so-called “silicon-based architecture”). Recently, computer architecture concepts based  totally new principles other than the silicon-based technology have been given much attention. These concepts include quantum, atomic (e.g., carbon  nanotube transistors), molecular (e.g., organic), DNA, optical, micro/nanofluidic and amoeba-based computing . This article proposes a knowledge discovery scheme employing an amoeba-based system, one of the new computing paradigms. A plasmodium of a true slime mold Physarum Polycephalum (Fig. 1a), a unicellular amoeboid organism with a single gel layer (cellular membrane) encapsulating intracellular sol, can be regarded as a kind of massively parallel computer whose elements are microscopic actomyosins (fibrous  proteins) taking contracting or relaxing states. Collectively interacting actomyosins in the gel layer generate rhythmic contraction-relaxation oscillation (period = 1~2 min) of vertical body thickness, and their  spatiotemporal oscillation pattern induces horizontal shuttle-streaming of intracellular sol (velocity=~1  mm/sec) to deform the macroscopic shape.

چکیده

ما پیشنهاد کشف دانش شناختی مبتنی بر آمیب یا سیستم داده کاوی را پیشنهاد می کنیم، که با استفاده از یک ارگانیسم آمیبوئید و یک سیستم کنترل مرتبط انجام می شود. سیستم آمیب می تواند به عنوان یکی از پارادایم های جدید غیر متعارف محسوب شود و می تواند محاسباتی جالب و جذاب را که از رفتار آشوب آمیب استفاده می کند، انجام دهد. سیستم ما ترکیبی از یک واحد مبتنی بر دانش مبتنی بر سنت است رایانه معمولی با یک واحد جستجوی مبتنی بر آمیب و یک رابط واحد کنترل نوری. راه حل های موجود در سیستم ما می تواند یک به یک نقشه برداری به راه حل های دیگر از مناطق شناخته شده مانند شبکه های عصبی و الگوریتم ژنتیک است. این ویژگی نقشه برداری اجازه می دهد تا آمیب به استفاده و اعمال تکنیک های توسعه یافته در مناطق دیگر. انواع مختلفی از فرآیندهای کشف دانش معرفی شده است. همچنین، نوع جدیدی از تکنیک کشف دانش، به نام «حل معادلات خودکار مستقل»، مورد بحث قرار گرفته است.

مقدمه

کشف دانش – مفهوم کامپیوتر به طور خودکار پیدا کردن اطلاعات مفید جنبه هیجان انگیز و امیدوار کننده از هر برنامه ای است که به منظور استفاده عملی است. چندین ناحیه مرتبط با کشف علم به نام نام های مختلف وجود دارد. داده کاوی یا کشف دانش در پایگاه داده ها (KDD) عمدتا بر استخراج اطلاعات مفید از داده ها، به ویژه از مقدار زیادی از داده ها تمرکز می کند. یادگیری ماشین به بررسی تکنیک هایی می پردازد که دستگاه را یاد بگیرد یا خود را دقیق تر کند. پارادایم های جدید محاسبات – برای ۴۰ سال گذشته سخت افزار کامپیوتر توسط CMOS سنتی (نیمه هادی متال-فلز اکسید) و یا مدارهای مجتمع مبتنی بر سیلیکون (به اصطلاح “معماری بر پایه سیلیکون”) غلبه کرده است. به تازگی، مفاهیم معماری کامپیوتر با اصول کاملا جدیدی متفاوت از تکنولوژی مبتنی بر سیلیکون توجه زیادی شده است. این مفاهیم شامل کوانتومی، اتمی (مانند ترانزیستورهای نانولوله کربن)، مولکولی (به عنوان مثال، آلی)، DNA، نوری، میکرو / نانوفیلئید و محاسبات مبتنی بر آمیب است. این مقاله یک طرح کشف دانش را با استفاده از یک سیستم مبتنی بر آمیب، یکی از پارادایم های جدید محاسبات پیشنهاد می کند. یک پلاسمودیوم از قالب Slime واقعی Physarum Polycephalum (شکل ۱a)، یک ارگانیسم آمیبوبایل تک سلولی با یک لایه ژل تک (غشای سلولی) که حاوی سلول داخل سلولی است، می تواند به عنوان نوعی رایانه عظیم موازی در نظر گرفته شود که عناصر آن از میکروسکوپهای Actomyosins (پروتئین های فیبرینی ) در حال گرفتن قراردادن یا آرام کردن دولت ها. به طور خلاصه، عملکمومیوسین ها در لایه ژل موجب نوسان قطبش-آرام سازی ریتمیک (دوره = ۱ ~ ۲ دقیقه) ضخامت عمودی بدن می شوند و الگوی نوسان فضایی شانه آنها موجب حرکت افقی شاتل سلول (سرعت = ۱ میلی متر در ثانیه) به تغییر شکل شکل ماکروسکوپی است.

Year: ۲۰۱۷

Publisher : IEEE

By :  Toshinori Munakata , Masashi Aono , Masahiko Hara

File Information: English Language/ 10 Page / size: 1.20 MB

Download

سال : ۱۳۹۶

ناشر : IEEE

کاری از : Toshinori Munakata، Masashi Aono، Masahiko Hara

اطلاعات فایل : زبان انگلیسی / ۱۰ صفحه / حجم : MB 1.20

لینک دانلود

Knowledge management vs. data mining Research trend, forecast and[taliem.ir]

Knowledge management vs. data mining: Research trend, forecast and citation approach

ABSTRACT

Knowledge management (KM) and data mining (DM) have become more important today, however, there are few comprehensive researches and categorization schemes to discuss the characteristics for both of them. Using a bibliometric approach, this paper analyzes KM and DM research trends, forecasts and citations from 1989 to 2009 by locating headings ‘‘knowledge management’’ and ‘‘data mining’’ in topics in the SSCI database. The bibliometric analytical technique was used to examine these two topics in SSCI journals from 1989 to 2009, we found 1393 articles with KM and 1181 articles with DM. This paper implemented and classified KM and DM articles using the following eight categories—publication year, citation, country/territory, document type, institute name, language, source title and subject area— for different distribution status in order to explore the differences and how KM and DM technologies have developed in this period and to analyze KM and DM technology tendencies under the above result. Also, the paper performs the K–S test to check whether the distribution of author article production follows Lotka’s law. The research findings can be extended to investigate author productivity by analyzing variables such as chronological and academic age, number and frequency of previous publications, access to research grants, job status, etc. In such a way characteristics of high, medium and low publishing activity of authors can be identified. Besides, these findings will also help to judge scientific research trends and understand the scale of development of research in KM and DM through comparing the increases of the article author. 

INTRODUCTION

Knowledge management (KM) does not carry its name accidentally because management normally means that ‘something’ has to be managed (Wiig, Hoog, & Spex, 1997). Since Polanyi’s discussion of the distinction between explicit and tacit knowledge (Polanyi, 1966), researchers were developed a set of management definitions, concepts, activities, stages, circulations, and procedures, all directed towards dealing with objects in order to describe the framework of KM as the KM methodology. Different KM working definitions, paradigms, frameworks, concepts, objects, propositions, perspectives, measurements, impacts, have been described for investigating the question of: What is KM? What are its methods and techniques? What is its value? And what are its functions  for supporting individual and organizations in managing their knowledge .

چکیده

مدیریت دانش (KM) و داده کاوی (DM) امروزه مهمتر شده است؛ با این حال، چندین تحقیق جامع و طرحهای طبقه بندی برای بحث در مورد ویژگی های هر دو آنها وجود دارد. با استفاده از رویکرد کتابشناختی، در این مقاله، تحولات تحقیقاتی KM و DM، پیش بینی ها و استنادها از سال ۱۹۸۹ تا ۲۰۰۹ با قرار دادن «مدیریت دانش» و «داده کاوی» در موضوعات در پایگاه داده SSCI تحلیل می شود. روش تحلیلی کتابشناختی برای بررسی این دو موضوع در مجلات SSCI از سال ۱۹۸۹ تا ۲۰۰۹ استفاده شده است، ما ۱۳۹۳ مقالات با KM و ۱۱۸۱ مقاله با DM را پیدا کردیم. این مقاله مقالات و مقالات KM و DM را با استفاده از هشت طبقه بندی سال انتشار، استناد، کشور / قلمرو، نوع سند، نام موسسه، زبان، عنوان منبع و حوزه موضوعی برای وضعیت توزیع مختلف به منظور بررسی تفاوت ها و نحوه استفاده فن آوری های KM و DM در این دوره توسعه یافته و به منظور تجزیه و تحلیل گرایش های KM و DM تحت نتیجه فوق. همچنین، مقاله انجام آزمون K-S برای بررسی اینکه آیا توزیع تولید مقاله نویسنده مطابق قانون لاکتا انجام می شود. یافته های تحقیق می تواند برای بررسی میزان بهره وری نویسنده با تجزیه و تحلیل متغیرهایی از قبیل سن و تاریخ علمی، تعداد و فراوانی نشریات قبلی، دسترسی به کمک های پژوهشی، وضعیت شغل و غیره، گسترش یابد. به همین ترتیب، ویژگی های فعالیت های چاپی بالا، متوسط ​​و کم از نویسندگان می توان شناسایی کرد. علاوه بر این، این یافته ها نیز کمک می کند تا روند تحقیقات علمی را محقق سازد و مقیاس توسعه تحقیقات در KM و DM را از طریق مقایسه مقادیر نویسنده مقاله درک کند.

مقدمه

مدیریت دانش (KM) نام خود را به طور تصادفی از بین نمی برد زیرا مدیریت معمولا به این معنی است که “چیزی” باید مدیریت شود (Wiig، Hoog، & Spex، ۱۹۹۷). از آنجا که بحث Polanyi در مورد تمایز بین دانش صریح و ضمنی (Polanyi، ۱۹۶۶)، محققان مجموعه ای از تعاریف، مفاهیم، فعالیت ها، مراحل، توالی ها و رویه های مدیریت را توسعه دادند، همه آنها به منظور برخورد با اشیا به منظور توصیف چارچوب KM به عنوان روش KM. تعاریف، پارادایمها، چارچوبها، مفاهیم، اشیاء، گزارهها، دیدگاهها، اندازهگیریها، تأثیرات، تعاریف مختلفی برای تحقیق در مورد این مسئله شرح داده شده است: KM چیست؟ روش ها و تکنیک های آن چیست؟ ارزش آن چیست؟ وظایف آن برای حمایت از فرد و سازمان ها در مدیریت دانش آنهاست.

Year: 2013

Publisher : ELSEVIER

By : Hsu-Hao Tsai

File Information: English Language/ 14 Page / size: 1.11 KB

Download

سال : ۱۳۹۲

ناشر : ELSEVIER

کاری از : هسو هئو تسای

اطلاعات فایل : زبان انگلیسی / ۱۴ صفحه / حجم : KB 1.11

لینک دانلود

Four Decades of Data Mining in Network and[taliem.ir]

Four Decades of Data Mining in Network and Systems Management

ABSTRACT

How has the interdisciplinary data mining field been practiced in Network and Systems Management (NSM)?  In Science and Technology, there is a wide use of data mining in areas like bioinformatics, genetics, Web and more recently astroinformatics. However, the application in NSM has been limited and inconsiderable. In this  article, we provide an account of how data mining has been applied in managing networks and systems for the past four decades, presumably since its birth. We look into the field’s applications in the key NSM activities – discovery, monitoring, analysis, reporting and domain knowledge acquisition. In the end, we discuss our perspective on the issues that are considered critical for the effective application of data mining in the modern systems which are characterized by heterogeneity and high dynamism  .

INTRODUCTION

DATA mining involves methods at the intersection of artificial intelligence, machine learning, pattern ATA  mining involves methods at the intersection recognition and statistics, to mention a few. The field aims at extracting interesting information (patterns) from datasets and transform that information into  understandable  structures for further use. The very nature of this aim makes data mining process a  multifaceted problem with components like data preprocessing, retention, information and pattern modeling, interestingness metrics, algorithmic complexity, visualization etc. Clearly, outside a domainspecific context, there can only be a generic and inexplicable discussion about data mining. This explains the sprawl of domain-specific mining research platforms – bioinformatics, financial analysis, telecommunications , genetics ,  astroinformatics etc. Astroinformatics  is one of the most recent introductions in data mining. As this paper title suggests, we focus on the context of Network and Systems Management (NSM). We will use the words “management” and “monitoring” interchangeably. The discussion presented by this paper covers selected papers which reflect specific areas where mining has been applied. The application areas are those within the scope of NSM activities  (discovery, monitoring, analysis, reporting and domain knowledge) as translated from the FCAPS (Fault, Configuration, Accounting, Performance, Security) ISO standard. The discussion also includes the authors’ perspective on issues which either need improvements or they are bottlenecks to the effective use of data mining in NSM.

چکیده

چگونه میدان های بین رشته ای داده کاوی در مدیریت شبکه و سیستم ها (NSM) مورد استفاده قرار گرفته است؟ در علم و فناوری، استفاده گسترده از داده کاوی در زمینه هایی مانند بیوانفورماتیک، ژنتیک، وب و اخیرا astroinformatics وجود دارد. با این حال، برنامه در NSM محدود و غیر قابل اندازه گیری است. در این مقاله، ما ارائه می دهیم که چگونه داده کاوی در مدیریت شبکه ها و سیستم ها برای چهار دهه گذشته، احتمالا از زمان تولد آن استفاده شده است. ما به برنامه های کاربردی در زمینه فعالیت های کلیدی NSM – کشف، نظارت، تجزیه و تحلیل، گزارش و کسب دانش دامنه نگاه می کنیم. در نهایت، ما دیدگاه خود را در مورد مسائلی که برای کاربرد موثر داده کاوی در سیستم های مدرن مورد توجه قرار گرفته اند، که از نظر ناهمگنی و پویایی بالا مشخص می شود، مورد بحث قرار می دهیم.

مقدمه

معدن DATA شامل روش هایی است که در تقاطع هوش مصنوعی، یادگیری ماشین، الگو برداری از معدن ATA شامل روش های شناخت تقاطع و آمار است، به چند مورد اشاره می شود. هدف این زمینه استخراج اطلاعات جالب (الگوهای) از مجموعه داده ها و تبدیل آن اطلاعات به ساختار قابل درک برای استفاده بیشتر است. ماهیت این هدف، پردازش داده کاوی یک مشکل چند بعده با اجزای مانند پیش پردازش داده ها، ذخیره سازی، مدل سازی اطلاعات و الگو، معیارهای جالب، پیچیدگی الگوریتمی، تجسم و غیره است. واضح است که خارج از یک زمینه خاص، تنها می تواند یک عمومی و غیر قابل توضیح باشد بحث در مورد داده کاوی. این توضیح می دهد که پراکندگی پلت فرم های تحقیقاتی خاص معادن – بیوانفورماتیک، تجزیه و تحلیل مالی، ارتباطات راه دور، ژنتیک، astroinformatics و غیره Astroinformatics یکی از تازه ترین معرفی در داده کاوی است. همانطور که این عنوان مقاله نشان می دهد، ما در زمینه مدیریت شبکه و سیستم ها (NSM) تمرکز می کنیم. ما از کلمات “مدیریت” و “نظارت” استفاده می کنیم. بحث ارائه شده توسط این مقاله مقاله های انتخاب شده را پوشش می دهد که منعکس کننده مناطق خاصی است که در آن استخراج معادن استفاده شده است. مناطق کاربردی آنهایی هستند که در حوزه فعالیت NSM (کشف، نظارت، تجزیه و تحلیل، گزارش و دانش دامنه) به عنوان استاندارد ISO از استاندارد FCAPS (گسل، پیکربندی، حسابداری، عملکرد، امنیت) ترجمه شده است. این بحث همچنین شامل دیدگاه نویسندگان در مورد مسائلی است که نیاز به بهبود دارند و یا محدودیت هایی برای استفاده مؤثر از داده کاوی در NSM هستند.

Year: ۲۰۱۵

Publisher : IEEE

By :  Khamisi Kalegele, Kazuto Sasai, , Hideyuki Takahashi, Gen Kitagata, Tetsuo Kinoshita

File Information: English Language/ 18 Page / size: 1.49 KB

Download

سال : ۱۳۹۴

ناشر : IEEE

کاری از : Khamisi Kalegele، Kazuto ساسای، Hideyuki Takahashi، ژن Kitagata، Tetsuo Kinoshita

اطلاعات فایل : زبان انگلیسی / ۱۸ صفحه / حجم : KB 1.49

لینک دانلود

Database Preprocessing and Comparison between Data Mining[taliem.ir]

Database Preprocessing and Comparison between Data Mining Methods

ABSTRACT

Database preprocessing is very important to utilize memory usage, compression is one of the preprocessing needed to reduce the memory required to store and load data for processing, the method of compression introduced in this paper was tested, by using proposed examples to show the effect of repetition in database, as well as the size of database, the results showed that as the repetition increased the compression ratio will be increased. The compression is one of the important activities for data preprocessing before implementing data mining. Data mining methods such as Na¨ıve Bayes, Nearest Neighbor and Decision Tree are tested.  The implementation of the three methods showed that Na¨ıve Bayes method is effectively used when the data attributes are categorized, and it can be used successfully in machine learning. The Nearest Neighbor is most suitable when the data attributes are continuous or categorized. The third method tested is the Decision Tree, it is a simple predictive method implemented by using simple rule methods in data classification. The success of data mining implementation depends on the completeness of database, that represented by data warehouse, that must be organized by using the important characteristics of data warehouse.

INTRODUCTION

The extraction of useful and non-trivial information from the huge amount of data that is possible to collect in many and diverse fields of science, business and engineering, is called Data Mining (DM). DM is part of a  bigger framework, referred to as Knowledge Discovery in Databases (KDD); this covers a complex process, from data preparation to knowledge modeling. Data compression is one of the preparations methods which are needed to compress the huge amount of database. Data mining is a process that is used to identify  hider, unexpected pattern or relationships in large quantities of data. Historically, the notion of finding useful patterns in data has been given a variety of names, including data mining, knowledge extraction, information discovery, information harvesting, data archaeology, and data pattern processing. The term data mining has mostly been used by statisticians, data analysts and the Management Information Systems (MIS) communities. The phrase knowledge discovery in databases was coined at the first KDD to emphasize that knowledge is the end product of a data-driven discovery.

چکیده

پیش پردازش پایگاه داده برای استفاده از حافظه بسیار مهم است؛ فشرده سازی یکی از پیش پردازش های مورد نیاز برای کاهش حافظه مورد نیاز برای ذخیره و بارگذاری داده ها برای پردازش است؛ روش فشرده سازی معرفی شده در این مقاله با استفاده از نمونه های پیشنهادی برای نشان دادن اثر تکرار در پایگاه داده، و همچنین اندازه پایگاه داده، نتایج نشان داد که به عنوان تکرار افزایش نسبت فشرده سازی افزایش خواهد یافت. فشرده سازی یکی از فعالیت های مهم برای پیش پردازش داده ها قبل از اجرای داده کاوی است. روش های داده کاوی مانند Bayes Na¨ive، نزدیک ترین محله و درخت تصمیم گیری آزمایش می شوند. پیاده سازی این سه روش نشان داد که وقتی روش های داده ها طبقه بندی می شوند، روش بیهوش کردن Na¨ıve Bayes به طور موثری مورد استفاده قرار می گیرد و می تواند با موفقیت در یادگیری ماشین مورد استفاده قرار گیرد. نزدیک ترین همسایه مناسب تر است اگر ویژگی های داده پیوسته یا طبقه بندی شوند. روش سوم آزمایش شده است درخت تصمیم، این یک روش پیش بینی ساده است که با استفاده از روش های ساده ی قانون در طبقه بندی داده ها اجرا می شود. موفقیت پیاده سازی داده کاوی بستگی به کامل بودن پایگاه داده، که توسط انبار داده نشان داده می شود، باید با استفاده از ویژگی های مهم انبار داده ها سازماندهی شود.

مقدمه

داده کاوی (DM) نامیده می شود استخراج اطلاعات مفید و غیرمترقبه از مقدار زیادی از اطلاعات که ممکن است برای جمع آوری در بسیاری از زمینه های مختلف علم، تجارت و مهندسی باشد. DM بخشی از یک چارچوب بزرگتر است که به عنوان Discovery Knowledge در پایگاههای داده (KDD) شناخته می شود؛ این فرآیند پیچیده را شامل می شود از تهیه داده ها تا مدل سازی دانش. فشرده سازی داده ها یکی از روش های آماده سازی است که برای فشرده سازی مقدار زیادی از پایگاه داده مورد نیاز است. داده کاوی یک فرایند است که برای شناسایی الگو، غیرمنتظره و ارتباطات در مقادیر زیادی از داده ها استفاده می شود. از لحاظ تاریخی، مفهوم یافتن الگوهای مفید در داده ها نام های مختلفی از جمله داده کاوی، استخراج دانش، کشف اطلاعات، برداشت اطلاعات، باستان شناسی داده ها و پردازش الگوی داده شده است. اصطلاح داده کاوی بیشتر توسط آمارگیران، تحلیلگران داده ها و جوامع اطلاعاتی مدیریت اطلاعات (MIS) مورد استفاده قرار می گیرد. کشف علم دانش در پایگاه داده ها در اولین KDD شکل گرفت تا تأکید کند که دانش محصول نهایی یک کشف داده محور است.

Year: ۲۰۱۷

Publisher : IEEE

By : Yas A. Alsultanny

File Information: English Language/ 13 Page / size: 271 KB

Download

سال : ۱۳۹۶

ناشر : IEEE

کاری از : یاس A. آلستولنی

اطلاعات فایل : زبان انگلیسی / ۱۳صفحه / حجم : KB 271

لینک دانلود

Using Data Mining to[taliem.ir]

Using Data Mining to Detect Insurance Fraud

ABSTRACT

 Insurance companies lose millions of dollars each year through fraudulent claims, largely because they do not have a way to easily determine which claims are legitimate and which may be fraudulent. To ensure that  adjusters target claims which have the greatest likelihood of adjustment, many insurance companies have incorporated IBM SPSS data mining into their investigating and auditing processes. This report describes how data mining techniques can enable you to improve accuracy and save time, money and resources.

INTRODUCTION

Every organization that exchanges money with customers, service providers or vendors risks exposure to fraud and abuse. Insurance companies around the world lose more and more money through fraudulent claims each year. They need to recoup this lost money so they can continue providing superior services for their customers. IBM SPSS data mining tools are based on industry standards allowing agencies to combine IBM SPSS data mining with existing fraud detection and prevention efforts to improve accuracy, decrease manpower and minimize loss. The combined effort of IBM brings you the utmost in flexibility in the kinds of data you mine and how you deploy results. To ensure adjusters target claims which have the greatest  likelihood of adjustment, many insurance companies have incorporated data mining into their investigating and auditing processes. Data mining combines powerful analytical techniques with your frsthand business  knowledge to turn data you’ve already acquired into the insight you need to identify probable instances of fraud and abuse. SPSS was one of the pioneers in the feld of data analysis; it was frst on the scene and  continues to be one of the most popular and widely used software applications. As a new member of the IBM organization, SPSS brings its leading-edge analytic tools to a broader number of customers worldwide.  IBM SPSS offerings include industry-leading products for data collection, statistics and data mining, with a unifying platform supporting the secure management and deployment of analytical assets.

چکیده

شرکت های بیمه هر ساله از طریق ادعاهای جعلی تقلب میلیون ها دلار را از دست می دهند، به طوری که آنها به راحتی نمی توانند تصمیم بگیرند که کدام ادعا قانونی است و ممکن است جعلی باشد. برای اطمینان از این که تنظیم کننده ها ادعا می کنند که بیشترین احتمال ادغام را دارند، بسیاری از شرکت های بیمه، داده های معیاری IBM SPSS را به پروسه های تحقیق و حسابرسی خود اضافه کرده اند. این گزارش نحوه استفاده از تکنیک های داده کاوی را برای بهبود دقت و صرفه جویی در وقت، پول و منابع می دهد.

مقدمه

هر سازمانی که پول را با مشتریان، ارائه دهندگان خدمات یا فروشندگان مبادله می کند، خطر ابتلا به تقلب و سوء استفاده را دارد. شرکت های بیمه در سراسر جهان از طریق تقاضای تقلب در هر سال، پول بیشتری و پول بیشتری دریافت می کنند. آنها باید این پول از دست رفته را جبران کنند تا بتوانند خدمات برتر را برای مشتریان خود ادامه دهند. ابزار استخراج داده های IBM SPSS بر اساس استانداردهای صنعتی است که می تواند آژانس ها را به ترکیب داده های استخراج اطلاعات IBM SPSS با تلاش های پیشگیری و تشخیص تقلب در جهت بهبود دقت، کاهش نیروی انسانی و کاهش تلفات کمک کند. تلاش ترکیبی IBM به شما کمک می کند تا حداکثر قابلیت اطمینان در نوع داده ای که شما می شناسید و نحوه یابی نتایج آن را به دست آورید. برای اطمینان از تنظیم کنندگان ادعاهایی که بیشترین احتمال تنظیم را دارند، بسیاری از شرکت های بیمه، داده های معیاری را در پروسه های تحقیق و حسابرسی خود وارد کرده اند. داده کاوی ترکیبی از تکنیک های تحلیلی قدرتمند با دانش کسب و کار شما برای تبدیل اطلاعاتی است که قبلا به بینش شما نیاز دارید تا موارد احتمالی تقلب و سوء استفاده را شناسایی کنید. SPSS یکی از پیشگامان در زمینه تجزیه و تحلیل داده ها بود. در صحنه قرار داشت و همچنان یکی از محبوب ترین و کاربردی ترین برنامه های کاربردی نرم افزاری است. SPSS به عنوان یک عضو جدید از سازمان آی بی ام، ابزار پیشگام تحلیلی خود را به تعداد بیشتری از مشتریان در سراسر جهان ارائه می دهد. پیشنهادات IBM SPSS شامل محصولات پیشرو صنعت برای جمع آوری داده ها، آمار و داده کاوی، با یک پلت فرم متحد پشتیبانی از مدیریت امن و استقرار دارایی های تحلیلی است.

Year: ۲۰۱۷

Publisher : IBM

By :  BIMAL KUMAR PANIGRAHI and SURENDRA KUMAR JAIN

File Information: English Language/ 8 Page / size: 130 KB

Download

سال : ۱۳۹۶

ناشر : IBM

کاری از :

اطلاعات فایل : زبان انگلیسی / ۸ صفحه / حجم : KB 130

لینک دانلود

A hybrid evolutionary algorithm for attribute selection in data mining[taliem.ir]

A hybrid evolutionary algorithm for attribute selection in data mining

ABSTRACT

Real life data sets are often interspersed with noise, making the subsequent data mining process difficult. The task of the classifier could be simplified by eliminating attributes that are deemed to be redundant for classification, as the retention of only pertinent attributes would reduce the size of the dataset and subsequently allow more comprehensible analysis of the extracted patterns or rules. In this article, a new hybrid approach comprising of two conventional machine learning algorithms has been proposed to carry out attribute selection. Genetic algorithms (GAs) and support vector machines (SVMs) are integrated  effectively based on a wrapper approach. Specifically, the GA component searches for the best attribute set by applying the principles of an evolutionary process. The SVM then classifies the patterns in the reduced datasets, corresponding to the attribute subsets represented by the GA chromosomes. The proposed GA- SVM hybrid is subsequently validated using datasets obtained from the UCI machine learning repository.  Simulation results demonstrate that the GA-SVM hybrid produces good classification accuracy and a higher level of consistency that is comparable to other established algorithms. In addition, improvements are made to the hybrid by using a correlation measure between attributes as a fitness measure to replace the weaker members in the population with newly formed chromosomes. This injects greater diversity and increases the overall fitness of the population. Similarly, the improved mechanism is also validated on the same data sets used in the first stage. The results justify the improvements in the classification accuracy and demonstrate its potential to be a good classifier for future data mining purposes.

INTRODUCTION

In today’s context, data mining has developed into an important application due to the abundance of data and the imperative to extract useful information from raw data. Many useful data patterns can be selected out, which helps predict outcomes of unprecedented scenarios. The knowledge gained from data mining can also be subsequently used for different applications ranging from business management to medical diagnosis. Decision makers can hence make a more accurate assessment of situations based on this attained  knowledge. Support vector machines (SVMs) have recently gained recognition as a powerful data mining technique to tackle the problem of knowledge extraction (Burges Christopher, 1998). SVMs use kernel  functions to transform input features from lower to higher dimensions. Many practical applications exploit the efficiency and accuracy of SVMs, such as intrusion detection (Mukkamala, Janoski, & Sung, 2002) and  bioinformatics where the input features are of very high dimensions.

چکیده

مجموعه داده های واقعی زندگی اغلب با سر و صدا ظاهر می شود، و فرآیند پردازش داده ها پس از آن دشوار است. وظیفه طبقه بندی می تواند با حذف ویژگی هایی که برای طبقه بندی بیش از حد مورد توجه قرار می گیرد، ساده می شود، زیرا حفظ تنها ویژگی های مرتبط، اندازه مجموعه داده را کاهش می دهد و پس از آن امکان تجزیه و تحلیل قابل درک بیشتر از الگوهای یا قوانین استخراج را فراهم می کند. در این مقاله، یک روش ترکیبی جدید شامل دو الگوریتم یادگیری ماشین متداول برای انجام ویژگی انتخاب ارائه شده است. الگوریتم های ژنتیکی (GAs) و ماشین های بردار پشتیبانی (SVM ها) به صورت مؤثر بر مبنای رویکرد بسته بندی می شوند. به طور خاص، کامپوننت GA برای بهترین مشخصه ای که با استفاده از اصول یک فرایند تکاملی تعیین می شود، جستجو می کند. SVM سپس الگوها را در مجموعه داده های کاهش یافته طبقه بندی می کند، که مربوط به زیر مجموعه های ویژگی های نشان داده شده توسط کروموزوم های GA می باشد. ترکیبی پیشنهاد شده GA-SVM پس از آن با استفاده از مجموعه داده های به دست آمده از مخزن یادگیری ماشین UCI تأیید می شود. نتایج شبیه سازی نشان می دهد که ترکیبی GA-SVM دقت طبقه بندی خوب و سطح بالاتر سازگاری را می دهد که قابل مقایسه با سایر الگوریتم های ایجاد شده است. علاوه بر این، با استفاده از یک معیار همبستگی بین صفات به عنوان اندازه گیری تناسب اندام برای جایگزینی اعضای ضعیف در جمعیت با کروموزوم های تازه شکل گرفته، به ترکیبی تبدیل می شود. این باعث تنوع بیشتری می شود و تناسب کلی جمعیت را افزایش می دهد. به طور مشابه، مکانیزم بهبود یافته نیز بر روی مجموعه داده های مشابه در مرحله اول تأیید شده است. نتایج بهبود پیشرفت در دقت طبقه بندی را توجیه می کنند و توان بالقوه خود را برای طبقه بندی مناسب برای اهداف داده های آینده نشان می دهد.

مقدمه

در زمینه امروز، داده کاوی به دلیل فراوانی داده ها و ضرورت استخراج اطلاعات مفید از داده های خام به یک برنامه مهم تبدیل شده است. بسیاری از الگوهای اطلاعات مفید می توانند انتخاب شوند، که به پیش بینی نتایج سناریوهای بی سابقه کمک می کند. دانش مورد استفاده در استخراج داده ها همچنین می تواند برای برنامه های کاربردی مختلف از جمله مدیریت کسب و کار تا تشخیص پزشکی استفاده شود. از این رو تصمیم گیرندگان می توانند ارزیابی دقیق تر از شرایط مبتنی بر این دانش به دست آورد. ماشین های بردار پشتیبانی (SVM ها) اخیرا به عنوان یک روش قدرتمند داده کاوی برای مقابله با مشکل استخراج دانش به رسمیت شناخته شده اند (Burges Christopher، ۱۹۹۸). SVM ها از توابع هسته برای تبدیل ویژگی های ورودی از ابعاد پایین تر به بالاتر استفاده می کنند. بسیاری از کاربردهای عملی بهره وری از کارایی و دقت SVM ها، از جمله تشخیص نفوذ (Mukkamala، Janoski، & Sung، ۲۰۰۲) و بیوانفورماتیک که ویژگی های ورودی از ابعاد بسیار بالایی است، بهره می برند.

Year: ۲۰۰۹

Publisher : ELSEVIER

By :  K.C. Tan , E.J. Teoh , Q. Yu , K.C. Goh

File Information: English Language/ 15 Page / size: 568 KB

Download

سال : ۱۳۸۸

ناشر : ELSEVIER

کاری از : K.C. قهوهای مایل به زرد، E.J. Teoh، Q. Yu، K.C. گوه

اطلاعات فایل : زبان انگلیسی / ۱۵ صفحه / حجم : KB 568

لینک دانلود

Four Decades of Data Mining in Network and[taliem.ir]

Four Decades of Data Mining in Network and Systems Management

ABSTRACT

How has the interdisciplinary data mining field been practiced in Network and Systems Management (NSM)? In Science and Technology, there is a wide use of data mining in areas like bioinformatics, genetics, Web and more recently astroinformatics. However, the application in NSM has been limited and inconsiderable. In this article, we provide an account of how data mining has been applied in managing networks and systems for the past four decades, presumably since its birth. We look into the field’s applications in the key NSM activities – discovery, monitoring, analysis, reporting and domain knowledge acquisition. In the end, we discuss our perspective on the issues that are considered critical for the effective application of data mining in the modern systems which are characterized by heterogeneity and high dynamism.

INTRODUCTION

DATA mining involves methods at the intersection of artificial intelligence, machine learning, pattern recognition and statistics, to mention a few. The field aims at extracting interesting information (patterns) from datasets and transform that information into understandable structures for further use . The very nature of this aim makes data mining process a multifaceted problem with components like data  preprocessing, retention, information and pattern modeling, interestingness metrics, algorithmic complexity, visualization etc. Clearly, outside a domainspecific context, there can only be a generic and inexplicable  discussion about data mining. This explains the sprawl of domain-specific mining research platforms bioinformatics, financial analysis, telecommunications , genetics , astroinformatics  etc. Astroinformatics  is one of the most recent introductions in data mining. As this paper title suggests, we focus on the context of Network and Systems Management (NSM). We will use the words “management” and “monitoring” interchangeably. The discussion presented by this paper covers selected papers which reflect specific areas where mining has been applied. The application areas are those within the scope of NSM activities  (discovery, monitoring, analysis, reporting and domain knowledge) as translated from the FCAPS (Fault, Configuration, Accounting, Performance, Security) ISO standard. The discussion also includes the authors’ perspective on issues which either need improvements or they are bottlenecks to the effective use of data mining in NSM.

چکیده

چگونه میدان های بین رشته ای داده کاوی در مدیریت شبکه و سیستم ها (NSM) مورد استفاده قرار گرفته است؟ در علم و فناوری، استفاده گسترده از داده کاوی در زمینه هایی مانند بیوانفورماتیک، ژنتیک، وب و اخیرا astroinformatics وجود دارد. با این حال، برنامه در NSM محدود و غیر قابل اندازه گیری است. در این مقاله، ما ارائه می دهیم که چگونه داده کاوی در مدیریت شبکه ها و سیستم ها برای چهار دهه گذشته، احتمالا از زمان تولد آن استفاده شده است. ما به برنامه های کاربردی در زمینه فعالیت های کلیدی NSM – کشف، نظارت، تجزیه و تحلیل، گزارش و کسب دانش دامنه نگاه می کنیم. در نهایت، ما دیدگاه خود را در مورد مسائلی که برای کاربرد موثر داده کاوی در سیستم های مدرن مورد توجه قرار گرفته اند، که از نظر ناهمگنی و پویایی بالا مشخص می شود، مورد بحث قرار می دهیم.

مقدمه

معدن DATA شامل روش هایی است که در تقاطع هوش مصنوعی، یادگیری ماشین، تشخیص الگو و آمار، به چندین اشاره می شود. هدف این زمینه استخراج اطلاعات جالب (الگوهای) از مجموعه داده ها و تبدیل آن اطلاعات به ساختار قابل درک برای استفاده بیشتر است. ماهیت این هدف، پردازش داده کاوی یک مشکل چند بعده با اجزای مانند پیش پردازش داده ها، ذخیره سازی، مدل سازی اطلاعات و الگو، معیارهای جالب، پیچیدگی الگوریتمی، تجسم و غیره است. واضح است که خارج از یک زمینه خاص، تنها می تواند یک عمومی و غیر قابل توضیح باشد بحث در مورد داده کاوی. این توضیح می دهد که پراکندگی پلت فرم های تحقیقاتی خاص معادن – بیوانفورماتیک، تجزیه و تحلیل مالی، مخابرات، ژنتیک، astroinformatics و غیره Astroinformatics یکی از جدیدترین معرفی در داده کاوی است. همانطور که این عنوان مقاله نشان می دهد، ما در زمینه مدیریت شبکه و سیستم ها (NSM) تمرکز می کنیم. ما کلمات “مدیریت” و “نظارت” را به صورت تعویض استفاده خواهیم کرد. بحث ارائه شده توسط این مقاله مقاله های انتخاب شده را پوشش می دهد که منعکس کننده مناطق خاصی است که در آن استخراج معادن استفاده شده است. مناطق کاربردی آنهایی هستند که در حوزه فعالیت NSM (کشف، نظارت، تجزیه و تحلیل، گزارش و دانش دامنه) به عنوان استاندارد ISO از استاندارد FCAPS (گسل، پیکربندی، حسابداری، عملکرد، امنیت) ترجمه شده است. این بحث همچنین شامل دیدگاه نویسندگان در مورد مسائلی است که نیاز به بهبود دارند و یا محدودیت هایی برای استفاده مؤثر از داده کاوی در NSM هستند.

Year: ۲۰۱۵

Publisher : IEEE

By : Khamisi Kalegele, Kazuto Sasai, Hideyuki Takahashi, Gen Kitagata, Tetsuo Kinoshita

File Information: Persian Language/ 18 Page / size: 1.49 KB

Download

سال : ۱۳۹۴

ناشر : IEEE

کاری از : خمینی کالجل، کاظوتو ساسو، هیدیوکی تاکاهاشی، ژن کییتاگاتا، تتوسو کینوشیتا

اطلاعات فایل : زبان فارسی / ۱۸ صفحه / حجم : KB 1.49

لینک دانلود

Four Decades of Data Mining in Network and[taliem.ir]

Four Decades of Data Mining in Network and Systems Management

ABSTRACT

How has the interdisciplinary data mining field been practiced in Network and Systems Management (NSM)? In Science and Technology, there is a wide use of data mining in areas like bioinformatics, genetics, Web and more recently astroinformatics. However, the application in NSM has been limited and inconsiderable. In this article, we provide an account of how data mining has been applied in managing networks and systems for the past four decades, presumably since its birth. We look into the field’s applications in the key NSM activities – discovery, monitoring, analysis, reporting and domain knowledge acquisition. In the end, we discuss our perspective on the issues that are considered critical for the effective application of data mining in the modern systems which are characterized by heterogeneity and high dynamism.

INTRODUCTION

DATA mining involves methods at the intersection of artificial intelligence, machine learning, pattern recognition and statistics, to mention a few. The field aims at extracting interesting information (patterns) from datasets and transform that information into understandable structures for further use . The very  nature of this aim makes data mining process a multifaceted problem with components like data  preprocessing, retention, information and pattern modeling, interestingness metrics, algorithmic complexity, visualization etc. Clearly, outside a domainspecific context, there can only be a generic and inexplicable  discussion about data mining. This explains the sprawl of domain-specific mining research platforms bioinformatics, financial analysis, telecommunications , genetics , astroinformatics etc. Astroinformatics  is one of the most recent introductions in data mining. As this paper title suggests, we focus on the context of Network and Systems Management (NSM). We will use the words “management” and “monitoring”  interchangeably. The discussion presented by this paper covers selected papers which reflect specific areas where mining has been applied. The application areas are those within the scope of NSM activities  (discovery, monitoring, analysis, reporting and domain knowledge) as translated from the FCAPS (Fault, Configuration, Accounting, Performance, Security) ISO standard. The discussion also includes the authors’ perspective on issues which either need improvements or they are bottlenecks to the effective use of data mining in NSM.

چکیده

چگونه میدان های بین رشته ای داده کاوی در مدیریت شبکه و سیستم ها (NSM) مورد استفاده قرار گرفته است؟ در علم و فناوری، استفاده گسترده از داده کاوی در زمینه هایی مانند بیوانفورماتیک، ژنتیک، وب و اخیرا astroinformatics وجود دارد. با این حال، برنامه در NSM محدود و غیر قابل اندازه گیری است. در این مقاله، ما ارائه می دهیم که چگونه داده کاوی در مدیریت شبکه ها و سیستم ها برای چهار دهه گذشته، احتمالا از زمان تولد آن استفاده شده است. ما به برنامه های کاربردی در زمینه فعالیت های کلیدی NSM – کشف، نظارت، تجزیه و تحلیل، گزارش و کسب دانش دامنه نگاه می کنیم. در نهایت، ما دیدگاه خود را در مورد مسائلی که برای کاربرد موثر داده کاوی در سیستم های مدرن مورد توجه قرار گرفته اند، که از نظر ناهمگنی و پویایی بالا مشخص می شود، مورد بحث قرار می دهیم.

مقدمه

معدن DATA شامل روش هایی است که در تقاطع هوش مصنوعی، یادگیری ماشین، تشخیص الگو و آمار، به چندین اشاره می شود. هدف این زمینه استخراج اطلاعات جالب (الگوهای) از مجموعه داده ها و تبدیل آن اطلاعات به ساختار قابل درک برای استفاده بیشتر است. ماهیت این هدف، پردازش داده کاوی یک مشکل چند بعده با اجزای مانند پیش پردازش داده ها، ذخیره سازی، مدل سازی اطلاعات و الگو، معیارهای جالب، پیچیدگی الگوریتمی، تجسم و غیره است. واضح است که خارج از یک زمینه خاص، تنها می تواند یک عمومی و غیر قابل توضیح باشد بحث در مورد داده کاوی. این توضیح می دهد که پراکندگی پلت فرم های تحقیقاتی خاص معادن – بیوانفورماتیک، تجزیه و تحلیل مالی، مخابرات، ژنتیک، astroinformatics و غیره Astroinformatics یکی از جدیدترین معرفی در داده کاوی است. همانطور که این عنوان مقاله نشان می دهد، ما در زمینه مدیریت شبکه و سیستم ها (NSM) تمرکز می کنیم. ما کلمات “مدیریت” و “نظارت” را به صورت تعویض استفاده خواهیم کرد. بحث ارائه شده توسط این مقاله مقاله های انتخاب شده را پوشش می دهد که منعکس کننده مناطق خاصی است که در آن استخراج معادن استفاده شده است. مناطق کاربردی آنهایی هستند که در حوزه فعالیت NSM (کشف، نظارت، تجزیه و تحلیل، گزارش و دانش دامنه) به عنوان استاندارد ISO از استاندارد FCAPS (گسل، پیکربندی، حسابداری، عملکرد، امنیت) ترجمه شده است. این بحث همچنین شامل دیدگاه نویسندگان در مورد مسائلی است که نیاز به بهبود دارند و یا محدودیت هایی برای استفاده مؤثر از داده کاوی در NSM هستند.

Year: ۲۰۱۵

Publisher : IEEE

By : Khamisi Kalegele,  Kazuto Sasai, Hideyuki Takahashi, Gen Kitagata, Tetsuo Kinoshita

File Information: English Language/ 18 Page / size: 1.49 KB

Download

سال : ۱۳۹۴

ناشر : IEEE

کاری از : خمینی کالجل، کاظوتو ساسو، هیدیوکی تاکاهاشی، ژن کییتاگاتا، تتوسو کینوشیتا

اطلاعات فایل : زبان انگلیسی / ۱۸ صفحه / حجم : KB 1.49

لینک دانلود