Application of Association Rule Mining for[taliem.ir]

Application of Association Rule Mining for Replication in Scientific Data Grid

ABSTRACT

Grid computing is the most popular infrastructure in many emerging field of science and engineering where extensive data driven experiments are conducted by thousands of scientists all over the world. Efficient transfer and replication of these peta-byte scale data sets are the  fundamental challenges in Scientific Grid. Data grid technology is developed to permit data sharing across many organizations in geographically disperse locations. Replication of data helps thousands of researchers all over the world to access those data sets more efficiently. Data replication is essential to ensure data reliability and availability across the grid. Replication ensures above mentioned criteria by creating more copies of same data sets across the grid. In this paper, we proposed a data mining based replication to accelerate the data access time. Our proposed algorithm mines the hidden rules of association among different files for replica optimization which proves highly efficient for different access patterns. The algorithm is simulated using data grid simulator, OptorSim, developed by European Data Grid project. Then our algorithm is compared with the existing approaches where it outperforms others.

INTRODUCTION

The term scientific data grid refers to the massive network of computational infrastructure used by a wide range of researchers who use  petabytes of data for experimentation all over the world. It is used for large scale data sharing and simulation based experimentation in wide range of scientific and engineering domains – such as Large Hadron Collider (LHC), Earth System Grid (ESG), Laser Interferometer Gravitational Wave Observatory (LIGO)  etc. All these grids use massively distributed heterogeneous computing platform where reliable and fast access of huge data sets is a challenging task. To ensure data access requirements same data sets need to be replicated in several regions of the grid. An
efficient replication strategy is required to make data sets available so that it can be accessed efficiently by all the users and to reduce the number of replicas in an optimal level. There are many techniques those are described in literature which address the problem. But they have their own problems. Least Frequently Use (LFU) approach decides about replica by deleting the least frequent item extracted from the access
history.

چکیده

محاسبات شبکه یکی از محبوب ترین زیرساخت های بسیاری در حوزه علوم و مهندسی در حال ظهور است که در آن آزمایشات گسترده داده ای توسط هزاران دانشمند در سرتاسر جهان انجام می شود. انتقال و تسریع کارآیی این مجموعه داده های مقیاس پتا بایتی، چالش اساسی در شبکه علمی است. تکنولوژی شبکه داده ها به منظور به اشتراک گذاشتن داده ها در بین بسیاری از سازمان ها در مکان های پراکنده جغرافیایی توسعه داده شده است. تکرار داده ها به هزاران محقق در سراسر جهان کمک می کند تا به طور موثرتر به این مجموعه داده دسترسی پیدا کنند. تکرار داده ها برای اطمینان از اطمینان و دسترسی به اطلاعات در شبکه ضروری است. تکثیر تضمین می کند که معیارهای فوق ذکر شده با ایجاد نسخه های بیشتر از مجموعه داده های مشابه در سراسر شبکه. در این مقاله، یک تکرار با استفاده از داده کاوی برای سرعت بخشیدن به زمان دسترسی به داده ها پیشنهاد شده است. الگوریتم پیشنهادی ما قوانین پنهان اتصال در میان فایل های مختلف را برای بهینه سازی ماکت می دهد که برای الگوهای مختلف دسترسی بسیار کارآمد است. الگوریتم با استفاده از شبیه ساز شبکۀ داده، OptorSim، که توسط پروژه Data Grid اروپا طراحی شده، شبیه سازی شده است. سپس الگوریتم ما با رویکردهای موجود مقایسه می شود که از دیگران برتر است.

مقدمه

محاسبات شبکه یکی از محبوب ترین زیرساخت های بسیاری در زمینه علوم و مهندسی در حال ظهور است که آزمایشات گسترده داده توسط هزاران دانشمند در سراسر جهان انجام می شود. انتقال و تسریع کارآیی این مجموعه داده های مقیاس پتا بایتی، چالش اساسی در شبکه علمی است. تکنولوژی شبکه داده ها به منظور به اشتراک گذاشتن اطلاعات در میان بسیاری از سازمان ها در مکان های پراکنده جغرافیایی توسعه داده شده است. تکرار داده ها به هزاران محقق در سراسر جهان کمک می کند تا به طور موثرتر به این مجموعه داده دسترسی پیدا کنید. تکرار داده ها برای اطمینان از اطمینان و دسترسی به اطلاعات در شبکه ضروری است. تکثیر تضمین می کند که معیارهای فوق ذکر شده با ایجاد نسخه های بیشتر از مجموعه داده های مشابه در سراسر شبکه. در این مقاله یک تکرار با استفاده از داده کاوی برای سرعت بخشیدن به زمان دسترسی به داده ها پیشنهاد شده است. الگوریتم پیشنهاد شده ما قوانین پنهان اتصال در بین فایل های مختلف را برای بهینه سازی به عنوان خوانده شده است که برای دسترسی به چندین مدل بسیار مناسب است. الگوریتم با استفاده از شبیه ساز شبکۀ داده، OptorSim، که توسط پروژه Data Grid اروپا طراحی شده، شبیه سازی شده است. سپس الگوریتم ما با رویکردهای موجود مقایسه می شود که از دیگران برتر است.

Year: 2008

Publisher : IEEE

By : Md. S. Q. Zulkar Nine, Md. Abul Kalam Azad , Saad Abdullah , Mohammad Alaul Haque Monil , Ibna Zahan ,Abdulla Bin Kader, Rashedur M Rahman

File Information: English Language/ 4 Page / size: 1.10 KB

Download

سال : 1387

ناشر : IEEE

کاری از : خانم S. Q. Zulkar نه، محمد ابوالقلام آزاد، سعد عبدالله، محمد آلاوکل، حك مینیل، ابن زاهن، عبدالله بن كادر، رشید م. رحمان

اطلاعات فایل : زبان انگلیسی / 4 صفحه / حجم : KB 1.10

لینک دانلود

 

0 پاسخ

دیدگاه خود را ثبت کنید

تمایل دارید در گفتگو شرکت کنید؟
نظری بدهید!

دیدگاهتان را بنویسید