A big data analytics framework for scientific data management

ABSTRACT

The Ophidia project is a research effort addressing big data analytics requirements, issues, and challenges for
eScience. We present here the Ophidia analytics framework, which is responsible for atomically processing, transforming and manipulating array-based data. This framework provides a common way to run on large clusters analytics tasks applied to big datasets. The paper highlights the design principles, algorithm, and most relevant implementation aspects of the Ophidia analytics framework. Some experimental results, related to a couple of data analytics operators in a real cluster environment, are also presented.

INTRODUCTION

In several eScience domains the analysis and mining of large volumes of data is increasingly becoming central to scientific discovery. The multidimensionality, volume, complexity, and variety of scientific data need specific solutions able to (i) support the management and analysis of large datasets , (ii) provide array-based functionalities, and (iii) support the scientific analysis process through parallel solutions able to deliver results in (near) real-time . Unfortunately, the tools, libraries and frameworks used in many scientific domains are mostly sequential today. This barrier strongly limits scientific productivity, slowing down or entirely preventing data analysis activities on large datasets. In the climate science context few tools exploit parallel paradigms for analysis and visualization , making urgent the need for new (big) data intensive parallel frameworks. Relevant projects in this area like ParCAT , ParNCL, and ParGAS , share this scientific goal, but provide a toolkit rather than a framework. Scientific data needs data warehouse-like platforms to perform data analytics. However, current general-purpose (enterprise-based) On Line Analytical Processing (OLAP) systems are not suitable for eScience due to their limited scalability, a lack of support for parallel solutions and for the analysis of large volumes of data, and their inadequate support for numerical and mathematical libraries. Additionally, specific array-based support (which is key for n-dimensional scientific data) is not sufficient both in terms of data types and data analysis primitives to address scientist needs and use cases.

چکیده

پروژه Ophidia یک تلاش تحقیقاتی است که با توجه به نیازها، مسائل و چالش های پیش رو برای دانش های اطلاعاتی، مورد نیاز است. ما در اینجا چارچوب تحلیلی Ophidia را ارائه می دهیم، که مسئول پردازش اتمی، تبدیل و دستکاری داده های مبتنی بر آرایه است. این چارچوب یک راه معمول برای اجرای وظایف تجزیه و تحلیل خوشه های بزرگ در مورد مجموعه داده های بزرگ فراهم می کند. این مقاله، اصول طراحی، الگوریتم و جنبه های پیاده سازی مرتبط با چارچوب تحلیلی Ophidia را برجسته می کند. بعضی از نتایج تجربی، مربوط به چند اپراتور تجزیه و تحلیل داده ها در یک محیط خوشه واقعی، نیز ارائه شده است.

مقدمه

در حوزه های مختلف eScience تجزیه و تحلیل و استخراج حجم زیادی داده ها به طور فزاینده ای به عنوان کشف علمی تبدیل شده است. چند بعدی بودن، حجم، پیچیدگی و انواع داده های علمی نیاز به راه حل های خاصی دارند که قادر به (i) پشتیبانی از مدیریت و تجزیه و تحلیل مجموعه داده های بزرگ، (ii) ارائه قابلیت های مبتنی بر آرایه، و (iii) پشتیبانی از روند تجزیه و تحلیل علمی از طریق راه حل های موازی قادر به ارائه نتایج در (در نزدیکی) زمان واقعی است. متأسفانه، ابزارها، کتابخانه ها و چارچوب هایی که در بسیاری از حوزه های علمی مورد استفاده قرار می گیرند، بیشتر امروزه دنباله دار هستند. این مانع شدید بهره وری علمی را کاهش می دهد، فعالیت های تجزیه و تحلیل داده ها را در مجموعه داده های بزرگ تضعیف می کند یا به طور کامل جلوگیری می کند. در زمینه علمی اقلیمی، ابزارهای چندگانه از پارادایم های موازی برای تحلیل و تجسم استفاده می کنند و نیاز به چارچوب موازی فشرده اطلاعات جدید (بزرگ) را ضروری می سازد. پروژه های مرتبط در این زمینه مانند ParCAT، ParNCL، و ParGAS، این هدف علمی را به اشتراک می گذارند، اما یک ابزار نه یک چارچوب را ارائه می دهند. داده های علمی به سیستم های اطلاعاتی مانند انبار نیاز دارند تا تجزیه و تحلیل داده ها را انجام دهند. با این حال، سیستم های پردازش خطی تحلیلی (OLAP) عمومی (مبتنی بر سازمانی) به دلیل مقیاس پذیری محدود، عدم پشتیبانی از راه حل های موازی و تجزیه و تحلیل حجم زیادی از داده ها و ناکافی بودن آنها پشتیبانی از کتابخانه های عددی و ریاضی. علاوه بر این، پشتیبانی خاص مبتنی بر آرایه (که کلیدی برای داده های علمی n بعدی است) از نظر نوع داده ها و ابتدای تجزیه و تحلیل داده ها کافی برای پاسخگویی به نیازهای دانش آموز و موارد استفاده نیست.

Year: 2013

Publisher : IEEE

By : Sandro Fiore , Cosimo Palazzo , Alessandro D’Anca , Ian Foster , Dean N. Williams , Giovanni Aloisio