توضیحات
ABSTRACT
With the rapid growth of emerging applications like social network analysis, semantic Web analysis and bioinformatics network analysis, a variety of data to be processed continues to witness a quick increase. Effective management and analysis of large-scale data poses an interesting but critical challenge. Recently, big data has attracted a lot of attention from academia, industry as well as government. This paper introduces several big data processing technics from system and application aspects. First, from the view of cloud data management and big data processing mechanisms, we present the key issues of big data processing, including cloud computing platform, cloud architecture, cloud database and data storage scheme. Following the MapReduce parallel processing framework, we then introduce MapReduce optimization strategies and applications reported in the literature. Finally, we discuss the open issues and challenges, and deeply explore the research directions in the future on big data processing in cloud computing environments.
INTRODUCTION
In the last two decades, the continuous increase of computational power has produced an overwhelming flow of data. Big data is not only becoming more available but also more understandable to computers. For example, modern high-energy physics experiments, such as DZero1, typically generate more than one TeraByte of data per day. The famous social network Website, Facebook, serves 570 billion page views per month, stores 3 billion new photos every month, and manages 25 billion pieces of content2. Google’s search and ad business, Facebook, Flickr, YouTube, and Linkedin use a bundle of artificial-intelligence tricks, require parsing vast quantities of data and making decisions instantaneously. Multimedia data mining platforms make it easy for everybody to achieve these goals with the minimum amount of effort in terms of software, CPU and network. On March 29, 2012, American government announced the “Big Data Research and Development Initiative”, and big data becomes the national policy for the first time3. All these examples showed that daunting big data challenges and significant resources were allocated to support these dataintensive operations which lead to high storage and data processing costs.
چکیده
با رشد سریع برنامه های در حال ظهور مانند تجزیه و تحلیل شبکه های اجتماعی، تجزیه و تحلیل وب معنایی و تجزیه و تحلیل شبکه بیوانفورماتیک، انواع داده ها پردازش همچنان شاهد افزایش سریع است. مدیریت موثر و تجزیه و تحلیل داده های مقیاس بزرگ، یک چالش جالب، اما حیاتی است. به تازگی، داده های بزرگ توجه زیادی را از سوی دانشگاه ها، صنعت و دولت به خود جلب کرده است. این مقاله چندین تکنیک پردازش داده بزرگ را از جنبه های سیستم و کاربردی معرفی می کند. اول، از دیدگاه مدیریت داده های ابر و مکانیزم های پردازش داده های بزرگ، ما مسائل کلیدی پردازش داده های بزرگ، از جمله پلت فرم ابر رایانه، معماری ابر، پایگاه داده های ابر و طرح ذخیره سازی داده ها را ارائه می دهیم. پس از چارچوب پردازش موازی MapReduce، ما سپس راهبردهای بهینه سازی MapReduce و برنامه های ارائه شده در ادبیات را معرفی می کنیم. در نهایت، ما درباره مسائل و چالش های باز بحث می کنیم و عمیقا مسیرهای تحقیق در آینده را بر روی پردازش داده های بزرگ در محاسبات ابر محاسبه می کنیم.
مقدمه
در دو دهه گذشته، افزایش مداوم قدرت محاسباتی موجب جریان جزیی اطلاعات شده است. داده های بزرگ نه تنها در دسترس هستند، بلکه قابل فهم برای رایانه ها است. به عنوان مثال، آزمایش های مدرن فیزیک انرژی بالا مانند DZero1 معمولا بیش از یک TeraByte از داده ها را در هر روز تولید می کنند. وب سایت مشهور شبکه اجتماعی، فیس بوک، در هر ماه 570 میلیارد بار بازدید می کند، هر ماه 3 میلیارد عکس جدید را ذخیره می کند و 25 میلیارد تومان را مدیریت می کند. کسب و کار جستجو و تبلیغات گوگل، فیس بوک، فلیکر، یوتیوب و لینکدین از مجموعه ای از ترفندهای هوش مصنوعی استفاده می کنند، نیاز به تجزیه مقدار زیادی داده و تصمیم گیری را بلافاصله. سیستم های اطلاعات چند رسانه ای اطلاعاتی را برای هر کس برای رسیدن به این اهداف با حداقل تلاش در زمینه نرم افزار، پردازنده و شبکه آسان می کند. در 29 مارس 2012، دولت آمریکا “ابتکار تحقیق و توسعه داده های بزرگ” را اعلام کرد و داده های بزرگ برای اولین بار به سیاست ملی تبدیل می شود. تمام این نمونه ها نشان داد که چالش های داده ای وحشتناک و منابع قابل توجهی برای حمایت از این عملیات اطلاعاتی که به هزینه ذخیره سازی بالا و پردازش داده ها منجر می شود اختصاص داده شده است.
Year: 2012
Publisher : IEEE
By : Changqing Ji , Yu Li , Wenming Qiu , Uchechukwu Awada, Keqiu Li
File Information: English Language/ 7 Page / size: 133 KB
Only site members can download free of charge after registering and adding to the cart
سال : 1391
ناشر : IEEE
کاری از : چانگقیگ جی، یو لی، وینمینگ کیو، Uchechukwu Awada، Keqiu لی
اطلاعات فایل : زبان انگلیسی / 7 صفحه / حجم : KB 133
نقد و بررسیها
هنوز بررسیای ثبت نشده است.