توضیحات
ABSTRACT
Advances in digital sensors, communications, computation, and storage have created huge collections of data, capturing information of value to business, science, government, and society. For example, search engine companies such as Google, Yahoo!, and Microsoft have created an entirely new business by capturing the information freely available on the World Wide Web and providing it to people in useful ways. These companies collect trillions of bytes of data every day and continually add new services such as satellite images, driving directions, and image retrieval. The societal benefits of these services are immeasurable, having transformed how people find and make use of information on a daily basis. Just as search engines have transformed how we access information, other forms of bigdata computing can and will transform the activities of companies, scientific researchers, medical practitioners, and our nation’s defense and intelligence operations.
INTRODUCTION
Some examples include: Wal-Mart recently contracted with Hewlett Packard to construct a data warehouse capable of storing 4 petabytes (4000 trillion bytes) of data, representing every single purchase recorded by their point-of-sale terminals (around 267 million transactions perday) at their 6000 stores worldwide. By applying machine learning to this data, they can detect patterns indicating the effectiveness of their pricing strategies and advertisingcampaigns, and better manage their inventory and supply chains. Many scientific disciplines have become data-driven. For example, a modern telescope is really just a very large digital camera. The proposed Large Synoptic Survey Telescope (LSST) will scan the sky from a mountaintop in Chile, recording 30 trillion bytes of image data every day – a data volume equal to two entire Sloan Digital Sky Surveys daily! Astronomers will apply massive computing power to this data to probe the origins of our universe. The Large Hadron Collider (LHC), a particle accelerator thatwill revolutionize our understanding of the workings of the Universe, will generate 60 terabytes of data per day – 15 petabytes (15 million gigabytes) annually. Similar eScience projects are proposed or underway in a wide variety of other disciplines, from biology to environmental science to oceanography. These projects generate such enormous data sets that automated analysis is required.
چکیده
پیشرفت در سنسورهای دیجیتال، ارتباطات، محاسبات و ذخیره سازی، مجموعهای زیادی از دادهها را ایجاد کردهاند، اطلاعات ارزش کسب و کار، علم، دولت و جامعه را به دست آوردهاند. به عنوان مثال، شرکت های موتور جستجو مانند گوگل، یاهو و مایکروسافت با کسب اطلاعاتی که به صورت آزاد در وب جهانی در دسترس هستند و به شیوه های مفیدی برای مردم ارائه می دهند، یک کسب و کار کاملا جدید ایجاد کرده اند. این شرکتها هر روز جمع آوری تریلیون ها بایت داده و به طور مداوم سرویس های جدید مانند تصاویر ماهواره ای، مسیرهای رانندگی و بازیابی تصویر را اضافه می کنند. مزایای اجتماعی این خدمات غیرممکن است، چرا که مردم هر روزه اطلاعات خود را پیدا کرده و استفاده می کنند. درست همانطور که موتورهای جستجو تغییر کرده است که چگونه به اطلاعات دسترسی پیدا می کنیم، اشکال دیگر محاسبات بزرگ داده ها می تواند فعالیت ها شرکت ها، محققان علمی، پزشکان و عملیات دفاع و اطلاعات کشور ما را تغییر دهد.
مقدمه
بعضی از نمونه ها عبارتند از: Wal-Mart اخیرا با Hewlett Packard قراردادی را برای ساخت یک انبار داده ای که قادر به ذخیره 4 پتابایت (4000 تریلیون بایت) داده است، نشان می دهد و هر خرید را که توسط پایانه های فروش آنها ثبت می شود (حدود 267 میلیون معاملات روزانه ) در 6000 فروشگاه خود در سراسر جهان. با استفاده از یادگیری ماشین برای این داده ها، آنها می توانند الگوهایی را نشان دهند که اثربخشی استراتژی های قیمت گذاری و تبلیغاتشان را بهبود بخشیده و بهتر مدیریت موجودی و زنجیره های عرضه خود را داشته باشند. بسیاری از رشته های علمی به داده ها تبدیل شده اند. به عنوان مثال، یک تلسکوپ مدرن واقعا یک دوربین دیجیتال بسیار بزرگ است. تلسکوپ بزرگ سنجاب سینوپتیک (LSST)، آسمان را از یک کوهنوردی در شیلی اسکن کرده و هر روز 30 تریلیون بایت از داده های تصویر را ثبت می کند – حجم داده ای برابر با دو کل کل دیجیتال آسمان روزانه Sloan! ستاره شناسان توانایی محاسباتی گسترده ای را برای این داده ها برای بررسی ریشه های جهان ما اعمال خواهند کرد. Collider Hadron بزرگ (LHC)، یک شتاب دهنده ذره ای که انقلابی در درک ما از کارهای جهان است، 60 ترابایت داده در روز را تولید می کند – 15 پتابایت (15 میلیون گیگابایت) سالانه. پروژه های eScience مشابه در بسیاری از رشته های دیگر، از زیست شناسی تا علوم زیست شناختی تا اقیانوس شناسی، پیش بینی می شود. این پروژه ها مجموعه های داده های بسیار زیادی را تولید می کند که تجزیه و تحلیل خودکار مورد نیاز است.
Year: 2008
Publisher :
By : Randal E. Bryant, Randy H. Katz, Edward D. Lazowska
File Information: English Language/ 7 Page / size: 77.45 KB
Only site members can download free of charge after registering and adding to the cart
سال : 1387
ناشر :
کاری از : رندال ای. براانت، رندی هات کتز، ادوارد دی. لاوزوسکا
اطلاعات فایل : زبان انگلیسی / 7 صفحه / حجم : KB 77.45
نقد و بررسیها
هنوز بررسیای ثبت نشده است.