Fault-tolerant-Routing-for-Multiple-Permanent.[taliem.ir]

Fault-tolerant Routing for Multiple Permanent and Non-permanent Faults in HPC Systems

ABSTRACT

The interconnection network communicates and links together the processing units of modern  highperformance computing systems. In this context, network faults have an extremely high impact since most routing algorithms were not designed to tolerate faults. Because of this, just a single fault may stall messages in the network, preventing the finalization of applications, or may lead to deadlocked  configurations. In this paper we introduce a fault-tolerant routing method designed to solve a large number of dynamic permanent and non-permanent link faults. As failures appear randomly during system operation, our method provides escape paths for the stalled messages and, at the same time, avoids deadlock  occurrences. Our proposal avoids faulty areas by means of multipath routing approaches, taking advantage of the communication path redundancy, as long as alternative paths are available. Performance evaluation consists of synthetic test scenarios for proving correctness, and test scenarios based on the availability traces of real high-performance systems. Experiments show that our method allows applications to successfully complete their executions even in the presence of a large number of faults, given performance degradations below 3% for a 1024-node system with up to 200 simultaneous link failures.

INTRODUCTION

Over recent decades, the computing power demand has shown a steady and undeniable increase. This increase has as origin the execution of a growing number of complex and computationally intensive  applications. At first, the computing power was dedicated almost exclusively to  scientific research fields. However, during the last few years new application areas also have began to require bigger amounts of computational power, highlighting the necessity of high-performance computing (HPC) systems. These emerging application areas include the DNA sequencing, weather forecasting, geological studies, etc. At this moment, the importance of HPC systems is undeniable since they have opened a trend in modeling the daily behavior and life style of modern societies. This is evident if considering that even the simplest Google  search is based on HPC systems.

چکیده

شبکه ارتباطی ارتباط برقرار می کند و واحد پردازش سیستم های محاسبات پیشرفته بالا را پیوند می دهد. در این زمینه، گسل های شبکه دارای تأثیر بسیار بالایی هستند؛ چرا که اکثر الگوریتم های مسیریابی برای تخریب خطاها طراحی نشده اند. به همین دلیل تنها یک خطا ممکن است پیامهایی را در شبکه متوقف کند، مانع از نهایی کردن برنامهها شود یا به پیکربندیهای متوقف شود. در این مقاله یک روش مسیریابی تحمل پذیر خطا طراحی شده برای حل تعداد زیادی از خطاهای دینامیکی دائمی و غیر دائمی طراحی شده است. به عنوان خطا به طور تصادفی در طول عملیات سیستم به نظر می رسد، روش ما مسیرهای فرار برای پیام های متوقف شده را فراهم می کند و در عین حال از وقایع خرابی جلوگیری می کند. پیشنهاد ما، با استفاده از رویکرد مسیریابی چندگانه، با استفاده از مسیر افزونگی مسیر ارتباطات، از مناطق معیوب جلوگیری می کند، تا زمانی که مسیرهای جایگزین در دسترس باشند. ارزیابی عملکرد شامل سناریوهای تست مصنوعی برای اثبات صحت و سناریوهای آزمایش بر پایه آگاهی های موجود در سیستم های واقعی با کارایی بالا است. آزمایشات نشان می دهد که روش ما اجازه می دهد برنامه های کاربردی را به موفقیت در اجرای اعدام ها حتی با وجود تعداد زیادی از گسل ها، با توجه به کاهش عملکرد کمتر از 3٪ برای یک سیستم 1024 گره با حداکثر 200 خطای لینک به طور همزمان.

مقدمه

در دهه های اخیر، تقاضای انرژی محاسباتی نشان دهنده افزایش قابل توجه و غیر قابل انکار است. این افزایش به عنوان مبدأ اجرای تعداد زیادی از برنامه های پیچیده و محاسباتی فشرده است. در ابتدا، قدرت محاسباتی تقریبا به طور اختصاصی به زمینه های تحقیق علمی اختصاص یافت. با این حال، در چند سال اخیر، مناطق کاربردی جدید نیز نیاز به مقادیر بیشتری از محاسبات قدرت را برجسته کرده اند، و ضرورت استفاده از سیستم های محاسبات با کارایی بالا (HPC) را برجسته کرده است. این مناطق کاربردی در حال ظهور شامل توالی DNA، پیش بینی آب و هوا، مطالعات زمین شناسی و غیره است. در این لحظه، اهمیت سیستم های HPC غیر قابل انکار است، زیرا آنها روند مدل سازی رفتار روزانه و سبک زندگی جوامع مدرن را باز کرده اند. با توجه به اینکه حتی ساده ترین جستجوی گوگل بر اساس سیستم های HPC مشهود است، این واضح است.

Year: 2007

Publisher : ELSEVIER

By : Gonzalo Zarza, Diego Lugones, Daniel Franco, and Emilio Luque

File Information: English Language/ 7 Page / size: 244 KB

Download

سال : 1386

ناشر : ELSEVIER

کاری از : گونزالو زارزا، دیگو لوگوسن، دانیل فرانکو و امیلیو لوک

اطلاعات فایل : زبان انگلیسی / 7 صفحه / حجم : KB 244

لینک دانلود

0 پاسخ

دیدگاه خود را ثبت کنید

تمایل دارید در گفتگو شرکت کنید؟
نظری بدهید!

دیدگاهتان را بنویسید