توضیحات
چکیده
معمولا اجراي برنامه هاي موازي MPIدر محيط هاي محاسباتي در معرض خرابي سيستم و يا شبكه ميباشد. تكنيك هايي مانند check pointingو مهاجرت فرايند براي مقابله با خرابي وجود دارد. در اين مقاله يك روش هوشمند براي مهاجرت فرايند ارائه شده است. در روش پيشنهادي، نوع فرايندها توسط عامل هاي هوشمند تشخيص داده شده و ميانگين باركاري تمامي گره ها در بازه هاي زماني مشخص بررسي ميشود. در هنگام وقوع خرابي، چنانچه فرايند مبتني بر پردازنده باشد؛ فرايند خراب شده به گره اي مهاجرت داده ميشود كه داراي كمترين ميانگين باركاري بوده و پردازنده آن بيكارتر است. اما چنانچه فرايند خراب شده مبتني بر ارتباطات باشد، فرايند براي جلوگيري از كاهش كارايي بر روي همان گره بازيافت ميشود. در انتها اين روش هوشمند با روش پويا و ايستا مقايسه شده است. نتايج آزمايشات نشان ميدهد كه روش هوشمند ميتواند سرعت اجرا را براي پروسه هاي مبتني بر ارتباطات در برنامه سنجش NPBبه طور ميانگين تا دو برابر نسبت به روش پويا افزايش دهد.
مقدمه
در سالهاي اخير، تمايل به استفاده از سيستم هاي كلاسـتر و ايستگاه هاي كاري شبكه (NOW) بـراي سـاخت كامپيوترهـاي فوق سريع به جاي استفاده از پردازنده هاي موازي عظـيم (MPP) چشم گير بوده است. در سيستم هاي كلاسـتر، بـا توجـه بـه توزيـع شدن قدرت پردازشي در گره ها براي مدت زمان طولاني، مفاهيمي چون قابليت دسترسي بـالا و تحمـل پـذيربـودن در برابـر خرابـي اهميت خاصي پيدا ميكند. در اين سيستمها، امكان خـراب شـدن گره ها و شبكه وجود دارد، به طوريكه حتـي يـك خرابـي محلـي ميتواند منجر به خرابي پروسه هاي ديگر و حتي خرابـي كـل كـار شود. از اين رو آنچه ما به طور خاص مورد مطالعه قـرار مـيدهـيم روشهاي مقابله با خرابي در اين محيط هاست.
ABSTRACT
Generally performing parallel MPI programs in computing environments is subject to system or network failure. Techniques such as check pointing and process migration are available to deal with failures. In this paper, a smart method for process migration is presented. In the proposed method, the type of processes is detected by the intelligent agents and the average load of all nodes in the specified time intervals is examined. In the event of failure, if the process is based on a processor, the corrupted process is migrated to a node that has the lowest average load and the processor is more idle. However, if the corrupted process is based on communication, the process is recycled to prevent the loss of performance on the same node. In the end, this smart method is compared with dynamic and static methods. The results of the experiments show that the intelligent method can increase the implementation speed for communication-based processes in the NPB measurement program by an average of up to twice as much as the dynamic method.
INTRODUCTION
In recent years, the desire to use cluster systems and network workstations (NOW) has been remarkable for building ultra fast computers, rather than using massive parallel processors (MPP). In cluster systems, due to the distribution of processing power in nodes for a long time, concepts such as high availability and tolerance against failure are of particular importance. In these systems, there is the possibility of corrupting the nodes and the network, so that even a local breakdown can lead to other process failures and even a total failure of the work. Therefore, what we are specifically studying is how to deal with failures in these environments.
Year: 2010
Publisher : Eighteenth International Energy Conference of Iran
By : Mohammadreza General, Hossein Pedram, Sanaz Almasi and Ali Boromandnia
File Information: persian Language/ 6 Page / size: 494 KB
سال :1389
ناشر : هجدهمین کنفرانس بین المللی برق ایران
کاری از : محمدرضا مجمع ،حسين پدرام ،ساناز الماسي و علي برومندنيا
اطلاعات فایل : زبان فارسی / 6صفحه / حجم : KB 494
نقد و بررسیها
هنوز بررسیای ثبت نشده است.