elib
DLR-Header
DLR-Logo -> http://www.dlr.de
DLR Portal Home | Impressum | Datenschutz | Kontakt | English
Schriftgröße: [-] Text [+]

CRAFT: A library for easier application-level Checkpoint/Restart and Automatic Fault Tolerance

Shahzad, Faisal und Thies, Jonas und Kreutzer, Moritz und Zeiser, Thomas und Hager, Georg und Wellein, Gerhard (2018) CRAFT: A library for easier application-level Checkpoint/Restart and Automatic Fault Tolerance. IEEE Transactions on Parallel and Distributed Systems. doi: 10.1109/TPDS.2018.2866794. ISSN 1045-9219.

[img] PDF - Postprintversion (akzeptierte Manuskriptversion)
4MB

Kurzfassung

In order to efficiently use the future generations of supercomputers, fault tolerance and power consumption are two of the prime challenges anticipated by the High Performance Computing (HPC) community. Checkpoint/Restart (CR) has been and still is the most widely used technique to deal with hard failures. Application-level CR is the most effective CR technique in terms of overhead efficiency but it takes a lot of implementation effort. This work presents the implementation of our C++ based library CRAFT (Checkpoint-Restart and Automatic Fault Tolerance), which serves two purposes. First, it provides an extendable library that significantly eases the implementation of application-level checkpointing. The most basic and frequently used checkpoint data types are already part of CRAFT and can be directly used out of the box. The library can be easily extended to add more data types. As means of overhead reduction, the library offers a build-in asynchronous checkpointing mechanism and also supports the Scalable Checkpoint/Restart (SCR) library for node level checkpointing. Second, CRAFT provides an easier interface for User-Level Failure Mitigation (ULFM) based dynamic process recovery, which significantly reduces the complexity and effort of failure detection and communication recovery mechanism. By utilizing both functionalities tog ther, applications can write application-level checkpoints and recover dynamically from process failures with very limited programming effort. This work presents the design and use of our library in detail. The associated overheads are thoroughly analyzed using several benchmarks.benchmarks.

elib-URL des Eintrags:https://elib.dlr.de/114762/
Dokumentart:Zeitschriftenbeitrag
Titel:CRAFT: A library for easier application-level Checkpoint/Restart and Automatic Fault Tolerance
Autoren:
AutorenInstitution oder E-Mail-AdresseAutoren-ORCID-iDORCID Put Code
Shahzad, FaisalFaisal.Shahzad (at) rrze.fau.deNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Thies, JonasJonas.Thies (at) dlr.deNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Kreutzer, MoritzErlangen Regional Computing CenterNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Zeiser, ThomasErlangen Regional Computing CenterNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Hager, GeorgErlangen Regional Computing CenterNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Wellein, GerhardErlangen Regional Computing CenterNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Datum:2018
Erschienen in:IEEE Transactions on Parallel and Distributed Systems
Referierte Publikation:Ja
Open Access:Ja
Gold Open Access:Nein
In SCOPUS:Ja
In ISI Web of Science:Ja
DOI:10.1109/TPDS.2018.2866794
ISSN:1045-9219
Status:veröffentlicht
Stichwörter:Application-level checkpoint/restart, automatic fault tolerance, User-Level Failure Mitigation (ULFM)
HGF - Forschungsbereich:Luftfahrt, Raumfahrt und Verkehr
HGF - Programm:Raumfahrt
HGF - Programmthema:Technik für Raumfahrtsysteme
DLR - Schwerpunkt:Raumfahrt
DLR - Forschungsgebiet:R SY - Technik für Raumfahrtsysteme
DLR - Teilgebiet (Projekt, Vorhaben):R - Vorhaben SISTEC (alt)
Standort: Köln-Porz
Institute & Einrichtungen:Institut für Simulations- und Softwaretechnik
Institut für Simulations- und Softwaretechnik > High Performance Computing
Hinterlegt von: Thies, Jonas
Hinterlegt am:12 Jan 2018 11:19
Letzte Änderung:23 Jul 2022 13:44

Nur für Mitarbeiter des Archivs: Kontrollseite des Eintrags

Blättern
Suchen
Hilfe & Kontakt
Informationen
electronic library verwendet EPrints 3.3.12
Gestaltung Webseite und Datenbank: Copyright © Deutsches Zentrum für Luft- und Raumfahrt (DLR). Alle Rechte vorbehalten.