Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-9609
Autor(en): Walter, Johannes
Titel: Design and implementation of a fault simulation layer for the combination technique on HPC systems
Erscheinungsdatum: 2016
Dokumentart: Abschlussarbeit (Master)
Seiten: 93
URI: http://elib.uni-stuttgart.de/handle/11682/9626
http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-96262
http://dx.doi.org/10.18419/opus-9609
Zusammenfassung: In today's supercomputers, computing power is achieved by using a large amount of parallel executed processors. With growing amount of simultaneously used processors, the probability of hardware faults with resulting process failures grows as well. A popular standard for exchanging messages in networks is MPI. Current MPI versions are not fault-tolerant and terminate the whole MPI network in case of faults. ULFM, which is a proposed fault-tolerant extension of MPI, is not stable implemented and not available on supercomputers. In this master's thesis, a concept of a fault simulator as intermediate layer between MPI and application is introduced and implemented. By means of this fault simulator, process crashes and the behavior of ULFM shall be able to be simulated, without resulting in termination of the underlying MPI network.
In heutigen Supercomputern wird hohe Rechenleistung durch eine große Anzahl an parallel betriebenen Prozessoren erzielt. Mit wachsender Anzahl gleichzeitig benutzter Prozessoren erhöht sich jedoch die Wahrscheinlichkeit für das Auftreten von Hardwarefehlern und daraus resultierten Prozessabstürzen. Ein weitverbreiteter Standard zum Austausch von Nachrichten in Netzwerken ist MPI. Aktuelle MPI-Versionen sind nicht fehlertolerant und terminieren im Falle von Fehlern das ganze MPI-Netzwerk. ULFM, eine fehlertolerante Erweiterung für MPI, ist nicht stabil implementiert und ist auf Supercomputern nicht verfügbar. In dieser Masterarbeit wird ein Konzept für einen Fehlersimulator als Zwischenschicht zwischen MPI und der Anwendung vorgestellt und implementiert, mit dessen Hilfe Prozessabstürze und das Verhalten von ULFM simuliert werden können, ohne dass das darunterliegende MPI Netzwerk terminiert wird.
Enthalten in den Sammlungen:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
Master's_Thesis_Nr._47_Johannes_Walter.pdf2,01 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.