Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-3545
Langanzeige der Metadaten
DC ElementWertSprache
dc.contributor.advisorWunderlich, Hans-Joachim (Prof. Dr. rer. nat. habil.)de
dc.contributor.authorBraun, Clausde
dc.date.accessioned2015-08-05de
dc.date.accessioned2016-03-31T08:02:18Z-
dc.date.available2015-08-05de
dc.date.available2016-03-31T08:02:18Z-
dc.date.issued2015de
dc.identifier.other443121923de
dc.identifier.urihttp://nbn-resolving.de/urn:nbn:de:bsz:93-opus-101257de
dc.identifier.urihttp://elib.uni-stuttgart.de/handle/11682/3562-
dc.identifier.urihttp://dx.doi.org/10.18419/opus-3545-
dc.description.abstractScientific computing and computer-based simulation technology evolved to indispensable tools that enable solutions for major challenges in science and engineering. Applications in these domains are often dominated by compute-intensive mathematical tasks like linear algebra matrix operations. The provision of correct and trustworthy computational results is an essential prerequisite since these applications can have direct impact on scientific, economic or political processes and decisions. Graphics processing units (GPUs) are highly parallel many-core processor architectures that deliver tremendous floating-point compute performance at very low cost. This makes them particularly interesting for the substantial acceleration of complex applications in science and engineering. However, like most nano-scaled CMOS devices, GPUs are facing a growing number of threats that jeopardize their reliability. This makes the integration of fault tolerance measures mandatory. Algorithm-Based Fault Tolerance (ABFT) allows the protection of essential mathematical operations, which are intensively used in scientific computing. It provides a high error coverage combined with a low computational overhead. However, the integration of ABFT into linear algebra matrix operations on GPUs is a non-trivial task, which requires a thorough balance between fault tolerance, architectural constraints and performance. Moreover, ABFT for operations carried out in floating-point arithmetic has to cope with a reduced error detection and localization efficacy due to inevitable rounding errors. This work provides an in-depth analysis of Algorithm-Based Fault Tolerance for matrix operations on graphics processing units with respect to different types and combinations of weighted checksum codes, partitioned encoding schemes and architecture-related execution parameters. Moreover, a novel approach called A-ABFT is introduced for the efficient online determination of rounding error bounds, which improves the error detection and localization capabilities of ABFT significantly. Extensive experimental evaluations of the error detection capabilities, the quality of the determined rounding error bounds, as well as the achievable performance confirm that the proposed A-ABFT method performs better than previous approaches. In addition, two case studies (QR decomposition and Linear Programming) emphasize the efficacy of A-ABFT and its applicability to practical problems.en
dc.description.abstractWissenschaftliches Rechnen und rechnergestützte Simulationstechnik haben sich zu unentbehrlichen Werkzeugen entwickelt, die Lösungen für wichtige Probleme in Wissenschaft und Technik ermöglichen. Anwendungen in diesen Bereichen werden häufig von rechenaufwändigen mathematischen Operationen, wie zum Beispiel Matrixoperationen aus der linearen Algebra, dominiert. Die Bereitstellung korrekter und vertrauenswürdiger Berechnungsergebnisse ist daher eine zentrale Grundvoraussetzung da die genannten Anwendungen direkten Einfluss auf Prozesse und Entscheidungen in Wissenschaft, Wirtschaft und Politik haben können. Grafikprozessoren (GPUs) sind hochparallele Many-Core-Prozessorarchitekturen die eine außergewöhnlich hohe Gleitkommarechenleistung bei sehr niedrigen Kosten ermöglichen. Dies macht sie besonders interessant für die deutliche Beschleunigung von komplexen Anwendungen in Wissenschaft und Technik. Wie die meisten nanoskalierten CMOS-Schaltkreise sehen sich auch GPUs einer wachsenden Zahl von Störfaktoren gegenüber die ihre Zuverlässigkeit massiv beeinträchtigen. Dies macht die Integration von Fehlertoleranzmaßnahmen unabdingbar. Algorithmenbasierte Fehlertoleranz (ABFT) erlaubt den Schutz wichtiger mathematischer Operationen die im wissenschaftlichen Rechnen zahlreiche Anwendung finden. ABFT bietet dabei eine hohe Fehlerabdeckung und verursacht nur einen geringen Mehraufwand bei der Berechnung. Die Integration von ABFT in Matrixoperationen auf Grafikprozessoren ist jedoch sehr anspruchsvoll da sie die Balance zwischen Fehlertoleranz, Prozessorarchitektur und Performanz erfordert. Darüber hinaus zeigt sich beim Einsatz von ABFT für Operationen die in Gleitkommaarithmetik ausgeführt werden häufig eine reduzierte Wirksamkeit der Fehlererkennung und -lokalisierung auf Grund von unvermeidlich auftretenden Rundungsfehlern. Die vorliegende Arbeit stellt eine umfangreiche Analyse von ABFT für Matrixoperationen auf Grafikprozessoren unter den Gesichtspunkten verschiedener gewichteter Prüfsummenkodes, partitionierte Kodierungsschemata und ausführungsrelevanter Architekturparameter bereit. Darüber hinaus wird mit A-ABFT eine neuartige Methode für die effiziente Bestimmung von Rundungsfehlerschranken zur Laufzeit vorgestellt, die die Fehlererkennung und -lokalisierung von ABFT deutlich verbessert. Umfangreiche experimentelle Untersuchungen der Fehlererkennung, der bestimmten Rundungsfehlerschranken, sowie der erzielbaren Performanz bestätigen, dass die vorgeschlagene A-ABFT-Methode bessere Ergebnisse erzielt als bisherige Ansätze. Darüber hinaus wird die Anwendbarkeit und Effektivität von A-ABFT für praxisrelevante Probleme anhand zweier Fallstudien (QR-Zerlegung und Lineare Optimierung) gezeigt.de
dc.language.isoende
dc.rightsinfo:eu-repo/semantics/openAccessde
dc.subject.classificationFehlertoleranz , Simulation , Algorithmus , Computerarchitekturde
dc.subject.ddc004de
dc.subject.otherAlgorithmen-basierte Fehlertoleranz , GPUde
dc.subject.otherAlgorithm-based Fault Tolerance , GPU , Simulationen
dc.titleAlgorithm-based fault tolerance for matrix operations on graphics processing units : analysis and extension to autonomous operationen
dc.title.alternativeAlgorithmen-basierte Fehlertoleranz für Matrixoperationen auf Grafikprozessoren : Analyse und Erweiterung für autonome Operationde
dc.typedoctoralThesisde
ubs.dateAccepted2015-07-13de
ubs.fakultaetFakultät Informatik, Elektrotechnik und Informationstechnikde
ubs.institutInstitut für Technische Informatikde
ubs.opusid10125de
ubs.publikation.typDissertationde
ubs.thesis.grantorStuttgart Research Centre for Simulation Technology (SRC SimTech)de
Enthalten in den Sammlungen:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
Dissertation_Claus_Braun_ITI.pdf10,02 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.