04 Fakultät Energie-, Verfahrens- und Biotechnik
Permanent URI for this collectionhttps://elib.uni-stuttgart.de/handle/11682/5
Browse
Item Open Access Analyse kontinuumsmechanischer, anisotroper Materialparameter mikrostrukturierter Volumina mit Hilfe direkter mechanischer Simulation(Stuttgart : Höchstleistungsrechenzentrum, Universität Stuttgart, 2016) Schneider, Ralf; Resch, Michael M. (Prof. Dr.- Ing. Dr. h.c. Dr. h.c. Prof. E.h.)In Kapitel 1, Einleitung der folgenden Abhandlung, werden zunächst die Motivation für die durchgeführten Untersuchungen, der Stand der Technik auf dem Gebiet der kontinuumsmechanischen Materialdatenermittlung von mikrostrukturiertem bzw. im hier bearbeiteten, speziellen Fall von spongiösem Knochenmaterial sowie die Ziele der Arbeit dargelegt. Im folgenden Kapitel 2, Grundlagen, werden die mathematischen und technischen Prinzipien erläutert, die als Basis für die im Rahmen der Arbeit erfolgten Entwicklungen dienten. Hierzu zählen Grundlagen der Elastizitätstheorie, der Methode der Finiten Elemente (FEM), der multivariaten Statistik sowie die Erläuterung der Prinzipien der Computertomographie (CT). In Kapitel 3, Direkter mechanischer Ansatz zur Berechnung von elastischen Eigenschaften mikrostrukturierter Volumina, wird die Theorie der direkten mechanischen Simulation zur Bestimmung effektiver Materialparameter mikrostrukturierter Volumina auf Kontinuumsebene dargelegt. Da die von Hill entwickelte [1], klassische bzw. im folgenden als analytische Methode bezeichnete Vorgehensweise aus Sicht des Verfassers die Schwäche aufweist, dass die mit ihrer Hilfe berechneten Materialdaten von der Wahl der Randbedingungen abhängen, wird im gleichen Kapitel eine Erweiterung der Methode vorgeschlagen, die zur Berechnung der effektiven numerischen Steifigkeit mikrostrukturierter Volumina führt. Die effektive numerische Steifigkeit wird mit Hilfe der FEM abgeleitet, wodurch die entstehenden effektiven Steifigkeitseigenschaften direkt zum Einsatz mit dieser Methode geeignet sind. In Kapitel 4, Gewebeproben und Datensätze, werden die Parameter der mit Hilfe von Mikrofokus Computertomographien (μ-CT) und klinischer Computertomographie (k-CT) erhobenen Volumendatensätze angegeben. Als Basisdatensatz für die Entwicklung und erste Analyse der Implementierung sowie der, dieser Arbeit zu Grunde liegenden, Konzepte wird der μ-CT-Volumendatensatz eines menschlichen Femurkopfes verwendet. Der Femurkopf wurde im Rahmen der Implantation einer Totalhüftendoprothese in der Klinik für Unfallchirurgie und Orthopädie des Universitätsklinikum Freiburg entnommen. Der Volumendatensatz wurde nach der Entnahme durch das Institut für Bauweisen und Strukturtechnologie des Deutschen Zentrums für Luft- und Raumfahrt (DLR) Stuttgart erstellt. In diesem Kapitel werden desweiteren ausgezeichnete Bereiche des μ-CT-Datensatzes beschrieben, die im Verlauf der Arbeit zu Analysen herangezogen werden. In Kapitel 5, Implementierung, wird eine Prozesskette beschrieben, welche es ermöglicht, aus μ-CT-Datensätzen ganzer Knochenbereiche mit Hilfe direkter, mechanischer Simulation das Feld der linear elastischen Materialeigenschaften sowie das Feld der numerischen effektiven Steifigkeitsmatrizen auf Kontinuumsebene zu berechnen. Ein durch μ-CT gewonnener Datensatz kann in virtuelle Proben beliebiger Größe und Form zerlegt werden. Durch das Vorgehen ist es somit möglich, die Auflösung kontinuumsmechanischer Materialdaten entsprechend der Auflösung des verwendeten kontinuumsmechanischen Berechnungsgitters anzupassen. Als zentrales Glied der Prozesskette wird das Finite Elemente Programmsystem FMPS [2] verwendet. Die vorgelagerten Programme wie Gebietszerlegung und Geometrieextraktion sowie die nachfolgenden Berechnungen der effektiven Materialparameter wurden durch eigene Implementierungen realisiert. Im Hinblick auf die reibungslose Ausführung der Prozesskette auf den Ressourcen des High Performance Computing Center Stuttgart (HLRS) wurde ein für alle Teile der Kette gemeinsames Datenformat entwickelt, welches auch in FMPS integriert wurde. Das Datenformat zeichnet sich im wesentlichen durch die einfache Benutzbarkeit im Zusammenhang mit paralleler Ein- und Ausgabe (E/A), durch einen von den eigentlichen Daten unabhängigen Index sowie seine allgemeine Benutzbarkeit aus. In diesem Kapitel wird des weiteren die Kopplung zwischen FMPS, einem monolithischen Fortran 77 Softwarepaket mit tiefer Aufrufstruktur und der C++ Löserbibliothek PETSc [3] erläutert. Diese Entwicklung war notwendig, um auch Auflösungen der effektiven Materialparameter mit Gitterzellen größer als 2,4mm effektiv berechnen zu können. In Kapitel 6, Ergebnisse, werden die Analysen der auf unterschiedlichen Auflösungsstufen berechneten Datenfelder der effektiven Steifigkeit und deren Zusammenhang mit strukturbeschreibenden Parametern auf kontinuumsmechanischer Ebene diskutiert. Die erzeugten Felder der effektiven Steifigkeit werden mit Hilfe multivariater Methoden analysiert, und es wird gezeigt, dass eine wesentliche Reduktion deren 21-dimensionalen Parameterraumes möglich ist. Abschließend werden erste Vergleiche zwischen kontinuumsmechanischen Berechnungsergebnissen, die mit Hilfe der berechneten effektiven Steifigkeitsmatrizen erzeugt wurden, und Ergebnissen aus mikromechanischen Simulationen größerer Knochenbereiche, dargestellt und erläutert. Es wird gezeigt, dass es Zusammenhänge zwischen den Ergebnissen dieser beiden Skalen gibt und dass diese Zusammenhänge in Abhängigkeit der Porengröße der Spongiosa nichtlineares Verhalten annehmen.Item Open Access Communication methods for hierarchical global address models in HPC(Stuttgart : Höchstleistungsrechenzentrum, Universität Stuttgart, 2016) Zhou, Huan; Resch, Michael (Prof. Dr.-Ing. Dr. h.c. Dr. h.c. Prof. E.h.)Item Open Access Concepts for scalable molecular dynamics simulations on future HPC systems(Stuttgart : Höchstleistungsrechenzentrum, Universität Stuttgart, 2023) Niethammer, Christoph; Resch, Michael M. (Prof. Dr.-Ing. Dr. h.c. Dr. h.c. Prof. E.h.)Item Open Access Energieeffizienz von Prozessoren in High Performance Computinganwendungen der Ingenieurwissenschaften(Stuttgart : Höchstleistungsrechenzentrum, Universität Stuttgart, 2018) Khabi, Dmitry; Resch, Michael M. (Prof. Dr.-Ing. Dr. h.c. Dr. h.c. Prof. E.h.)Im Mittelpunkt dieser Arbeit steht die Frage nach Energieeffizienz im Hochleistungsrechnen (HPC) mit Schwerpunkt auf Zusammenhänge zwischen der elektrischen Leistung der Prozessoren und deren Rechenleistung. In Kapitel 1, Einleitung der folgenden Abhandlungen, werden die Motivation und der Stand der Technik auf dem Gebiet der Strommessung und der Energieeffizienz im HPC und dessen Komponenten erläutert. In den Folgenden Kapiteln 2 und 3 wird eine am Höchstleistungsrechenzentrum Stuttgart (HLRS) entwickelte Messtechnik detailliert diskutiert, die für die Strommessungen im Testcluster angewendet wird. Das Messverfahren der unterschiedlichen Hardwarekomponenten und die Abhängigkeit zwischen deren Stromversorgung, Messgenauigkeit und Messfrequenz werden dargelegt. Im Kapitel 4 der Arbeit beschreibe ich, welchen Zusammenhang es zwischen dem Stromverbrauch eines Prozessors, dessen Konfiguration und darauf ausgeführten Algorithmen gibt. Der Fokus liegt dabei auf den Zusammenhängen zwischen CPU-Frequenz, Grad der Parallelisierung, Rechenleistung und elektrischer Leistung. Für den Effizienzvergleich zwischen den Prozessoren und Algorithmen benutze ich ein Verfahren, das auf eine Approximation in der analytischen Form der Rechen- und der elektrischen Leistung der Prozessoren basiert. In diesem Kapitel wird außerdem gezeigt, dass die Koeffizienten der Approximation, die mehrere Hinweise auf Software und Hardware-Eigenschaften geben, als Basis für die Ausarbeitung eines erweiterten Modells dienen können. Wie im weiteren Verlauf gezeigt wird, berücksichtigen die existierenden Modelle der Rechen- und der elektrischen Leistung nur zum Teil die unterschiedlichen Frequenz-Domains der Hardwarekomponenten. Im Kapitel 5 wird eine Erweiterung des existierenden Modells der Rechenleistung erläutert, mit dessen Hilfe die entsprechenden neuen Eigenschaften der CPU-Architektur teilweise erklärt werden könnten. Die daraus gewonnenen Erkenntnisse sollen helfen, ein Modell zu entwickeln, das sowohl die Rechen- als auch die elektrische Leistung beschreibt. In Kapitel 6 beschreibe ich die Problemstellung der Energieeffizienz eines Hochleistungsrechners. Unter anderem werden die in dieser Arbeit entwickelten Methoden auf eine HPC-Platform evaluiert.Item Open Access Forschungsdatenmanagement im Kontext dunkler Daten in den Simulationswissenschaften(2019) Schembera, Björn; Resch, Michael M. (Prof. Dr.-Ing. Dr. h.c. Dr. h.c. Prof. E.h.)In der Dissertation wird das Konzept von dunklen Daten auf das Höchstleistungsrechnen erweitert. Dunkle Daten entstehen durch fehlende Metadaten oder inaktive Nutzerinnen und Nutzer. Die Dissertation stellt Konzepte zur Minimierung solcher Daten vor. Sie umfassen ein Metadaten-Modell (EngMeta) und eine automatisierte Metadaten-Extraktionsmethode, die entworfen und implementiert wurde. Da solche technischen Lösungsansätze ohne entsprechende organisatorische Prozesse nutzlos sind, werden sie in der Dissertation um einen spezifischen Datenkurator sowie Entscheidungskriterien ergänzt.Item Open Access Global task data dependencies in the partitioned global address space(Stuttgart : Höchstleistungsrechenzentrum, Universität Stuttgart, 2021) Schuchart, Joseph Konstantin; Resch, Michael M. (Prof. Dr.-Ing. Dr. h.c. Dr. h.c. Prof. E.h.)High-Performance Computing (HPC) has become an important part of scientific discovery in many fields and takes an important role in many engineering processes, harnessing the power of large amounts of computational resources to gain insights into otherwise hidden technological and natural phenomena. The dominating programming model driving today’s parallel applications is a two-level approach consisting of message-based communication between processes using MPI and static loop-level thread-parallel execution using OpenMP constructs. However, two programming models have tried to challenge this status quo. First, the Partitioned Global Address Space (PGAS) model is an attempt to elevate shared memory programming to the level of distributed systems and to directly expose modern network hardware features to the application developer. Second, task-based programming aims at providing abstractions that help discover a greater amount of concurrency in parallel applications, which in turn can be used to better exploit the computational resources at hand. Both models are an attempt to break up the strict synchronization imposed by the traditional models: the PGAS model decouples synchronization and communication while task-based programming models minimize the required synchronization to a set of constraints on the order of the execution of tasks. This work proposes a novel way of orchestrating the execution of tasks at a global scale by using distributed task graph discovery and data dependencies in the global memory space. The results demonstrate that applications exhibiting concurrency beyond single loop parallelism may use this new model to significantly improve performance and scalability by combining the benefits of task-based programming and one-sided communication in the PGAS model.Item Open Access Hybrid deep learning approaches on HPC and quantum computing for data analysis(Stuttgart : Höchstleistungsrechenzentrum, Universität Stuttgart, 2024) Zhong, Li; Resch, Michael (Prof. Dr.-Ing. Dr. h.c. Dr. h.c. Prof. E.h.)This thesis explores the transformative role of machine learning, especially deep learning (DL), in engineering simulations, using material science as a key application area. By transitioning from human-driven to computer-analyzed simulations, DL can accelerate simulation workflows and enhance data insights. However, the computational and storage demands of DL present challenges that quantum computing might address. This research investigates how hybrid workflows, combining DL with quantum neural networks (QNNs), can improve tasks such as image classification and partial differential equation (PDE) solving.Item Open Access Interactive parallel post-processing of simulation results on unstructured grids(2014) Niebling, Florian; Resch, Michael (Prof. Dr.-Ing.)Numerical simulations and the assessment of their results are constantly gaining importance in product design and optimization workflows in many different fields of engineering. The availability of massively parallel manycore computing resources enables simulations to be executed with accuracies posing very high requirements on the methods for interactive post-processing of the simulation results. A traditional post-processing of such large-scale simulation datasets on single workstations is often no longer possible due to the limited resources such as main memory, the low number of compute cores and the available network bandwidth to the simulation cluster. In this work, concepts and solutions are presented that enable interactive post-processing of large-scale datasets generated by fluid dynamic simulations on unstructured grids through the use of parallel manycore environments. A software architecture the parallel post-processing and visualization, as well as specific optimizations of frequently used methods for post-processing are introduced that enable the interactive use of parallel manycore resources. The implementation of the methods and algorithms is based on existing manycore devices in the form of programmable graphics hardware, which are no longer solemnly usable for computer graphics applications, but are getting increasingly interesting for general purpose computing. It will be shown, that methods for visualization of fluid simulation data such as the interactive computation of cut-surfaces or particle traces is made possible even for large-scale unstructured data. Additionally, an algorithm for the dense texture-based visualization of flow fields will be introduced that combines the presented methods for the extraction of cut-surfaces, isosurfaces and particle tracing. This algorithm for line integral convolution enables the interactive post-processing of flow fields on partitioned and distributed unstructured grids. The methods introduced in this thesis are evaluated using several large-scale simulation datasets from different fields of engineering in scientific and industrial applications.Item Open Access A light weighted semi-automatically I/O-tuning solution for engineering applications(Stuttgart : Höchstleistungsrechenzentrum, Universität Stuttgart, 2017) Wang, Xuan; Resch, Michael M. (Prof. Dr.-Ing. Dr. h.c. Dr. h.c. Prof. E.h.)Today’s engineering applications running on high performance computing (HPC) platforms generate more and more diverse data simultaneously and require large storage systems as well as extremely high data transfer rates to store their data. To achieve high performance data transfer rate (I/O performance), computer scientists together with HPC manufacturers have developed a lot of innovative solutions. However, how to transfer the knowledge of their solutions to engineers and scientists has become one of the largest barriers. Since the engineers and scientists are experts in their own professional areas, they might not be capable of tuning their applications to the optimal level. Sometimes they might even drop down the I/O performance by mistake. The basic training courses provided by computing centers like HLRS seem to be not sufficient enough to transfer the know-how required. In order to overcome this barrier, I have developed a semi-automatically I/O-tuning solution (SAIO) for engineering applications. SAIO, a light weighted and intelligent framework, is designed to be compatible with as many engineering applications as possible, scalable with large engineering applications, usable for engineers and scientists with little knowledge of parallel I/O, and portable across multiple HPC platforms. Standing upon MPI-IO library allows SAIO to be compatible with MPI-IO based high level I/O libraries, such as parallel HDF5, parallel NetCDF, as well as proprietary and open source software, like Ansys Fluent, WRF Model etc. In addition, SAIO follows current MPI standard, which makes it be portable across many HPC platforms and scalable. SAIO, which is implemented as dynamic library and loaded dynamically, does not require recompiling or changing application's source codes. By simply adding several export directives into their job submission scripts, engineers and scientists will be able to run their jobs more efficiently. Furthermore, an automated SAIO training utility keeps the optimal configurations up to date, without any manuell efforts of user involved.Item Open Access Mikroservicearchitektur-basierte CFD-Simulation von Phänomenen Dynamischer Systeme am Beispiel moderner Bergbaubewetterung(Stuttgart : Höchstleistungsrechenzentrum, Universität Stuttgart, 2021) Cheptsov, Alexey; Resch, Michael (Prof. Dr.-Ing. Dr. h.c. Dr. h.c. Prof. E.h.)Es handelt sich in der Arbeit um Entwicklung neuartiger Ansätze zur strömungsdynamischen Simulation von Untertagebewetterungsobjekten.Item Open Access Model-centric task debugging at scale(Stuttgart : Höchstleistungsrechenzentrum, Universität Stuttgart, 2017) Nachtmann, Mathias; Resch, Michael (Prof. Dr.-Ing. Dr. h.c. Dr. h.c. Prof. E.h.)Chapter 1, Introduction, presents state of the art debugging techniques in high-performance computing. The lack of information out of the programming model, these traditional debugging tools suffer, motivated the model-centric debugging approach. Chapter 2, Technical Background: Parallel Programming Models & Tools, exemplifies the programming models used in the scope of my work. The differences between those models are illustrated, and for the most popular programming models in HPC, examples are attached in this chapter. The chapter also describes Temanejo, the toolchain's front-end, which supports the application developer during his actions. In the following chapter (Chapter 4), Design: Events & Requests in Ayudame, the theory of task" and dependency" representation is stated. The chapter includes the design of different information types, which are later on used for the communication between a programming model and the model-centric debugging approach. In chapter 5, Design: Communication Back-end Ayudame, the design of the back-end tool infrastructure is described in detail. This also includes the problems occurring during the design process and their specific solutions. The concept of a multi-process environment and the usage of different programming models at the same time is also part of this chapter. The following chapter (Chapter 6), Instrumentation of Runtime Systems, briefly describes the information exchange between a programming model and the model-centric debugging approach. The different ways of monitoring and controlling an application through its programming model are illustrated. In chapter 7, Case Study: Performance Debugging, the model-centric debugging approach is used for optimising an application. All necessary optimisation steps are described in detail, with the help of mock-ups. Additionally, a description of the different optimised versions is included in this chapter. The evaluation, done on different hardware architectures, is presented and discussed. This includes not only the behaviour of the versions on different platforms but also architecture specific issues.Item Open Access Optimierte Zuteilungsmechanismen zur Leistungssteigerung von virtuellen Maschinen in Cloud Infrastrukturen(Stuttgart : Höchstleistungsrechenzentrum, Universität Stuttgart, 2020) Gienger, Michael; Resch, Michael M. (Prof. Dr.-Ing. Dr. h.c. Dr. h.c. Prof. E.h.)Cloud Computing ist ein flexibler und leistungsfähiger Ansatz, um Informationstechnologiedienste jeglicher Art zur Verfügung zu stellen. Die Dienste werden mit Hilfe einer Virtualisierungstechnologie bereitgestellt, über die auf einem einzigen Server mehrere virtuelle Instanzen dynamisch und ohne großen Managementaufwand verwaltet werden können. Dadurch können Serviceinstanzen mit limitierten Anforderungen auch leistungsstarken Servern zugeteilt werden, ohne deren Kapazitäten gänzlich zu blockieren. Der Vorteil effizienter Ressourcennutzung hat jedoch auch einen großen Nachteil. Aufgrund des gemeinsamen Ressourcenzugriffs können Prozessor, Hauptspeicher, Netzwerkschnittstelle oder auch lokale Festspeicher überlastet werden, so dass die gesamte Leistungsfähigkeit des Servers und damit aller virtuellen Instanzen sinkt. Ziel dieser Arbeit ist es, das Problem der Überlast in Cloud Umgebungen zu adressieren, um nachhaltig eine erhöhte Anwendungs- oder Diensteffizienz, aber auch eine verbesserte Infrastrukturauslastung, zu erreichen. Dementsprechend werden optimierte Zuteilungsstrategien für virtuelle Instanzen entwickelt, die anhand von spezifischen Anforderungsprofilen komplementäre Arbeitslasten identifizieren und diese effizient den vorhandenen Servern zuteilen können. Hierzu wird ein Mechanismus entwickelt, der sowohl initial mit Hilfe von Benutzerinformationen eine effektive Zuteilung ermöglicht, aber auch durch kontinuierliche Leistungsüberwachung von virtuellen Instanzen reaktiv eine optimale Zuteilung erreicht. Für die Bestimmung der Resultate dieser Arbeit wurde eine prototypische Anwendung implementiert, die die optimierten Zuteilungsstrategien umsetzt. Im Grundsatz basiert diese auf Anwendungscharakteristika und Echtzeitinformationen einer Cloud Infrastruktur, die vor der Bereitstellung einer virtuellen Instanz in Relation gesetzt werden. Somit kann für jede Server/Instanzkombination innerhalb der Cloud Umgebung ein Kostenfaktor berechnet werden, über den der optimale Server ausgewählt wird. Die entwickelte Lösung wurde mit Hilfe einer Anwendung aus dem Bereich Ingenieurswissenschaften in einer modifizierten, privaten Cloud Infrastruktur evaluiert und validiert. Dazu wurden individuelle Szenarien definiert, die sowohl herkömmliche als auch optimierte Zuteilungsmechanismen abbilden. Die gesammelten, realen Messwerte beinhalten folglich Referenzdaten sowie Daten von optimierten Zuteilungen, so dass eine hinreichende Datengrundlage für die Bewertung der Ergebnisse geschaffen werden kann. Die Resultate dieser Arbeit zeigen auf, dass der gewählte Ansatz die Leistungsfähigkeit einer Cloud Infrastruktur und deren Anwendungen deutlich verbessert. So kann bei gleichbleibender Infrastruktureffizienz die Anwendungsleistung durch die optimierte Zuteilung von virtuellen Instanzen um mehr als 20% gesteigert werden. Je nach Anwendungsanforderungen ist im Optimalfall sogar eine Leistungssteigerung um mehrere Faktoren möglich.Item Open Access Optimizing I/O performance with machine learning supported auto-tuning(Stuttgart : Höchstleistungsrechenzentrum, Universität Stuttgart, 2023) Bağbaba, Ayşe; Resch, Michael M. (Prof. Dr.-Ing. Dr. h.c. Dr. h.c. Prof. E.h.)Data access is a considerable challenge because of the scalability limitation of I/O. In addition, some applications spend most of their total execution times in I/O. This causes a massive slowdown and wastage of useful computing resources. Unfortunately, there is not any one-size-fits-all solution to the I/O problems, so I/O becomes a limiting factor for such applications. Parallel I/O is an essential technique for scientific applications running on high-performance computing systems. Typically, parallel I/O stacks offer many parameters that need to be tuned to achieve an I/O performance as good as possible. Unfortunately, there is no default best configuration of these parameters; in practice, these differ not only between systems but often also from one application use case to the other. However, scientific users might not have the time or the experience to explore the parameter space sensibly and choose a proper configuration for each application use case. I present a line of solutions to this problem containing a machine learning supported auto-tuning system which uses performance modelling to optimize I/O performance. I demonstrate the value of these solutions across applications and at scale.Item Open Access Verallgemeinerte Global Address Space Netzwerk-Infrastrukturen für große Multiskalen-Simulationen mit erheblichen Datenmengen(2014) Großmann, Thomas; Resch, Michael (Prof. Dr.- Ing. Dr. h.c. Dr. h.c.)Diese Arbeit handelt von einer Software-Library namens IOFWD. Hierbei werden Daten, die für Dateien bestimmt sind, abgefangen und an spezialsierte IO-Server weitergeleitet. Hierbei werden verschiedene Umgebungen untersucht z.B. Simulationen mit MPI und PGAS Umgebungen wie UPC.