Development of a software framework for the generation of data sets with PFLOTRAN
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
This thesis presents the development of a software framework, VampireMan, designed to automate the generation of diverse and reproducible data sets for training surrogate machine learning models in groundwater flow simulations with heat pumps. Groundwater flow and heat transport simulations are important tools for applications like geothermal energy systems, requiring extensive high-quality data sets for accurate predictive modeling. Surrogate machine learning models have emerged as efficient alternatives to computationally expensive numerical simulations, enabling rapid predictions of subsurface temperature fields. The success of these models relies on the availability of diverse and reliable data sets, encompassing variations in physical and operational parameters. However, manual and semi-automated data set creation approaches are limited in scalability and prone to errors.
VampireMan addresses this challenge by automating the entire data generation workflow: systematically varying simulation parameters, generating simulation input files, running simulations with PFLOTRAN, and visualizing outputs. The framework adheres to Research Software Engineering (RSE) and FAIR4RS (Findable, Accessible, Interoperable, and Reusable for Research Software) principles, ensuring reproducibility, scalability, and extensibility.
Key features include reproducible data set generation using different parameter variation modes (fixed, constant, and spatial), modular pipeline stages, and integration with PFLOTRAN. VampireMan's effectiveness is demonstrated through preconfigured examples that showcase parameter variations and simulation workflows. By enabling efficient and reproducibility data set generation, VampireMan can help advancing machine learning applications in environmental engineering, facilitating resource-efficient and real-time decision-making for subsurface energy systems.
Diese Arbeit präsentiert die Entwicklung eines Software-Frameworks, VampireMan, das auf die automatisierte Generierung generalisierter und reproduzierbarer Datensätze zum Training von Machine-learning Modellen für Grundwasserströmungssimulationen mit Wärmepumpen ausgelegt ist. Grundwasserströmungs- und Wärmetransportsimulationen sind wichtige Werkzeuge für Anwendungen wie geothermische Energiesysteme und erfordern umfangreiche, qualitativ hochwertige Datensätze für eine präzise Vorhersagemodellierung. Machine-learning Modelle haben sich als effiziente Alternativen zu rechenintensiven numerischen Simulationen gezeigt, da sie schnelle Vorhersagen von Temperaturfeldern im Untergrund ermöglichen. Der Erfolg dieser Modelle hängt von der Verfügbarkeit generalisierter und zuverlässiger Datensätze ab, die Variationen physikalischer und betrieblicher Parameter umfassen. Manuelle und semi-automatisierte Ansätze zur Erstellung von Datensätzen sind jedoch in ihrer Skalierbarkeit begrenzt und anfällig für Fehler.
VampireMan nimmt sich dieser Herausforderung an, indem die Software den gesamten Workflow der Datengenerierung automatisiert: systematische Variation von Simulationsparametern, Generierung von Simulations-Eingabedateien, Durchführung von Simulationen mit PFLOTRAN und Visualisierung der Ergebnisse. Das Framework folgt den Best-practices des Research Software Engineering (RSE) und Prinzipien des FAIR4RS (Findable, Accessible, Interoperable und Reusable for Research Software) und gewährleistet damit Reproduzierbarkeit, Skalierbarkeit und Erweiterbarkeit.
Zu den Hauptmerkmalen gehören die reproduzierbare Generierung von Datensätzen mit unterschiedlichen Parametervariationsmodi (fix, konstant und räumlich), modulare Pipeline-Schritten und die Integration mit PFLOTRAN. Die Effektivität von VampireMan wird anhand vorkonfigurierter Beispiele demonstriert, die Parametervariationen und Simulations-Workflows veranschaulichen. Durch die effiziente und reproduzierbare Generierung von Datensätzen kann VampireMan dazu beitragen, die Anwendungen des maschinellen Lernens in der Umwelttechnik voranzutreiben, ressourceneffiziente und Echtzeit-Entscheidungsfindung für Energiesysteme im Untergrund zu ermöglichen.