Please use this identifier to cite or link to this item: http://dx.doi.org/10.18419/opus-10690
Authors: Popp, Matthias
Title: Comprehensive Support of the Lifecycle of Machine Learning Models in Model Management Systems
Other Titles: Umfassende Unterstützung des Lebenszyklus von Machine-Learning-Modellen in Model-Management-Systemen
Issue Date: 2019
metadata.ubs.publikation.typ: Abschlussarbeit (Master)
metadata.ubs.publikation.seiten: 69
URI: http://elib.uni-stuttgart.de/handle/11682/10707
http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-107078
http://dx.doi.org/10.18419/opus-10690
Abstract: Today, Machine Learning (ML) is entering many economic and scientific fields. The lifecycle of ML models includes data pre-processing to transform raw data into features, training a model with the features, and providing the model to answer predictive queries. The challenge is to ensure accurate predictions by continuously updating the model with automatic or manual retraining. To be aware of all changes, e.g. datasets and parameters, it is required to store metadata over the entire ML lifecycle. In this thesis we present a concept and system for comprehensive support of the ML lifecycle. The concept includes a metadata schema, as well as a solution to collect and enrich the metadata. The metadata schema contains information about the experiment, runs, executions, executables and common artifacts in ML such as datasets, models, and metrics. The stored information can be used for comparisons, re-iterations, and backtracking of ML experiments. We achieve this by tracking the lineage of ML pipeline steps and collecting metadata such as hyperparameters. Furthermore, a prototype is implemented to demonstrate and evaluate the concept. A case study, based on a selected scenario, serves as the basis for a qualitative assessment. The case study shows that the concept meets all the requirements and is therefore a suitable approach to comprehensively support ML model lifecycle.
Heutzutage dringt Machine Learning (ML) in viele wirtschaftliche und wissenschaftliche Bereiche vor. Der Lebenszyklus von ML Modellen umfasst im Wesentlichen die Datenvorverarbeitung für das Training des Modells, das Training selbst und die Bereitstellung des Modells zur Beantwortung von Vorhersageanfragen. Da sich Daten mit der Zeit ändern, können Modelle an Genauigkeit verlieren. Deswegen werden ML Pipelines eingesetzt, die das Modell regelmäßig neu trainieren damit es kontinuierlich genaue Vorhersagen liefert. Trotzdem treten immer wieder Fehler in den Pipelines auf. Oft fehlen jedoch die benötigten Metadaten, um diese zu erkennen. Die Herausforderung besteht darin, die benötigten Metadaten in geeigneter Form zu speichern und für Datenwissenschaftler aufzubereiten. Im Rahmen dieser Arbeit wird ein Konzept zur Metadatenerfassung für den kompletten Lebenszyklus von ML Modellen vorgestellt und an einem Prototyp verprobt. Hierfür werden verschiedene Metadaten und Artefakte während der Nutzungs- und Wartungsphase des Modells gesammelt und gespeichert. Dazu gehören alle deskriptiven und strukturellen Metadaten über die Schritte und deren Reihenfolge sowie die verwendeten Ein- und Ausgangsartefakte wie Datensätze, Modelle und Metriken. Es wird ein Metadatenschema entworfen, das innerhalb des Prototyps umgesetzt wird. Abschließend erfolgt eine Bewertung des Konzepts mittels einer Fallstudie. Abschließend wird demonstriert wie der geschaffene Prototyp Datenwissenschaftler bei einem konkreten Szenario der Root-Cause-Analyse von fehlerhaften ML Modellen unterstützt. Die Fallstudie zeigt, dass das Konzept alle Anforderungen erfüllt und somit ein geeigneter Ansatz ist, um den ML Modelllebenszyklus umfassend zu unterstützen.
Appears in Collections:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Files in This Item:
File Description SizeFormat 
Master-Thesis-Matthias-Popp.pdf1,78 MBAdobe PDFView/Open


Items in OPUS are protected by copyright, with all rights reserved, unless otherwise indicated.