Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-12817
Autor(en): Schubert, Tim
Titel: Context-aware data validation for machine learning pipelines
Sonstige Titel: Kontextsentitive Datenvalidierung für Pipelines für maschinelles Lernen
Erscheinungsdatum: 2022
Dokumentart: Abschlussarbeit (Master)
Seiten: 78
URI: http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-128366
http://elib.uni-stuttgart.de/handle/11682/12836
http://dx.doi.org/10.18419/opus-12817
Zusammenfassung: These days, machine learning plays a key role in plenty of applications. Self-learning algorithms are developed in not only industrial applications, e.g., production lines, or fleet management, but also in the private sector, e.g. smart homes. The performance of these programs is significantly related to the provided training data. A major challenge is preserving high quality of the data. Therefore, the demand for good data cleaning methods has been increasing over the past few years. While existing cleaning techniques can consider constraints and dependencies in data, they can not exploit context information automatically. Thus, they usually fail to track shifts in the data distributions or the associated error profiles. To overcome these limitations, this thesis introduces a novel pipeline for automated tabular data cleaning powered by dynamic functional dependency rules extracted from a context model. This context model is a live updating ontology, representing the current state of the environment where the data originates from. The proposed concept divides the pipeline into three main steps: (i) context modeling, (ii) dependency extraction, and (iii) data cleaning. As a proof-of-concept and for evaluation purposes, a prototype has been implemented. This prototype is evaluated on two different datasets, including an IoT dataset from a smart home use case and a commonly used benchmark dataset with different metrics from hospitals in the US. The evaluation shows that the proposed concept and pipeline for the data validation process performs better than typical state-of-the-art error detection methods.
Heutzutage spielt maschinelles Lernen in vielen Anwendungen eine Schlüsselrolle. Selbstlernende Algorithmen werden nicht nur für industrielle Anwendungen, z. B. in der Produktion oder im Flottenmanagement, sondern auch für den privaten Bereich, z. B. Smart Homes, entwickelt. Die Leistung dieser Programme hängt wesentlich von den bereitgestellten Trainingsdaten ab. Eine große Herausforderung besteht darin, Daten in hoher Qualität zu sammeln und diese zu erhalten. Daher ist die Nachfrage nach guten Fehlererkennungsmethoden in den letzten Jahren gestiegen. Bestehende Verfahren zu Fehlerbeseitigung können zwar Einschränkungen und Abhängigkeiten in den Daten berücksichtigen, aber sie können diese Kontextinformationen nicht automatisch nutzen. Daher sind sie in der Regel nicht in der Lage, Verschiebungen von Datenverteilungen oder die damit verbundenen Fehler zu erfassen. Um diese Einschränkungen zu überwinden, wird in dieser Arbeit eine neuartige Methode für die automatische Fehlererkennung und -verbesserung von Datensätzen vorgestellt. Diese basiert auf dynamischen Abhängigkeitsregeln, die aus einem Kontextmodell extrahiert werden. Das Kontextmodell ist eine sich ständig aktualisierende Ontologie, die den aktuellen Zustand der Umgebung widerspiegelt. Das eingeführte Konzept unterteilt die Datenvalidierung in drei Hauptschritte: (i) Kontextmodellierung, (ii) automatische Extraktion von Abhängigkeiten und (iii) Datenbereinigung. Als Proof-of-Concept und zu Evaluierungszwecken wurde ein Prototyp implementiert. Dieser Prototyp wurde an zwei verschiedenen Datensätzen evaluiert, darunter ein IoT Datensatz aus einem Smart-Home-Anwendungsfall und ein häufig verwendeter Benchmark-Datensatz mit verschiedenen Metriken über Krankenhäuser in den Vereinigten Staaten von Amerika. Die Evaluierung zeigt, dass das vorgeschlagene Konzept und die Pipeline für den Datenvalidierungsprozess besser abschneidet als dem Stand der Technik entsprechende Fehlererkennungsmethoden.
Enthalten in den Sammlungen:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
MA_TimSchubert.pdf2,21 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.