Untersuchung zur Qualität von Fertigungsdaten - ein Beispiel für die Analyse großer Datenmengen

Thumbnail Image

Date

2017

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

In dieser Arbeit wurde prototypisch ein Jupyter Notebook implementiert, dass beim Data Wrangling unterstützt. Hierzu wurde zunächst eine Literaturrecherche durchgeführt. Die Ergebnisse flossen in das Konzept ein. Hauptfokus ist der Aspekt der Datenqualität. Das Notebook versteht sich als flexible Toolbox. Es soll möglich sein, Metriken und Skripte bei Bedarf einzubinden. Hierzu wurde beispielhaft Funktionalität aus unterschiedlichen Quellen eingebunden. Verwendet werden die Sprachen Python, Java und R. Verschiedene Datenqualitätsmetriken ermöglichen es, die Datenqualität zu messen. Dabei werden neben strukturierte Daten auch Textdaten berücksichtigt. Anschließend wurde das Notebook auf Datensätze aus der Praxis angewendet. Hierzu wird ein Überblick über die Daten gegeben. Zusätzlich werden mögliche Datenqualitätsprobleme analysiert. Um die Verarbeitung großer Datenmengen zu unterstützen, wurde die Laufzeit der Metriken betrachtet. Hierzu wurden ausgewählte Metriken in Apache Spark implementiert. Anschließend wurde eine Evaluation durchgeführt. Die ersten Resultate sind vielversprechend. Für die Validierung von Datumsangaben wurde durch eine einfache Implementierung eine Verbesserung der Laufzeit um Faktor 3,6 erreicht.

Description

Keywords

Citation

Endorsement

Review

Supplemented By

Referenced By