Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-11967
Autor(en): Schmidt, Simone
Titel: Concepts towards an automated data pre-processing and preparation within data lakes
Sonstige Titel: Konzepte für automatisierte Datenvorverarbeitung und -aufbereitung in Data Lakes
Erscheinungsdatum: 2021
Dokumentart: Abschlussarbeit (Master)
Seiten: 91
URI: http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-119844
http://elib.uni-stuttgart.de/handle/11682/11984
http://dx.doi.org/10.18419/opus-11967
Zusammenfassung: The Internet of Things produces huge amounts of heterogeneous data. Fields like Industry 4.0, smart city development, or the healthcare sector analyse this big data to serve as a basis for many applications. With their central storage, where heterogeneous data is stored in its original format, data lakes allow the analysis of data towards any use case. This schema-on-read approach leaves the transformation of data into an appropriate schema to the user. To achieve this, users need knowledge about the stored data, domain knowledge, and IT knowledge. The people who need the analysis results however are often domain experts and not IT experts. Possibilities for assisting users in data preparation for novel use cases in data lakes are explored in the scope of this work. Reasons for the difficulty of data pre-processing in data lakes are explored and requirements for a concept for user assistance are derived. Steps are extracted, which a user takes in developing data preparation for a new use case in data lakes. Existing concepts in literature for assisting users in those steps are explored. It is found, that sufficient assistance in data discovery is provided by existing solutions. The support for technical realisation is almost sufficient, but assistance in choosing the right transformations is still lacking. Based on the lessons learned from the analysis of existing solutions a new concept is developed. The concept is based on BARENTS, a data lake concept that enables specification of data preparation in the form of ontologies and automatically performs specified transformations. A new transformation recommender helps users in choosing transformations and creating the ontology to specify data preparation. With a prototypical implementation of the concept, it is demonstrated, how users are assisted in specifying their data preparation needs. The concept is shown to fulfill the stated requirements and enables flexible, user-friendly specification of data pre-processing needs within data lakes.
Durch das Internet der Dinge werden große Mengen heterogener Daten generiert. Bereiche wie Industrie 4.0, Smart City oder das Gesundheitswesen analysieren diese als Grundlage für viele Anwendungen. Mit einem zentralen Speicher, in dem Rohdaten in ihrem Ursprungsformat gespeichert werden, ermöglichen Data Lakes die Analyse von Daten für beliebige Anwendungsfälle. Dieser Schema-on-Read Ansatz überlässt die Schematransformation von Daten dem Nutzer. Hierfür brauchen Nutzer Wissen über die gespeicherten Daten, domänenspezifisches Wissen und IT Kentnisse. Personen, die die Analyseergebnisse brauchen sind allerdings meist Domänenexperten und keine IT-Experten. In dieser Arbeit werden Möglichkeiten zur Nutzerunterstützung bei der Datenvorverarbeitung für neue Anwendungsfälle in Data Lakes untersucht. Gründe, welche die Datenvorverarbeitung in Data Lakes erschweren, werden untersucht und Anforderungen an ein Konzept zur Nutzerunterstützung werden abgeleitet. Schritte, welche ein Nutzer bei der Umsetzung von Datenvorverarbeitung in Data Lakes durchführen muss, werden herausgearbeitet. Literatur zu bestehenden Ansätzen der Nutzerunterstützung bei diesen Schritten wird untersucht. Dabei zeigt sich, dass bestehende Konzepte ausreichende Unterstützung beim Auffinden von Daten bieten und die Unterstützung bei der technischen Umsetzung fast ausreichend ist. Unterstützung bei der Wahl der passenden Datentransformationen ist jedoch ungenügend. Aufgrund der gewonnenen Erkentnisse wird ein neues Konzept entwickelt. Dieses basiert auf BARENTS, welches die Spezifikation von Datenvorverarbeitung in der Form von Ontologien ermöglicht und spezifizierte Transformationen automatisch umsetzt. Ein neuartiges Empfehlungssystem für Transformationen unterstützt Nutzer bei der Auswahl von Transformationen und der Spezifikation der Datenvorverarbeitung als Ontologie. Mithilfe einer prototypischen Implementierung des Konzeptes wird gezeigt, wie Nutzer bei der Spezifikation von Datenvorverarbeitung unterstützt werden können. Es kann gezeigt werden, dass das Konzept die aufgezeigten Anforderungen erfüllt und eine fexible, nutzerfreundliche Spezifikation von Datenvorverarbeitung in Data Lakes ermöglicht.
Enthalten in den Sammlungen:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
Ausarbeitung_Simone_Schmidt.pdf1,25 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.