Please use this identifier to cite or link to this item: http://dx.doi.org/10.18419/opus-10517
Authors: Eichler, Rebecca Kay
Title: Metadata management in the data lake architecture
Other Titles: Metadatenmanagement in der Data-Lake-Architektur
Issue Date: 2019
metadata.ubs.publikation.typ: Abschlussarbeit (Master)
metadata.ubs.publikation.seiten: 71
URI: http://elib.uni-stuttgart.de/handle/11682/10534
http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-105346
http://dx.doi.org/10.18419/opus-10517
Abstract: The big data era has introduced a set of new challenges, one of which is the efficient storage of data at scale. As a result, the data lake concept was developed. It is a highly scalable storage repository, explicitly designed to handle (raw) data at scale and to support the big data characteristics. In order to fully exploit the strengths of the data lake concept, pro-active data governance and metadata management are required. Without data governance or metadata management, a data lake can turn into a data swamp. A data swamp signifies that the data has become useless, or has lost in value for a variety of reasons, therefore it is important to avoid this condition. In the scope of this thesis a concept for metadata management in data lakes is developed. The concept is explicitly designed to support all aspects of a data lake architecture. Furthermore, it enables to fully exploit the strengths of the data lake concept and it supports both classic data lake use cases as well as organization specific use cases. The concept is tested by applying it to a data inventory, data lineage and data access use case. Furthermore, a prototype is implemented demonstrating the concept through exemplary metadata and use case specific functionality. Finally, the suitability and realization of the use cases, the concept and the prototype are discussed. The discussion yields that the concept meets the requirements and is therefore suitable for the initial motivation of metadata management and data governance.
Mit der Big Data Ära sind eine Reihe neuer Herausforderungen entstanden. Unter anderem gehört dazu das effiziente Persistieren der Daten. In diesem Kontext wurde das Data Lake Konzept entwickelt. Es ist ein Repository für besonders große Mengen an (Roh-) Daten unterschiedlichster Art. Daten liegen in Data Lakes oft in großen Mengen undokumentiert vor. Das führt dazu, dass nicht klar ist welche Daten vorhanden und brauchbar sind. In diesem Zustand bezeichnet man den Data Lake als Data Swamp. Um die Entwicklung eines Data Swamps zu vermeiden, muss proaktiv Data Governance und Metadatenmanagement durchgeführt werden. Im Rahmen dieser Arbeit wird ein Konzept für das Metadatenmanagement in Data Lakes entwickelt. Das Konzept ist explizit darauf ausgelegt, die unterschiedlichen Ebenen einer Data Lake Architektur zu unterstützen. Darüber hinaus ermöglicht es, die Stärken des Data Lake Konzepts besser auszuschöpfen und unterstütz sowohl klassische Data Lake Use Cases als auch unternehmensspezifische Use Cases. Der Entwurf des Konzept basiert auf einer Reihe von Data Lake typischen Anwendungsfällen und wird später anhand dieser getestet. Dazu gehören die Inventar-, Daten-Abstammungs- und Daten-Zugriffs Anwendungsfälle. Zudem wird ein Prototyp implementiert, welcher das Konzepts durch exemplarische Metadaten und Anwendungsfall spezifische Funktionen demonstriert. Zuletzt wird die Eignung und Umsetzung der Anwendungsfälle, des Konzepts und des Prototyps diskutiert. Es wird gezeigt, dass das Konzept den definierten Anforderungen entspricht und somit Metadatenmanagement und Data Governance im Data Lake ermöglicht.
Appears in Collections:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Files in This Item:
File Description SizeFormat 
Masterarbeit_Rebecca_Eichler_Metadata_Management_in_the_Data_Lake_Architecture.pdf2,14 MBAdobe PDFView/Open


Items in OPUS are protected by copyright, with all rights reserved, unless otherwise indicated.