Please use this identifier to cite or link to this item: http://dx.doi.org/10.18419/opus-10517
Full metadata record
DC FieldValueLanguage
dc.contributor.authorEichler, Rebecca Kay-
dc.date.accessioned2019-08-21T10:39:56Z-
dc.date.available2019-08-21T10:39:56Z-
dc.date.issued2019de
dc.identifier.other1676158715-
dc.identifier.urihttp://elib.uni-stuttgart.de/handle/11682/10534-
dc.identifier.urihttp://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-105346de
dc.identifier.urihttp://dx.doi.org/10.18419/opus-10517-
dc.description.abstractThe big data era has introduced a set of new challenges, one of which is the efficient storage of data at scale. As a result, the data lake concept was developed. It is a highly scalable storage repository, explicitly designed to handle (raw) data at scale and to support the big data characteristics. In order to fully exploit the strengths of the data lake concept, pro-active data governance and metadata management are required. Without data governance or metadata management, a data lake can turn into a data swamp. A data swamp signifies that the data has become useless, or has lost in value for a variety of reasons, therefore it is important to avoid this condition. In the scope of this thesis a concept for metadata management in data lakes is developed. The concept is explicitly designed to support all aspects of a data lake architecture. Furthermore, it enables to fully exploit the strengths of the data lake concept and it supports both classic data lake use cases as well as organization specific use cases. The concept is tested by applying it to a data inventory, data lineage and data access use case. Furthermore, a prototype is implemented demonstrating the concept through exemplary metadata and use case specific functionality. Finally, the suitability and realization of the use cases, the concept and the prototype are discussed. The discussion yields that the concept meets the requirements and is therefore suitable for the initial motivation of metadata management and data governance.en
dc.description.abstractMit der Big Data Ära sind eine Reihe neuer Herausforderungen entstanden. Unter anderem gehört dazu das effiziente Persistieren der Daten. In diesem Kontext wurde das Data Lake Konzept entwickelt. Es ist ein Repository für besonders große Mengen an (Roh-) Daten unterschiedlichster Art. Daten liegen in Data Lakes oft in großen Mengen undokumentiert vor. Das führt dazu, dass nicht klar ist welche Daten vorhanden und brauchbar sind. In diesem Zustand bezeichnet man den Data Lake als Data Swamp. Um die Entwicklung eines Data Swamps zu vermeiden, muss proaktiv Data Governance und Metadatenmanagement durchgeführt werden. Im Rahmen dieser Arbeit wird ein Konzept für das Metadatenmanagement in Data Lakes entwickelt. Das Konzept ist explizit darauf ausgelegt, die unterschiedlichen Ebenen einer Data Lake Architektur zu unterstützen. Darüber hinaus ermöglicht es, die Stärken des Data Lake Konzepts besser auszuschöpfen und unterstütz sowohl klassische Data Lake Use Cases als auch unternehmensspezifische Use Cases. Der Entwurf des Konzept basiert auf einer Reihe von Data Lake typischen Anwendungsfällen und wird später anhand dieser getestet. Dazu gehören die Inventar-, Daten-Abstammungs- und Daten-Zugriffs Anwendungsfälle. Zudem wird ein Prototyp implementiert, welcher das Konzepts durch exemplarische Metadaten und Anwendungsfall spezifische Funktionen demonstriert. Zuletzt wird die Eignung und Umsetzung der Anwendungsfälle, des Konzepts und des Prototyps diskutiert. Es wird gezeigt, dass das Konzept den definierten Anforderungen entspricht und somit Metadatenmanagement und Data Governance im Data Lake ermöglicht.de
dc.language.isoende
dc.rightsinfo:eu-repo/semantics/openAccessde
dc.subject.ddc004de
dc.titleMetadata management in the data lake architectureen
dc.title.alternativeMetadatenmanagement in der Data-Lake-Architekturde
dc.typemasterThesisde
ubs.fakultaetInformatik, Elektrotechnik und Informationstechnikde
ubs.institutInstitut für Parallele und Verteilte Systemede
ubs.publikation.seiten71de
ubs.publikation.typAbschlussarbeit (Master)de
Appears in Collections:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Files in This Item:
File Description SizeFormat 
Masterarbeit_Rebecca_Eichler_Metadata_Management_in_the_Data_Lake_Architecture.pdf2,14 MBAdobe PDFView/Open


Items in OPUS are protected by copyright, with all rights reserved, unless otherwise indicated.