Umsetzung anwendungsspezifischer ETL-Prozesse im Data Lake

Winckler, Magdalena

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-10862

Autor(en):	Winckler, Magdalena
Titel:	Umsetzung anwendungsspezifischer ETL-Prozesse im Data Lake
Sonstige Titel:	Realizing use-specific ETL Processes in the Data Lake
Erscheinungsdatum:	2020
Dokumentart:	Abschlussarbeit (Bachelor)
Seiten:	57
URI:	http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-108797 http://elib.uni-stuttgart.de/handle/11682/10879 http://dx.doi.org/10.18419/opus-10862
Zusammenfassung:	In der heutigen Zeit entstehen tagtäglich immer mehr Daten. Um diese nutzen zu können, müssen sie gespeichert, verarbeitet und analysiert werden. Da dies bei immer größer werdenden Datensätzen, welche gleichzeitig heterogen sein können, viele neue Anforderungen mit sich bringt, entstehen auch immer wieder neue Technologien. So wird es immer schwerer relevante Daten herauszufiltern oder diese zu bereinigen. Eine dieser Technologien ist der Data Lake. Ein Data Lake ist ein System in dem jegliche Arten von Daten gespeichert und zu einem späteren Zeitpunkt bei Verwendung bereitgestellt werden können. Oft wird jedoch ein Data Lake mit einem Hadoop-Cluster gleichgesetzt. Um einen Data Lake effizienter zu konzeptionieren, wird in der Literatur deshalb oft darauf hingewiesen, dass auch auf andere Technologien innerhalb eines Data Lakes zurückgegriffen werden soll. Gleichzeitig kann ein Data Lake in unterschiedliche Zonen aufgeteilt werden, um diesen effizienter zu nutzen. Die Aufteilung eines Data Lakes in Zonen, wird allgemein als Zonenmodell bezeichnet. Bisher gibt es jedoch nur wenige wissenschaftliche Arbeiten, welche sich sowohl mit der Konzeptionierung als auch mit der Implementierung eines Data Lakes mit mehreren Technologien beschäftigt. In dieser Arbeit wird ein Konzept eines Data Lakes mit mehreren Technologien entworfen und dieses prototypisch umgesetzt. Um dies zu erreichen werden unterschiedliche Zonenmodelle und bereits in der Literatur vorhandene Anwendungen dieser auf einen Data Lake betrachtet. Anschließend wird ein Beispieldatensatz vorgestellt, anhand dessen unterschiedliche Anwendungsfälle entworfen werden. Um den Data Lake mit anderen Technologien zu erweitern, werden zudem unterschiedliche Datenbankarten vorgestellt. Darauf folgt in einer prototypischen Umsetzung die Übertragung der Daten von einem Hadoop-Cluster in die unterschiedlichen Datenbanken. Abschließend folgt eine Evaluation und eine Zusammenfassung der Arbeit.
Enthalten in den Sammlungen:	05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:

Datei	Beschreibung	Größe	Format
Thesis.pdf		1,18 MB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige

Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.

Universität Stuttgart

OPUS - Online Publikationen der Universität Stuttgart