Umsetzung anwendungsspezifischer ETL-Prozesse im Data Lake

dc.contributor.authorWinckler, Magdalena
dc.date.accessioned2020-05-20T12:14:55Z
dc.date.available2020-05-20T12:14:55Z
dc.date.issued2020de
dc.description.abstractIn der heutigen Zeit entstehen tagtäglich immer mehr Daten. Um diese nutzen zu können, müssen sie gespeichert, verarbeitet und analysiert werden. Da dies bei immer größer werdenden Datensätzen, welche gleichzeitig heterogen sein können, viele neue Anforderungen mit sich bringt, entstehen auch immer wieder neue Technologien. So wird es immer schwerer relevante Daten herauszufiltern oder diese zu bereinigen. Eine dieser Technologien ist der Data Lake. Ein Data Lake ist ein System in dem jegliche Arten von Daten gespeichert und zu einem späteren Zeitpunkt bei Verwendung bereitgestellt werden können. Oft wird jedoch ein Data Lake mit einem Hadoop-Cluster gleichgesetzt. Um einen Data Lake effizienter zu konzeptionieren, wird in der Literatur deshalb oft darauf hingewiesen, dass auch auf andere Technologien innerhalb eines Data Lakes zurückgegriffen werden soll. Gleichzeitig kann ein Data Lake in unterschiedliche Zonen aufgeteilt werden, um diesen effizienter zu nutzen. Die Aufteilung eines Data Lakes in Zonen, wird allgemein als Zonenmodell bezeichnet. Bisher gibt es jedoch nur wenige wissenschaftliche Arbeiten, welche sich sowohl mit der Konzeptionierung als auch mit der Implementierung eines Data Lakes mit mehreren Technologien beschäftigt. In dieser Arbeit wird ein Konzept eines Data Lakes mit mehreren Technologien entworfen und dieses prototypisch umgesetzt. Um dies zu erreichen werden unterschiedliche Zonenmodelle und bereits in der Literatur vorhandene Anwendungen dieser auf einen Data Lake betrachtet. Anschließend wird ein Beispieldatensatz vorgestellt, anhand dessen unterschiedliche Anwendungsfälle entworfen werden. Um den Data Lake mit anderen Technologien zu erweitern, werden zudem unterschiedliche Datenbankarten vorgestellt. Darauf folgt in einer prototypischen Umsetzung die Übertragung der Daten von einem Hadoop-Cluster in die unterschiedlichen Datenbanken. Abschließend folgt eine Evaluation und eine Zusammenfassung der Arbeit.de
dc.identifier.other169993231X
dc.identifier.urihttp://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-108797de
dc.identifier.urihttp://elib.uni-stuttgart.de/handle/11682/10879
dc.identifier.urihttp://dx.doi.org/10.18419/opus-10862
dc.language.isodede
dc.rightsinfo:eu-repo/semantics/openAccessde
dc.subject.ddc004de
dc.titleUmsetzung anwendungsspezifischer ETL-Prozesse im Data Lakede
dc.title.alternativeRealizing use-specific ETL Processes in the Data Lakeen
dc.typebachelorThesisde
ubs.fakultaetInformatik, Elektrotechnik und Informationstechnikde
ubs.institutInstitut für Parallele und Verteilte Systemede
ubs.publikation.seiten57de
ubs.publikation.typAbschlussarbeit (Bachelor)de

Files

Original bundle

Now showing 1 - 1 of 1
Thumbnail Image
Name:
Thesis.pdf
Size:
1.16 MB
Format:
Adobe Portable Document Format
Description:

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
3.39 KB
Format:
Item-specific license agreed upon to submission
Description: