Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-10862
Langanzeige der Metadaten
DC ElementWertSprache
dc.contributor.authorWinckler, Magdalena-
dc.date.accessioned2020-05-20T12:14:55Z-
dc.date.available2020-05-20T12:14:55Z-
dc.date.issued2020de
dc.identifier.other169993231X-
dc.identifier.urihttp://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-108797de
dc.identifier.urihttp://elib.uni-stuttgart.de/handle/11682/10879-
dc.identifier.urihttp://dx.doi.org/10.18419/opus-10862-
dc.description.abstractIn der heutigen Zeit entstehen tagtäglich immer mehr Daten. Um diese nutzen zu können, müssen sie gespeichert, verarbeitet und analysiert werden. Da dies bei immer größer werdenden Datensätzen, welche gleichzeitig heterogen sein können, viele neue Anforderungen mit sich bringt, entstehen auch immer wieder neue Technologien. So wird es immer schwerer relevante Daten herauszufiltern oder diese zu bereinigen. Eine dieser Technologien ist der Data Lake. Ein Data Lake ist ein System in dem jegliche Arten von Daten gespeichert und zu einem späteren Zeitpunkt bei Verwendung bereitgestellt werden können. Oft wird jedoch ein Data Lake mit einem Hadoop-Cluster gleichgesetzt. Um einen Data Lake effizienter zu konzeptionieren, wird in der Literatur deshalb oft darauf hingewiesen, dass auch auf andere Technologien innerhalb eines Data Lakes zurückgegriffen werden soll. Gleichzeitig kann ein Data Lake in unterschiedliche Zonen aufgeteilt werden, um diesen effizienter zu nutzen. Die Aufteilung eines Data Lakes in Zonen, wird allgemein als Zonenmodell bezeichnet. Bisher gibt es jedoch nur wenige wissenschaftliche Arbeiten, welche sich sowohl mit der Konzeptionierung als auch mit der Implementierung eines Data Lakes mit mehreren Technologien beschäftigt. In dieser Arbeit wird ein Konzept eines Data Lakes mit mehreren Technologien entworfen und dieses prototypisch umgesetzt. Um dies zu erreichen werden unterschiedliche Zonenmodelle und bereits in der Literatur vorhandene Anwendungen dieser auf einen Data Lake betrachtet. Anschließend wird ein Beispieldatensatz vorgestellt, anhand dessen unterschiedliche Anwendungsfälle entworfen werden. Um den Data Lake mit anderen Technologien zu erweitern, werden zudem unterschiedliche Datenbankarten vorgestellt. Darauf folgt in einer prototypischen Umsetzung die Übertragung der Daten von einem Hadoop-Cluster in die unterschiedlichen Datenbanken. Abschließend folgt eine Evaluation und eine Zusammenfassung der Arbeit.de
dc.language.isodede
dc.rightsinfo:eu-repo/semantics/openAccessde
dc.subject.ddc004de
dc.titleUmsetzung anwendungsspezifischer ETL-Prozesse im Data Lakede
dc.title.alternativeRealizing use-specific ETL Processes in the Data Lakeen
dc.typebachelorThesisde
ubs.fakultaetInformatik, Elektrotechnik und Informationstechnikde
ubs.institutInstitut für Parallele und Verteilte Systemede
ubs.publikation.seiten57de
ubs.publikation.typAbschlussarbeit (Bachelor)de
Enthalten in den Sammlungen:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
Thesis.pdf1,18 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.