Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-11324
Autor(en): Geiger, Fabian
Titel: Realisierung des Zonenreferenzmodells auf Datenströmen
Erscheinungsdatum: 2020
Dokumentart: Abschlussarbeit (Bachelor)
Seiten: 58
URI: http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-113413
http://elib.uni-stuttgart.de/handle/11682/11341
http://dx.doi.org/10.18419/opus-11324
Zusammenfassung: Durch die zunehmende Digitalisierung erheben und verarbeiten Unternehmen und Organisationen eine wachsende Menge verschiedenster Daten. Ein Konzept für eine Software-Plattform zur Verwaltung, Verarbeitung und Analyse solch großer Datenmengen ist ein Data Lake. Die Kernidee eines Data Lake besteht darin, sämtliche Rohdaten zu erfassen, zu speichern und erst dann zu verarbeiten, wenn diese verwendet werden müssen. In einem zonenbasierten Data Lake werden Daten und Verarbeitungslogik abhängig vom Verarbeitungsgrad der Daten in verschiedene Zonen eingeteilt. Generell mangelt es in der wissenschaftlichen Literatur allerdings an Vorgehensweisen, Architekturbeschreibungen und Implementierungen von Data-Lake-Plattformen. Um eine Referenzarchitektur für zonenbasierte Data Lakes zu schaffen, entwickelten Giebler, Gröger et al. das Zonenreferenzmodell. Diese Arbeit umfasst die Konzeption, den Entwurf, die prototypische Implementierung sowie die Evaluation einer zonenbasierten Data-Lake-Architektur unter Verwendung des Zonenreferenzmodells. Dabei soll die Datenübertragung und -verarbeitung mithilfe von Datenströmen geschehen. Das Zonenreferenzmodell kann grundsätzlich auf eine Datenstromverarbeitung angewandt werden, allerdings lässt sich in der wissenschaftlichen Literatur noch keine Beschreibung des Modells im Streaming-Kontext auffinden. Diese Arbeit liefert ein entsprechendes Konzept nach. Anhand eines fiktiven Anwendungsszenarios, in welchem Daten zur Ausbreitung der Coronavirus-Pandemie gesammelt, verarbeitet und explorativ ausgewertet werden sollen, entstand eine zonenbasierte Data-Lake-Architektur, die Datensätze aus mehreren Datenstromquellen erhält und diese zur weiteren Nutzung transformiert, aggregiert und kombiniert. Die Implementierung erfolgte unter Einsatz der Technologien Apache Spark, Apache Kafka sowie Apache Cassandra. Bei der Evaluation der entstandenen Architektur und Implementierung zeigte sich eine hohe Wiederverwendbarkeit der rohen und vorverarbeiteten Daten sowie eine gute Skalierbarkeit der Komponenten. Zudem wurde deutlich, dass die Datenverarbeitung über mehrere Zonen hinweg zwar erheblich langsamer geschieht als mithilfe einer einzelnen Applikation, sich aber dennoch im Echtzeitbereich bewegt. Für äußerst zeitkritische Anwendungsfälle ist die entstandene Implementierung allerdings ungeeignet.
Enthalten in den Sammlungen:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
Realisierung-des-Zonenreferenzmodells-auf-Datenstr+Âmen-Fabian-Geiger-Bachelorarbeit[1].pdf2,55 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.