Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-11554
Langanzeige der Metadaten
DC ElementWertSprache
dc.contributor.authorAltvater, Marc Arthur-
dc.date.accessioned2021-07-01T13:03:38Z-
dc.date.available2021-07-01T13:03:38Z-
dc.date.issued2021de
dc.identifier.other1762701405-
dc.identifier.urihttp://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-115719de
dc.identifier.urihttp://elib.uni-stuttgart.de/handle/11682/11571-
dc.identifier.urihttp://dx.doi.org/10.18419/opus-11554-
dc.description.abstractDie Menge an weltweit generierten Daten, sowohl im privaten, als auch vor allem im wirtschaftlichen Umfeld wächst stetig. Daraus entsteht einerseits eine große Nachfrage nach Methoden, um das Volumen der Daten zu verarbeiten und schließlich daraus Wissen zu gewinnen. Andererseits benötigt es auch technologische Konzepte, um diese Daten schnell und kostengünstig speichern zu können. In diesem Bereich hat sich Data Science als Wissenschaftszweig etabliert, mit dem Ziel, Methoden aus verschiedenen Bereichen der Mathematik und Informatik zu nutzen, um fundiertes Wissen aus den zugrundeliegenden Daten zu extrahieren. Im Umfeld von Big Data gewinnen dagegen Data Lakes an Bedeutung, da sie es ermöglichen, (unternehmensweite) Daten zentral zu sammeln und in ihrem rohen, unverarbeiteten Zustand zu speichern. Durch die Erhaltung des ursprünglichen Zustands der Daten werden keine Informationen eingebüßt. Jedoch ist diese Art der Datenhaltung ineffizient. Aus diesem Grund wurden Zonenmodelle entwickelt, um Daten innerhalb eines Data Lakes in unterschiedliche Bereiche nach ihrem jeweiligen Verarbeitungsgrad zu unterteilen. Data Scientisten werden hierbei oftmals als Experten im Bereich der Datenanalyse einbezogen. Viele der vorhandenen Zonenmodelle stellen ihnen daher isolierte Bereiche für die Erprobung ihrer Methoden zur Verfügung. Jedoch gibt es wenig Forschung, welche die praktischen Anforderungen von Data Scientisten bei der Arbeit mit zonenbasierten Data Lakes betrachtet. Diese Arbeit befasst sich daher mit der Umsetzbarkeit von Data-Science-Anwendungsfällen in zonenbasierten Data Lakes. Hierfür werden sowohl allgemeine Anforderungen für Data Science, als auch charakteristische Beispiele anhand des Produktlebenszyklus, definiert. Im Anschluss wird daraus ein konzeptionelles Vorgehen für den Prozess der Datenanalyse abgeleitet, welches mittels einer prototypischen Implementierung erprobt wird. Bei der Evaluation der gewonnenen Erkenntnisse wird zudem zwischen der Nutzung einer zonenbasierten und einer zonenlosen Data-Lake-Architektur unterschieden. Es stellt sich heraus, dass durch die Einführung einer klaren Struktur und der konsequenten Speicherung der Daten in ihren jeweiligen Verarbeitungsgraden zusätzlicher Speicherplatz erforderlich wird. Jedoch profitiert die explorative Datenanalyse signifikant von der Nutzung der vorab berechneten Ergebnisse, was in messbar kürzeren Rechenzeiten resultiert. Dieser Effekt verstärkt sich mit zunehmendem Umfang des Data Lakes und wirkt sich somit auch positiv auf zukünftige Anwendungsfälle aus. Zudem wird auf die Rollen der unterschiedlichen Data-Science-Spezialisten in der Praxis eingegangen und ein Konzept zur Erweiterung der Zonenmodelle hinsichtlich eines optimierten, kooperativen Ansatzes vorgeschlagen.de
dc.language.isodede
dc.rightsinfo:eu-repo/semantics/openAccessde
dc.subject.ddc004de
dc.titleAnforderungen von Data-Science-Anwendungsfällen im Zonenreferenzmodellde
dc.typebachelorThesisde
ubs.fakultaetInformatik, Elektrotechnik und Informationstechnikde
ubs.institutInstitut für Parallele und Verteilte Systemede
ubs.publikation.seiten62de
ubs.publikation.typAbschlussarbeit (Bachelor)de
Enthalten in den Sammlungen:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
Bachelorarbeit_Marc_Altvater.pdf789,71 kBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.