Anforderungen von Data-Science-Anwendungsfällen im Zonenreferenzmodell

Altvater, Marc Arthur

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-11554

Langanzeige der Metadaten

DC Element	Wert	Sprache
dc.contributor.author	Altvater, Marc Arthur	-
dc.date.accessioned	2021-07-01T13:03:38Z	-
dc.date.available	2021-07-01T13:03:38Z	-
dc.date.issued	2021	de
dc.identifier.other	1762701405	-
dc.identifier.uri	http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-115719	de
dc.identifier.uri	http://elib.uni-stuttgart.de/handle/11682/11571	-
dc.identifier.uri	http://dx.doi.org/10.18419/opus-11554	-
dc.description.abstract	Die Menge an weltweit generierten Daten, sowohl im privaten, als auch vor allem im wirtschaftlichen Umfeld wächst stetig. Daraus entsteht einerseits eine große Nachfrage nach Methoden, um das Volumen der Daten zu verarbeiten und schließlich daraus Wissen zu gewinnen. Andererseits benötigt es auch technologische Konzepte, um diese Daten schnell und kostengünstig speichern zu können. In diesem Bereich hat sich Data Science als Wissenschaftszweig etabliert, mit dem Ziel, Methoden aus verschiedenen Bereichen der Mathematik und Informatik zu nutzen, um fundiertes Wissen aus den zugrundeliegenden Daten zu extrahieren. Im Umfeld von Big Data gewinnen dagegen Data Lakes an Bedeutung, da sie es ermöglichen, (unternehmensweite) Daten zentral zu sammeln und in ihrem rohen, unverarbeiteten Zustand zu speichern. Durch die Erhaltung des ursprünglichen Zustands der Daten werden keine Informationen eingebüßt. Jedoch ist diese Art der Datenhaltung ineffizient. Aus diesem Grund wurden Zonenmodelle entwickelt, um Daten innerhalb eines Data Lakes in unterschiedliche Bereiche nach ihrem jeweiligen Verarbeitungsgrad zu unterteilen. Data Scientisten werden hierbei oftmals als Experten im Bereich der Datenanalyse einbezogen. Viele der vorhandenen Zonenmodelle stellen ihnen daher isolierte Bereiche für die Erprobung ihrer Methoden zur Verfügung. Jedoch gibt es wenig Forschung, welche die praktischen Anforderungen von Data Scientisten bei der Arbeit mit zonenbasierten Data Lakes betrachtet. Diese Arbeit befasst sich daher mit der Umsetzbarkeit von Data-Science-Anwendungsfällen in zonenbasierten Data Lakes. Hierfür werden sowohl allgemeine Anforderungen für Data Science, als auch charakteristische Beispiele anhand des Produktlebenszyklus, definiert. Im Anschluss wird daraus ein konzeptionelles Vorgehen für den Prozess der Datenanalyse abgeleitet, welches mittels einer prototypischen Implementierung erprobt wird. Bei der Evaluation der gewonnenen Erkenntnisse wird zudem zwischen der Nutzung einer zonenbasierten und einer zonenlosen Data-Lake-Architektur unterschieden. Es stellt sich heraus, dass durch die Einführung einer klaren Struktur und der konsequenten Speicherung der Daten in ihren jeweiligen Verarbeitungsgraden zusätzlicher Speicherplatz erforderlich wird. Jedoch profitiert die explorative Datenanalyse signifikant von der Nutzung der vorab berechneten Ergebnisse, was in messbar kürzeren Rechenzeiten resultiert. Dieser Effekt verstärkt sich mit zunehmendem Umfang des Data Lakes und wirkt sich somit auch positiv auf zukünftige Anwendungsfälle aus. Zudem wird auf die Rollen der unterschiedlichen Data-Science-Spezialisten in der Praxis eingegangen und ein Konzept zur Erweiterung der Zonenmodelle hinsichtlich eines optimierten, kooperativen Ansatzes vorgeschlagen.	de
dc.language.iso	de	de
dc.rights	info:eu-repo/semantics/openAccess	de
dc.subject.ddc	004	de
dc.title	Anforderungen von Data-Science-Anwendungsfällen im Zonenreferenzmodell	de
dc.type	bachelorThesis	de
ubs.fakultaet	Informatik, Elektrotechnik und Informationstechnik	de
ubs.institut	Institut für Parallele und Verteilte Systeme	de
ubs.publikation.seiten	62	de
ubs.publikation.typ	Abschlussarbeit (Bachelor)	de
Enthalten in den Sammlungen:	05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:

Datei	Beschreibung	Größe	Format
Bachelorarbeit_Marc_Altvater.pdf		789,71 kB	Adobe PDF	Öffnen/Anzeigen

Zur Kurzanzeige

Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.

Universität Stuttgart

OPUS - Online Publikationen der Universität Stuttgart