Please use this identifier to cite or link to this item: http://dx.doi.org/10.18419/opus-9802
Authors: Foril, Alexander
Title: Synthetic data generation for big data
Other Titles: Synthetische Datengenerierung für Big Data
Issue Date: 2016
metadata.ubs.publikation.typ: Abschlussarbeit (Master)
metadata.ubs.publikation.seiten: 127
URI: http://elib.uni-stuttgart.de/handle/11682/9819
http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-98191
http://dx.doi.org/10.18419/opus-9802
Abstract: Big Data ist ein wachsendes Feld in der Informationswissenschaft in Bezug auf Speicherung, Verarbeitung und Analyse von großen Datensätzen. Beispiele für Big Data können in allen Branchen gefunden werden, wie beispielsweise in der Produktion, Medizin und Energie. Konventionelle Datenverarbeitungsmethoden sind für die neuen Aufgaben nicht ausreichend, sodass neue Algorithmen, Tools und Plattformen entwickelt werden müssen. Das Testen von neuen Ansätzen in der Wissenschaft ist jedoch nicht trivial, da große Mengen an Daten nötig sind. Diese Datensätze können nicht einfach aus realen Benutzerdaten extrahiert werden, da die Daten öfters in verschiedenen Systemen verteilt und durch Datenschutzgesetzte geschützt sind. Folglich erfordert das Entwickeln praktischer Big Data Lösungen ein hohes Maß an Zusammenarbeit mit den potenziellen Kunden. Das kann vor allem für Wissenschaftler eine erhebliche Hürde darstellen, insbesondere da die Lösungen in frühen Phasen der Entwicklung und in der Grundlagenforschung möglicherweise nicht sofort zum Kundennutzen beitragen. Um Softwareentwicklern und Wissenschaftlern zu helfen, soll in dieser Arbeit ein Framework zur synthetischen Datengenerierung für Big Data entwickelt werden. Mit diesem Framework soll es möglich sein ein Datengenerierungsszenario zu modellieren und auszuführen, um große synthetische Datensätze zu generieren. Der Big Data Generator wird anhand praktischen Anwendungsfällen aus der Automobil- und Versicherungsbranche evaluiert.
Big data is a growing field in information science concerning the storage, processing and analysis of large datasets. Examples for big data can be found in all industries, for example in manufacturing, medicine and energy. Conventional methods of data processing are not sufficient for these new tasks so new algorithms, tools and platforms need to be developed. However, testing new approaches in science is not trivial, as large amounts of data are needed. These datasets cannot be easily transferred from users, as they are often distributed in multiple systems and protected by privacy and data protection laws. Developing practical big data solutions thus requires a high degree of cooperation with potential customers. This can be a substantial hurdle especially for researchers, as solutions may not immediately benefit a customer, especially in early steps of development and in basic research. To help software developers and researchers, in this work a framework for synthetic data generation for big data is to be developed. This framework shall make it possible to model a data generation scenario and execute it, thus generating big synthetic datasets. The big data generator is to be applied within real-life use cases.
Appears in Collections:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Files in This Item:
File Description SizeFormat 
MA_Foril_Alexander.pdf3 MBAdobe PDFView/Open


Items in OPUS are protected by copyright, with all rights reserved, unless otherwise indicated.