Optimizing the efficiency of data-intensive Data Mashups using Map-Reduce

Sarangi, Sunayana

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-9359

Autor(en):	Sarangi, Sunayana
Titel:	Optimizing the efficiency of data-intensive Data Mashups using Map-Reduce
Sonstige Titel:	Effizienz-Optimierung daten-intensiver Data Mashups unter Verwendung von Map-Reduce
Erscheinungsdatum:	2017
Dokumentart:	Abschlussarbeit (Master)
Seiten:	61
URI:	http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-93768 http://elib.uni-stuttgart.de/handle/11682/9376 http://dx.doi.org/10.18419/opus-9359
Zusammenfassung:	In order to derive knowledge and information from data through data processing, data integration and data analysis, a variety of Data Mashup tools have been developed in the past. Data Mashups are pipelines that process and integrate data based on different interconnected operators that realize data operations such as filter, join, extraction, alteration or integration. The overall goal is to integrate data from different sources into a single one. Most of these Mashup tools offer a grahical modeling platform, enabling the users to model the data sources, data operations and the data flow, thus, creating a so called Mashup Plan. This enables non-IT experts to perform data operations without having to deal with their technical details. Further, by allowing easy re-modeling and re-execution of the Mashup Plan, it also allows an iterative and explorative trial-an-error integration to enable real time insights into the data. These existing Data Mashup tools are efficient in executing small size data sets, however, they do not emphasize on the run-time efficiency of the data operations. This work is motivated by the limitations of current Data Mashup approaches with regard to data-intensive operations. The run-time of a data operation majorly varies depending on the size of the input data. Hence, in scenarios where one data operation expects inputs from multiple Data Mashup pipelines, which are executed in parallel, a data intensive operation in one of the Data Mashup pipelines leads to a bottleneck, thereby delaying the entire process. The efficiency of such scenarios can be greatly improved by executing the data-intensive operations in a distributed manner. This master thesis copes with this issue through an efficiency optimization of pipeline operators based on Map-Reduce. The Map-Reduce approach enables distributed processing of data to improve the run-time. Map-Reduce is divided into two main steps: (i) the Map step divides a data set into multiple smaller data sets, on which the data operations can be applied in parallel, and (ii) the Reduce step aggregates the results into one data set. The goal of this thesis is to enable a dynamic decision making while selecting suitable implementations for the data operations. This mechanism should be able to dynamically decide, which pipeline operators should be processed in a distributed manner, such as using a Map-Reduce implementation, and which operators should be processed by existing technologies, such as in-memory processing by Web Services. This decision is important because Map-Reduce itself can lead to a significant overhead while processing small data sets. Once it is decided that an operation should be processed using Map-Reduce, corresponding Map-Reduce jobs are invoked that process the data. This dynamic decision making can be achieved through WS-Policies. Web Services use policies to declare in a consistent and standardized manner what they are capable of supporting and which constraints and requirements they impose on their potential requestors. By comparing the capabilities of the Web Service with the requirements of the service requestor, it can be decided if the implementation is suitable for executing the data operation. In den letzten Jahren lässt sich eine zunehmende Entwicklung von Data Mashup-Ansätzen und -Werkzeugen beobachten. Diese bieten einen einfachen und schnellen Weg, um Daten zu verarbeiten und analysieren. Data Mashups bestehen aus Datenquellen sowie einer Reihenfolge von Datenoperationen, wie Filter, Extraktoren usw. und ermöglichen eine Integration der Datenquellen. Dadurch können aus Daten wichtige Informationen und Wissen generiert werden. Diese Werkzeuge bieten meistens eine grafische Oberfläche und ermöglicht dabei eine einfache Bedienbarkeit durch Domänennutzer sowie eine explorative Vorgehensweise. Allerdings legen die vorhandene Ansätze keinen Wert auf die Effizienz der Ausführung. Dies kann daran liegen, dass durch Data Mashups in der Regel kleine Datenmengen verarbeitet werden. In der heutigen Zeit steigt die Datenmenge immer weiter an und die Data Mashup-Ansätze müssen sich anpassen, um die Verarbeitung bzw. Integration von größeren Mengen an Daten zu ermöglichen. Dabei spielt auch die Effizienz der Ausführung eine sehr wichtige Rolle. Bei Data Mashup kann es auch dazu kommen, dass sowohl kleine als auch große Daten gleichzeitig verarbeitet bzw. intiegriert werden müssen. In solchen Fällen führen die daten-intensiven Operationen zum Engpass und der gesamte Prozess muss auf den Engpass warten. Um mit diesem Problem umzugehen muss die Datenverarbeitung, abhängig von Parametern wie Datengröße, Komplexität der Operation bzw. Daten, entsprechend unterschiedlich durchgeführt werden. D.h., es müss unterschiedliche Implementierungen für unterschiedliche Datengröße sowie Komplexität der Operation bzw. Daten geben. Durch solche selektive Verfahren kann die Effizienz des Data Mashups gewährleistet werden. Die Auswahl der Implementierungen muss dynamisch geschehen. In dieser Arbeit wird eine Konzept entwickelt, wodurch die oben genannten Probleme behandelt und eine Optimierung der Ausführung erzielt werden kann. Die daten-intensive Operationen werden anhand einer Map-Reduce Implementierung ausgeführt und die Verarbeitung der kleinen Datenmenge wird durch Web Services im Hauptspeicher durchgeführt. Dieses selektive Verfahren ist wichtig, weil es zu hohem Aufwand kommen kann, wenn kleine Datenmenge durch Map-Reduce verarbeitet werden. Die Map-Reduce ermöglicht eine parallelität der Operation, somit wird die Ausführungsdauer verkürzt. Die vorhandenen Implementierungen verarbeiten die Daten als Ganzes und sind daher ungeeignet größere Datenmenge zu verarbeiten. Dagegen ermöglicht der Map-Reduce-Ansatz eine parallele Verarbeitung, was zu einer Effizienzoptimierung führt. Die dynamische Auswahl der Implementierung wird anhand von Web Service - Policies gemacht. WS-Policies beschreiben was der Web Service kann und was er von dem Servicenehmer erwartet. Anhand eines Vergleiches zwischen den Leistungen des Web Services und den Erwartungen des Service-Konsumenten kann entschieden werden, ob der Web Service sich eignet, um die Operation durchzuführen.
Enthalten in den Sammlungen:	05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:

Datei	Beschreibung	Größe	Format
MasterThesis_Sarangi.pdf		1,02 MB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige

Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.

Universität Stuttgart

OPUS - Online Publikationen der Universität Stuttgart