Universität Stuttgart

Permanent URI for this communityhttps://elib.uni-stuttgart.de/handle/11682/1

Browse

Search Results

Now showing 1 - 10 of 71
  • Thumbnail Image
    ItemOpen Access
    Interaktive und inkrementelle Visualisierung im Kontext von Big Data
    (2017) Ast, Birgit
    Stetig wachsende Datenmengen eröffnen Datenanalysten viele neue Chancen zur Gewinnung bislang unbekannten Wissens. Allerdings stellen sie Mensch und Technik auch vor neue Herausforderungen. Auf Grund der Größe der Datenmengen werden Analysen zu langwierigen, unflexiblen Prozessen. Ein Ansatz, um dem entgegenzuwirken, sind inkrementelle Verfahren. Dabei werden während des Analyseprozesses nach und nach Zwischenergebnisse generiert, welche sich letztlich dem Endergebnis annähern. Bei einer inkrementellen, visuellen Datenanalyse können anhand der Entwicklung der Teilergebnisse früh Schlussfolgerungen im Hinblick auf die Gesamtmenge gezogen und entsprechend schnell reagiert werden. Für eine zielführende inkrementelle Analyse ist es wichtig, repräsentative Teilergebnisse zu erhalten sowie deren Aussagekraft richtig einschätzen zu können. Auch eine aktive Einbindung des Analysten in den Visualisierungsprozess ist von Bedeutung. In der vorliegenden Arbeit wird ein Konzept für eine interaktive Webanwendung zur inkrementellen, visuellen Datenanalyse entwickelt. Die Notwendigkeit der genannten Anforderungen wird erläutert und Möglichkeiten zur praktischen Umsetzung beschrieben. Basierend darauf wird ein Prototyp entwickelt, welcher dieses Konzept realisiert.
  • Thumbnail Image
    ItemOpen Access
    Subspace-optimal data mining on spatially adaptive sparse grids
    (2017) Luz, Maximilian
    Continued improvements in technology lead to an ever-growing amount of data generated, for example, by scientific measurements and simulations. Data-mining is required to gain useful knowledge from this data, however, can be challenging especially due to the size and dimensionality of these problems. The use of regular grids for such applications is often limited by the curse of dimensionality, a phrase used to describe an exponential dependency of the computational complexity of a problem on the dimensionality of this problem. For many higher-dimensional problems, e.g. with 28 dimensions, regular grids cannot be used to compute results with the desired accuracy in a reasonable amount of time, even if the memory required to store and process them is available. With spatially adaptive sparse grids, this problem can be overcome, as they lessen the influence of the dimensionality on the size of the grid, furthermore, they have been successfully applied for many tasks, including regression on large data sets. However, the currently preferred and in practice highly performant streaming-algorithm for regression on spatially adaptive sparse grids employs many unnecessary operations to effectively utilize modern parallel computer architectures, such as graphics processing units (GPUs). In this thesis, we show that the implementation of a by computational complexity more promising subspace-linear algorithm on the GPU is able to out-perform the currently preferred streaming-algorithm on many scenarios, even though the this algorithm does not utilize modern architectures as well as the streaming-algorithm. Furthermore, we explore the construction of a new algorithm by combining both, streaming- and subspace-linear algorithm, which aims to process each subgrid of the grid with the algorithm deemed most efficient for its structure. We evaluated both of our algorithms against the highly optimized implementation of the streaming-algorithm provided in the SG++ framework, and could indeed show speed-ups for both algorithms, depending on the experiments.
  • Thumbnail Image
    ItemOpen Access
    Causal models for decision making via integrative inference
    (2017) Geiger, Philipp; Toussaint, Marc (Prof. Dr.)
    Understanding causes and effects is important in many parts of life, especially when decisions have to be made. The systematic inference of causal models remains a challenge though. In this thesis, we study (1) "approximative" and "integrative" inference of causal models and (2) causal models as a basis for decision making in complex systems. By "integrative" here we mean including and combining settings and knowledge beyond the outcome of perfect randomization or pure observation for causal inference, while "approximative" means that the causal model is only constrained but not uniquely identified. As a basis for the study of topics (1) and (2), which are closely related, we first introduce causal models, discuss the meaning of causation and embed the notion of causation into a broader context of other fundamental concepts. Then we begin our main investigation with a focus on topic (1): we consider the problem of causal inference from a non-experimental multivariate time series X, that is, we integrate temporal knowledge. We take the following approach: We assume that X together with some potential hidden common cause - "confounder" - Z forms a first order vector autoregressive (VAR) process with structural transition matrix A. Then we examine under which conditions the most important parts of A are identifiable or approximately identifiable from only X, in spite of the effects of Z. Essentially, sufficient conditions are (a) non-Gaussian, independent noise or (b) no influence from X to Z. We present two estimation algorithms that are tailored towards conditions (a) and (b), respectively, and evaluate them on synthetic and real-world data. We discuss how to check the model using X. Still focusing on topic (1) but already including elements of topic (2), we consider the problem of approximate inference of the causal effect of a variable X on a variable Y in i.i.d. settings "between" randomized experiments and observational studies. Our approach is to first derive approximations (upper/lower bounds) on the causal effect, in dependence on bounds on (hidden) confounding. Then we discuss several scenarios where knowledge or beliefs can be integrated that in fact imply bounds on confounding. One example is about decision making in advertisement, where knowledge on partial compliance with guidelines can be integrated. Then, concentrating on topic (2), we study decision making problems that arise in cloud computing, a computing paradigm and business model that involves complex technical and economical systems and interactions. More specifically, we consider the following two problems: debugging and control of computing systems with the help of sandbox experiments, and prediction of the cost of "spot" resources for decision making of cloud clients. We first establish two theoretical results on approximate counterfactuals and approximate integration of causal knowledge, which we then apply to the two problems in toy scenarios.
  • Thumbnail Image
    ItemOpen Access
    Scalable hypergraph partitioning
    (2017) Geppert, Heiko
    The interest in graph partitioning has become quite huge due to growing problem sizes. Therefore more abstract solutions are desirable. In this thesis, hypergraph partitioning is investigated since hypergraphs provide a better level of abstraction than normal graphs. Further, restreaming approaches are examined because the partitioning results of real time strategies are often not satisfiable. It will be shown that they can perform up to 15\% better than real time approaches and can sometimes even hold up to polynomial approaches. By putting more thought into the restreaming, the partitioning results become even better. This is shown empirical when proposing Fractional Restreaming a novel "Partial Forgetting" strategy. Meanwhile, the additional runtime needed is negligible compared to polynomial strategies. Finally SHP, a novel graph partitioning and evaluation framework is introduced.
  • Thumbnail Image
    ItemOpen Access
    Evaluierung und Implementierung einer Verwaltungsschale für Industrie 4.0 Komponenten
    (2017) Schierle, Christian
    Aufgrund der enormen Anforderungen an die Flexibilität im produzierenden Gewerbe, steht die Industrie vor neuen Herausforderungen. Möglichst viele Bereiche des Marktes sollen weitläufig bedient werden. Gleichzeitig steht die Umsetzung von Kundenwünschen in der Produktion stark im Vordergrund. Die Vision Industrie 4.0 greift die neuen Anforderungen auf und sucht nach Lösungen, um Wertschöpfungsketten entsprechend zu verbessern. Diese Arbeit liefert einen Einblick in das Themengebiet Industrie 4.0 und die dabei zentralen Technologien. Der Fokus liegt hierbei auf dem Begriff der Verwaltungsschalen. Es wird deren Potential als Datenschnittstelle zwischen physischen Objekten und der Informationswelt untersucht. Im Zuge dessen bietet diese Arbeit auch eine kurze Einführung in OPC Unified Architecture. Ziel der Arbeit ist es, einen Überblick über die Anforderungen im Zusammenhang mit Industrie 4.0, vorhandene Technologien und deren Möglichkeiten zu bieten. Dazu wird eine Beispielimplementierung für Verwaltungsschalen anhand einiger Anforderungen analysiert. Anschließend werden vorbereitende Schritte für die Umsetzung einer eigenen Implementierung erläutert. Diese soll unter einigen Vereinfachungen ebenfalls den Anforderungen entsprechen.
  • Thumbnail Image
    ItemOpen Access
    Ein Testwerkzeug für das Internet der Dinge
    (2017) Krüger, Daniel
    Wegen der stetig fallenden Preise für Hardware sind in der heutigen Zeit immer mehr Geräte miteinander vernetzt. Dabei kommunizieren Sensoren, Aktoren und Steuergeräte miteinander. Diesen Wandel nennt man das Internet der Dinge (IoT). Ein Ziel des Internet der Dinge ist es, Situationen automatisch zu erkennen und zu steuern. Dies kann durch sogenannte Complex Event Processing (CEP)-Systemen ermöglicht werden. Diese lesen Datenströme ein und erkennen vorher definierte Muster, die Situationen. Das Testen von IoT-Umgebungen ist jedoch teuer, da Hardware beschafft werden muss. Deswegen ist die Simulation von IoT-Umgebungen erstrebenswert. In dieser Arbeit wird ein web-basiertes Werkzeug vorgestellt, welches die Simulation von Sensoren ermöglicht. Es ist möglich, mehrere Sensoren mit unterschiedlichen Datentypen, Startwerten und Abweichungen zu simulieren. Ein weiteres, im Rahmen dieser Arbeit behandeltes, Problem ist, dass noch keine Benchmarks für CEP-Systeme existieren. Für darauf aufbauende Arbeiten wird hier untersucht, wie eine Datengenerierung für solche Benchmarks umgesetzt werden kann und welche Anforderungen an die Benchmarks gestellt werden.
  • Thumbnail Image
    ItemOpen Access
    Addressing TCAM limitations in an SDN-based pub/sub system
    (2017) Balogh, Alexander
    Content-based publish/subscribe is a popular paradigm that enables asynchronous exchange of events between decoupled applications that is practiced in a wide range of domains. Hence, extensive research has been conducted in the area of efficient large-scale pub/sub system. A more recent development are content-based pub/sub systems that utilize software-defined networking (SDN) in order to implement event-filtering in the network layer. By installing content-filters in the ternary content-addressable memory (TCAM) of switches, these systems are able to achieve event filtering and forwarding at line-rate performance. While offering great performance, TCAM is also expensive, power hunger and limited in size. However, current SDN-based pub/sub systems don't address these limitations, thus using TCAM excessively. Therefore, this thesis provides techniques for constraining TCAM usage in such systems. The proposed methods enforce concrete flow limits without dropping any events by selectively merging content-filters into more coarse granular filters. The proposed algorithms leverage information about filter properties, traffic statistics, event distribution and global filter state in order to minimize the increase of unnecessary traffic introduced through merges. The proposed approach is twofold. A local enforcement algorithm ensures that the flow limit of a particular switch is never violated. This local approach is complemented by a periodically executed global optimization algorithm that tries to find a flow configuration on all switches, which minimized to increase in unnecessary traffic, given the current set of advertisements and subscriptions. For both classes, two algorithms with different properties are outlined. The proposed algorithms are integrated into the PLEROMA middleware and evaluated thoroughly in a real SDN testbed as well as in a large-scale network emulation. The evaluations demonstrate the effectiveness of the approaches under diverse and realistic workloads. In some cases, reducing the number of flows by more than 70% while increasing the false positive rate by less than 1% is possible.
  • Thumbnail Image
    ItemOpen Access
    Design and implementation of an evaluation testbed for fog computing infrastructure and applications
    (2017) Graser, Leon
    Besides the popular Cloud Computing paradigm, a new approach to distributed computation, known as Fog Computing, has been emerging in the last few years. This approach suggests, that the intelligence should move from the data centers to the network level. In the past years, Fog Computing has been gaining more attention, which has led to the rise in projects and publications. Unfortunately, there is very little support to test and evaluate Fog Computing applications. Aside from expensive real world deployments, there are few tools to simulate the behavior. Since simulation does not execute the application to be tested, the results are less accurate than in an emulated environment. Emulation offers a trade-off between evaluation costs and accurate results. This work proposes a new approach to read in network topologies from different sources and uses them to evaluate user defined Fog Computing applications. To identify the edge of those networks an algorithm is presented. Also, a heuristic to place fog nodes cost optimal within a user defined proximity of the edge is suggested. The final outcome can be exported to a network emulator like MaxiNet in combination with Docker. This approach is implemented in EmuFog and published open source. It is easily extensible for future use, platform independent, and flexible for different applications to test. A user can specify the computing capabilities (i.e.RAM) of each node type and define the associated Docker image to run. Hierarchies can be built using dependencies between fog node types. Also, an evaluation is carried out to measure the algorithms presented. For the edge identification and the fog node placement, the evaluation shows reasonable running times even for bigger network sizes of up to 10,000 nodes. In the evaluated networks the heuristic shows an average deviation of 1.2, and in the worst-case scenario, a deviation of 5/3 of the cost optimal result.
  • Thumbnail Image
    ItemOpen Access
    Erschließen von Freitextfeldern mittels Text Mining und die Qualität der gewonnenen Informationen
    (2017) Link, Marco
    Vermehrt fallen innerhalb von Firmen neben den einfach auszuwertenden strukturierten Daten, auch unstrukturierte Daten in Form von Freitexten an. In dieser Ausarbeitung werden Techniken zur Strukturierung von Freitexten sowie verwandte Arbeiten und Vor- und Nachteile der Nutzung von Freitexten vorgestellt. Der Fokus liegt auf der Repräsentation der Daten als Vektoren und der Filterung von Stoppwörtern. Außerdem wird ein Prototyp zum Clustern von Freitextfeldern vorgestellt und auf einen Datensatz der NHTSA angewendet. Durch die Anwendung des Prototyps auf den NHTSA-Datensatz wird geklärt, inwiefern dieser Informationen in den Freitextfelder enthält, die nicht in den strukturierten Daten enthalten sind. Und ob das Clustering zu vollständigeren Informationen, das heißt zur erhöhter Datenqualität führt. Die Beantwortung geschieht durch Datenanalysen auf den vom Prototyp erweiterten Datensatz. Eine zusätzliche Anwendung und Auswertung des Prototyps, findet auf einen Datensatz aus der Industrie statt.
  • Thumbnail Image
    ItemOpen Access
    Quantifizierung von Unsicherheiten in mikroskopischer Verkehrssimulation
    (2017) Parga Cacheiro, Dominic
    Straßenverkehr ist allgegenwärtig. Jeden Tag fahren viele Menschen mit dem Auto durch die Straßen und dabei können sehr interessante Phänomene betrachtet werden, die den Verkehrsfluss verbessern oder verschlechtern. Beim Planen und Designen von Verkehrsnetzen ist es wichtig, solche Einflüsse zu berücksichtigen. Aus diesem Grund sind Verkehrssimulationen notwendig. Es gibt im wesentlichen zwei große Modelltypen. Die makroskopischen Modelle sehen den Verkehr als großes System und versuchen, dessen Phänomene aus einem globalen Blickwinkel zu erklären. Die mikroskopischen Modelle betrachten die Fahrzeuge einzeln, d.h. die Fahrzeuge agieren nicht von einer globalen Logikeinheit gesteuert, sondern selbstbestimmt und aus einem lokalen Blickwinkel heraus. In dieser Arbeit wird das Nagel-Schreckenberg-Modell verwendet, ein mikroskopisches Modell zur Beschreibung von Fahrverhalten auf einer einspurigen Straße, das mittels einfacher stochastischer Mittel Phänomene wie Staus aus dem Nichts hervorbringt. Dieses Modell wurde um eine allgemein gültige Kreuzungslogik erweitert. Im Rahmen dieser Arbeit wird das so entstandene Verkehrsmodell um die Mehrspurigkeit ergänzt. Das beinhaltet eine Überarbeitung der bestehenden Verkehrslogik und das Einführen von Spurwechseln inklusive Stauinversion. Im Anschluss wird auf Implementierungsdetails eingegangen und das Modell mit realen Daten verglichen, um qualitative Aussagen über den Verkehr zu machen.