Visual analysis of sequential data
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Sequential and temporal data is omnipresent in various areas of our lives. It is characterized by a sequence of data points in a fixed order, possibly with a temporal component. With an increasing amount of data being generated and collected, and different types of data originating from various domains, appropriate methods are needed to examine, interpret, understand, and draw conclusions from complex processes. Depending on the use case, the amount of data, and the target group, different analysis methods have to be chosen or developed. While visualization alone can already provide interesting insights into the data, interactive visual analysis helps users extract additional information by letting them focus on specific parts of the data and exploring it from different perspectives. Techniques such as brushing and linking and multiple coordinated views (multiple visualizations for the same data that are linked) help realize such an examination.
In this thesis, several approaches for visually analyzing sequential data are presented. The focus lies particularly on two key application areas: eye tracking and the interpretability of machine learning (ML) methods. Additionally, the use of dimensionality reduction methods during preprocessing for visualization is an important concept of this work. In all these areas, sequential or temporal components play important roles. They can be the subject of exploration, used as input data to trigger complex processes, represent internal mechanisms within methods, or be the output of a process. Users may want to examine or compare them to understand the data better. In the area of eye tracking analysis, this thesis presents a visual analysis approach that addresses the influence of various filter settings (parameter choices) on the data being visualized and interpreted. Additionally, a method is presented that combines temporal data from different sources to enable a better comparison of this data. Preprocessing steps play a crucial role in both methods to allow meaningful visualizations of the data and subsequent examination of the data. Next, various ML approaches are considered. The interpretability of ML techniques is currently a very important and challenging topic. Especially ML models in the area of natural language processing (NLP) deal with sequential components as input data, and also, the internal operations follow sequential processing steps. This thesis demonstrates that, in the field of NLP, internal information from neural machine translation (NMT), visual question answering (VQA), and text classification tasks can be made available to users for an enhanced understanding of internal mechanisms and to improve prediction results. Toward the end of this thesis, dimensionality reduction techniques are applied as a preparation step for visualizing sequential data. First, dimensionality reduction is used in an interactive system to examine text classification in the context of ML. However, interpreting 2D visualizations of dimensionally reduced sequential data requires careful consideration due to the possibility of data loss, misleading projections, and potential misinterpretation of the visualization itself. Therefore, in this work, visualization approaches are presented that address this challenge to provide methods to prevent misinterpretation. Overall, all presented interactive visualization approaches of this thesis use sequential data as input, and the visual analysis techniques help users during data exploration, interpretation, for debugging purposes, or to improve prediction results generated with ML models.
Sequenzielle und zeitliche Daten sind in verschiedenen Bereichen unseres Lebens allgegenwärtig. Sie sind durch eine Aneinanderreihung von Datenpunkten mit festgelegter Reihenfolge gekennzeichnet, gegebenenfalls mit einer zeitlichen Komponente. Mit einer zunehmenden Menge an erzeugten und gesammelten Daten sowie den unterschiedlichen Datenarten aus verschiedenen Bereichen werden geeignete Methoden benötigt, um komplexe Vorgänge zu untersuchen, zu interpretieren, zu verstehen und Schlussfolgerungen daraus zu ziehen. Je nach Anwendungsfall, Datenmenge und Zielgruppe müssen unterschiedliche Analysemethoden gewählt oder entwickelt werden. Während eine Visualisierung bereits interessante Einblicke in die Daten gewähren kann, hilft die interaktive visuelle Analyse den Nutzern, zusätzliche Informationen zu extrahieren, indem sie sich auf bestimmte Bereiche der Daten konzentrieren und diese aus verschiedenen Blickwinkeln untersuchen können. Techniken wie das Auswählen und Verknüpfen (Brushing and Linking) und mehrere koordinierte Ansichten (mehrere Visualisierungen für dieselben Daten, die miteinander verknüpft sind) helfen bei der Umsetzung einer solchen Untersuchung.
In dieser Arbeit werden verschiedene Ansätze zur visuellen Analyse sequenzieller Daten vorgestellt. Der Fokus liegt insbesondere auf zwei zentralen Anwendungsbereichen: Blickpunktverfolgung (Eye-Tracking) und Interpretierbarkeit maschineller Lernmethoden. Darüber hinaus ist die Verwendung von Methoden zur Dimensionsreduzierung während der Vorverarbeitung zur Visualisierung ein wichtiges Konzept dieser Arbeit. In all diesen Bereichen spielen sequenzielle oder zeitliche Komponenten eine wichtige Rolle. Sie können Gegenstand der Untersuchung sein, als Eingabedaten für die Auslösung komplexer Prozesse dienen, interne Mechanismen innerhalb von Methoden darstellen oder die Ausgabe eines Prozesses sein. Benutzer möchten sie möglicherweise untersuchen oder vergleichen, um die Daten besser zu verstehen. Im Bereich der Eye-Tracking-Analyse wird in dieser Arbeit ein visueller Analyseansatz vorgestellt, der sich mit den Auswirkungen verschiedener Filtereinstellungen (Parameterauswahl) auf die visualisierten und zu interpretierenden Daten befasst. Zusätzlich wird eine Methode vorgestellt, die zeitliche Daten aus verschiedenen Quellen kombiniert, um einen besseren Vergleich dieser Daten zu ermöglichen. Bei beiden Methoden spielen Vorverarbeitungsschritte eine entscheidende Rolle, um eine sinnvolle Visualisierung der Daten und eine anschließende Untersuchung zu ermöglichen. Anschließend werden verschiedene maschinelle Lernansätze betrachtet. Hier ist die Interpretierbarkeit von Methoden des maschinellen Lernens derzeit ein sehr wichtiges und herausforderndes Thema. Insbesondere Modelle des maschinellen Lernens im Bereich der natürlichen Sprachverarbeitung (NLP) beschäftigen sich mit sequenziellen Komponenten als Eingabedaten und auch die internen Vorgänge folgen sequenziellen Verarbeitungsschritten. In dieser Arbeit wird für den Bereich NLP gezeigt, dass interne Informationen aus neuronaler maschineller Übersetzung (NMT), visuellen Frage-Antwort-Systemen (VQA) und Textklassifizierungsaufgaben den Nutzern zum besseren Verständnis interner Vorgänge und zur Verbesserung von Vorhersageergebnissen zur Verfügung gestellt werden können. Gegen Ende dieser Arbeit werden Techniken zur Dimensionsreduktion als Vorbereitungsschritt für die Visualisierung sequenzieller Daten angewendet. Zunächst wird Dimensionsreduktion in einem interaktiven System zur Untersuchung der Textklassifizierung im Kontext des maschinellen Lernens eingesetzt. Die Interpretation von 2D-Visualisierungen dimensionsreduzierter sequenzieller Daten erfordert jedoch eine kritische Betrachtung aufgrund der Möglichkeit eines Datenverlusts, missverständlichen Projektionen und möglicher Fehlinterpretation der Visualisierung selbst. Daher werden in dieser Arbeit Visualisierungsansätze vorgestellt, die diese Herausforderung angehen und eine Möglichkeit bieten, Fehlinterpretationen zu vermeiden. Zusammengefasst nutzen alle vorgestellten interaktiven Visualisierungsmethoden dieser Arbeit sequenzielle Daten als Eingabe, und die visuellen Analysetechniken helfen Benutzern Daten zu analysieren, zu interpretieren, Fehler zu suchen und zu beseitigen oder Vorhersageergebnisse zu verbessern, die mit Methoden des maschinellen Lernens erzeugt wurden.