Cluster-based color linking in scatterplot matrix
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
This thesis contributes a novel visual analysis approach for multi-dimensional data by enhancing the utility of scatterplot matrices (SPLOMs), focusing on automatic cluster detection and trend/pattern/functional dependency identification utilizing suitable color linking strategies among views. Traditional SPLOMs effectively perform analysis tasks, including identifying dimensionality within or between-cluster structures and trend/spatial correlation across 2D subspaces. Despite being effective for the tasks, traditional SPLOMs often require extensive manual exploration throughbrushing and linking among the views to uncover patterns across multiple dimensions. To address these limitations, this bachelor thesis studies several automatic assigning color strategies for view linking. In particular, colors from a 2D color map will be assigned to points of the scatterplot of interest, taking advantage of two specific clustering techniques: Mean Shift and Self-Organizing Maps (SOM). We utilize Mean Shift to assign colors to scatterplot points to observe spatial information between cluster structures. Meanwhile, SOM is used and adapted to maximize the number of colors to be used, at the same time preserving the spatial information to support observing trend/correlation patterns within-cluster structures among 2D subspaces. We proposed a visual analysis approach with multiple link views from the two strategies. A main and comparison view are created which allows users to directly compare clusters and patterns between different projections without repeatedly scanning through the entire SPLOM, thus significantly reducing cognitive load and manual effort. The Master View allows users to select a specific scatterplot for detailed analysis, automatically assigning colors based on cluster detection results. The Comparison View enables users to juxtapose another scatterplot against the Master View, facilitating quick comparative analysis between different dimensional combinations. Interactions in our visual analysis approach occur through dynamic linking among these views. When clusters are automatically identified and colored in one view (the Main view), these colors propagate consistently across all other views, including the Comparison view and SPLOM. Users can interactively adjust clustering parameters, select subsets of clusters for further refinement, and apply clustering algorithms again on these subsets. Such interactions enable users to iteratively drill down into specific parts of their data, exploring cluster structures at varying granularities. The primary goal of these interactions and workflows is to facilitate rapid identification of meaningful clusters and functional dependencies across multiple dimensions, while minimizing manual selection efforts and enhancing exploratory efficiency. An instantiated interface is also implemented, integrating the Mean Shift algorithm for automatic cluster detection and Self-Organizing Maps (SOMs) for topology-preserving color assignments. This enhances the SPLOM by two side-by-side views of SPLOM entries for quick comparisons. Additionally, the user is able to control the color diversity interactively and adjust the display of the data in various ways. This allows for an intuitive and highly customizable workflow, which can adjust views, color diversity, and clustering techniques. The interface also supports interactive refinement, allowing users to isolate subsets of clusters and reapply clustering algorithms for more granular analysis. The thesis showcases several case studies from several synthetic datasets; the respective computational performance evaluation is carried out for each strategy. Through the qualitative and quantitative evaluations, the visual analysis approach demonstrates significant improvements in cluster detection accuracy, functional dependency identification, and cognitive load reduction compared to traditional SPLOM interfaces. A robust tool for effective multi-dimensional data analysis within Jupyter Notebooks is also provided (with code) and attached to the thesis submission.
Diese Arbeit trägt zu einem neuartigen visuellen Analyseansatz für mehrdimensionale Daten bei, indem sie den Nutzen von Streudiagramm-Matrizen (Scatterplot Matrices, SPLOMs) erhöht. Dabei liegt der Schwerpunkt auf automatischer Cluster-Erkennung sowie der Identifikation von Trends, Mustern und funktionalen Abhängigkeiten mithilfe geeigneter Farbverknüpfungsstrategien zwischen verschiedenen Ansichten. Traditionelle SPLOMs ermöglichen effektiv Analyseaufgaben wie die Erkennung von Dimensionalität innerhalb oder zwischen Cluster-Strukturen sowie die Identifikation von Trends und räumlichen Korrelationen in zweidimensionalen Teilräumen. Trotz ihrer Effektivität erfordern traditionelle SPLOMs oft eine umfangreiche manuelle Exploration durch interaktives Markieren („Brushing“) und Verknüpfen („Linking“) der Ansichten, um Muster über mehrere Dimensionen hinweg aufzudecken. Um diese Einschränkungen zu überwinden, untersucht diese Bachelorarbeit verschiedene Strategien zur automatischen Zuweisung von Farben zur Verknüpfung der Ansichten. Insbesondere werden Farben aus einer zweidimensionalen Farbkarte (2D-Colormap) den Punkten des jeweils betrachteten Streudiagramms zugewiesen, wobei zwei spezifische Clustering-Techniken genutzt werden: Mean Shift und selbstorganisierende Karten (Self-Organizing Maps, SOM). Mean Shift wird verwendet, um Farben den Punkten eines Streudiagramms zuzuweisen und dabei räumliche Informationen zwischen Cluster-Strukturen sichtbar zu machen. Gleichzeitig werden SOM eingesetzt und angepasst, um die Anzahl verwendeter Farben zu maximieren und gleichzeitig räumliche Informationen zu erhalten, um Trend- und Korrelationsmuster innerhalb von Cluster-Strukturen in zweidimensionalen Teilräumen sichtbar zu machen. Wir schlagen einen visuellen Analyseansatz mit mehreren verknüpften Ansichten vor, basierend auf diesen beiden Strategien. Dabei werden eine Hauptansicht („Master View“) und eine Vergleichsansicht („Comparison View“) erstellt, die es Nutzern ermöglichen, Cluster und Muster direkt zwischen verschiedenen Projektionen zu vergleichen, ohne wiederholt die gesamte SPLOM durchsuchen zu müssen. Dies reduziert erheblich den kognitiven Aufwand sowie den manuellen Arbeitsaufwand. Die Master View erlaubt es Nutzern, ein spezifisches Streudiagramm zur detaillierten Analyse auszuwählen; Farben werden automatisch basierend auf den Ergebnissen der Cluster-Erkennung zugewiesen. Die Comparison View ermöglicht es Nutzern, ein anderes Streudiagramm direkt mit der Master View gegenüberzustellen, um schnelle Vergleiche zwischen verschiedenen Dimensionskombinationen durchzuführen. Interaktionen in unserem visuellen Analyseansatz erfolgen durch dynamische Verknüpfungen zwischen diesen Ansichten. Wenn Cluster automatisch erkannt und in einer Ansicht (der Hauptansicht) eingefärbt werden, verbreiten sich diese Farben konsistent über alle anderen Ansichten hinweg - einschließlich der Vergleichsansicht und der SPLOM. Nutzer können interaktiv Clustering-Parameter anpassen, Teilmengen von Clustern zur weiteren Verfeinerung auswählen und Clustering-Algorithmen erneut auf diese Teilmengen anwenden. Solche Interaktionen ermöglichen es Nutzern, iterativ spezifische Teile ihrer Daten tiefergehend zu untersuchen und Cluster-Strukturen auf unterschiedlichen Granularitätsstufen zu erforschen. Das primäre Ziel dieser Interaktionen und Arbeitsabläufe besteht darin, eine schnelle Identifikation aussagekräftiger Cluster und funktionaler Abhängigkeiten über mehrere Dimensionen hinweg zu ermöglichen und gleichzeitig den manuellen Auswahlaufwand zu minimieren sowie die Effizienz explorativer Analysen deutlich zu erhöhen. Eine konkrete Benutzeroberfläche wurde implementiert, welche den Mean-Shift-Algorithmus für automatische Cluster-Erkennung sowie selbstorganisierende Karten (SOMs) für topologieerhaltende Farbzuweisungen integriert. Dadurch wird die SPLOM durch zwei nebeneinander angeordnete Ansichten einzelner SPLOM-Einträge ergänzt, um schnelle Vergleiche zu ermöglichen. Zusätzlich kann der Nutzer interaktiv die Farbvielfalt steuern sowie die Darstellung der Daten auf vielfältige Weise anpassen. Dies erlaubt einen intuitiven und hochgradig anpassbaren Workflow hinsichtlich Ansichten, Farbvielfalt und Clustering-Techniken. Die Benutzeroberfläche unterstützt zudem interaktive Verfeinerungen: Nutzer können Teilmengen von Clustern isolieren und Clustering-Algorithmen erneut anwenden, um detailliertere Analysen durchzuführen. Die Arbeit präsentiert mehrere Fallstudien mit synthetischen Datensätzen; für jede Strategie wird eine entsprechende Bewertung der Rechenleistung durchgeführt. Durch qualitative sowie quantitative Evaluationen zeigt der visuelle Analyseansatz deutliche Verbesserungen hinsichtlich Genauigkeit bei der Cluster-Erkennung, Identifikation funktionaler Abhängigkeiten sowie Reduktion des kognitiven Aufwands im Vergleich zu traditionellen SPLOM-Schnittstellen. Zudem wird ein robustes Werkzeug zur effektiven Analyse mehrdimensionaler Daten innerhalb von Jupyter Notebooks bereitgestellt (inklusive Quellcode), welches Bestandteil dieser Thesis-Abgabe ist.