Uncertainty-aware PCA for nonnormally distributed data
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Dimensionality reduction techniques are essential in modern data analysis to enable interpretable representations of high-dimensional data. Principal component analysis (PCA), a widespread approach, identifies directions of maximal variance and provides linear projections, but does not account for uncertainty in the data. The recently proposed uncertainty-aware PCA (UAPCA) extends PCA by modeling each data point not as a fixed vector but as a probability distribution, focusing on multivariate normal distributed data. However, many real-world datasets exhibit non-normal characteristics, rendering the Gaussian assumption insufficient. This thesis introduces a generalization termed non-normal uncertainty-aware PCA (NNUAPCA), that projects arbitrary probability density functions, such as Gaussian mixture models or histograms, into lower-dimensional spaces while preserving the uncertainty structure introduced by UAPCA. By analytically propagating non-Gaussian uncertainty through the DR pipeline, NNUAPCA overcomes the limitations of UAPCA and makes our approach more applicable and accurate. The method is evaluated on synthetic and real-world datasets using qualitative visualizations and quantitative measures. Empirical results demonstrate that NNUAPCA produces low-dimensional embeddings that more faithfully preserve the uncertain structure of non-normally distributed data, while maintaining lower computational cost compared to other approaches.
Techniken zur Dimensionsreduktion sind in der modernen Datenanalyse essenziell, um interpretierbare Darstellungen hochdimensionaler Daten zu ermöglichen. Principal Component Analysis (PCA), eine weit gestrueute Methode, identifiziert Richtungen maximaler Varianz und liefert lineare Projektionen, berücksichtigt jedoch keine Unsicherheit in den Daten. Die kürzlich vorgeschlagene Uncertainty-aware PCA (UAPCA) erweitert PCA, indem sie jeden Datenpunkt nicht als festen Vektor, sondern als Wahrscheinlichkeitsverteilung modelliert und sich dabei auf multivariat normalverteilte Daten konzentriert. Viele reale Datensätze weisen jedoch nicht-normalverteilte Eigenschaften auf, wodurch die Gaußsche Annahme unzureichend wird. Diese Arbeit stellt eine Verallgemeinerung namens Non-normal Uncertainty-aware PCA (NNUAPCA) vor, die beliebige Wahrscheinlichkeitsdichten wie Gaussian Mixture Models oder Histogramme in niedrigdimensionale Räume projiziert und dabei die von UAPCA eingeführte Unsicherheitsstruktur beibehält. Durch die analytische Propagation nicht-gaußscher Unsicherheit entlang der DR-Pipeline überwindet NNUAPCA die Einschränkungen von UAPCA und macht unseren Ansatz anwendbarer und genauer. Die Methode wird anhand synthetischer und realer Datensätze mittels qualitativer Visualisierungen und quantitativer Metriken evaluiert. Die empirischen Ergebnisse zeigen, dass NNUAPCA niedrigdimensionale Einbettungen erzeugt, die die unsichere Struktur nicht-normalverteilter Daten originalgetreuer bewahren und gleichzeitig geringere Rechenkosten im Vergleich zu anderen Ansätzen aufweisen.