Effect of data preparation in the context of fair classification
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
This thesis investigates the critical role of data preparation in shaping the predictive performance and fairness of binary classification models. Given that the quality and composition of training data significantly influence model behaviour, especially concerning embedded biases, ensuring that training data is both accurate and fair is essential for the development of trustworthy machine learning systems. To address this, we extend an existing data processing pipeline, substantially broadening its data preparation stage with the integration of sixteen additional methods across five distinct components. This expansion allows for a more comprehensive evaluation of the interplay between data preparation, predictive accuracy, and algorithmic fairness. Our empirical study employs a diverse set of classifiers and evaluation metrics, including several newly developed scores specifically designed to capture the nuanced effects of data preparation on model outcomes. The analysis spans both real-world and synthetic datasets, providing a robust foundation for our findings. Key insights include the observation that simply increasing the number of data preparation components does not necessarily improve model performance. Instead, optimal results often depend on carefully chosen methods and execution orders, with some components displaying strong positional dependencies. Additionally, our results reaffirm the well-documented trade-off between fairness and accuracy, yet also demonstrate that it is possible to identify configurations where both can be improved simultaneously. These findings not only deepen our understanding of data preparation in the context of fair classification but also offer concrete, empirically grounded recommendations for practitioners. Our work lays the foundation for more informed pipeline design, providing a flexible, modular framework that can be readily extended to accommodate emerging data preparation techniques and new evaluation metrics.
Diese Arbeit untersucht die entscheidende Rolle der Datenvorbereitung für die Vorhersageleistung und Fairness von binären Klassifikationsmodellen. Da Qualität und Zusammensetzung der Trainingsdaten das Modellverhalten maßgeblich beeinflussen, insbesondere im Hinblick auf eingebettete Verzerrungen, ist es entscheidend, dass Trainingsdaten sowohl akkurat als auch fair sind, um vertrauenswürdige maschinelle Lernsysteme zu entwickeln. Zu diesem Zweck erweitern wir eine bestehende Datenverarbeitungspipeline erheblich, indem wir deren Datenvorbereitungsphase durch die Integration von sechzehn zusätzlichen Methoden in fünf verschiedenen Komponenten umfassend ausbauen. Diese Erweiterung ermöglicht eine gründlichere Bewertung des Zusammenspiels zwischen Datenvorbereitung, Vorhersagegenauigkeit und algorithmischer Fairness. Unsere empirische Studie verwendet eine Vielzahl von Klassifikatoren und Bewertungsmetriken, darunter mehrere neu entwickelte Maße, die speziell darauf ausgelegt sind, die subtilen Auswirkungen der Datenvorbereitung auf Modellergebnisse zu erfassen. Die Analyse umfasst sowohl reale als auch synthetische Datensätze und bietet damit eine solide Grundlage für unsere Erkenntnisse. Zu den zentralen Einsichten zählt die Beobachtung, dass eine bloße Erhöhung der Anzahl von Datenvorbereitungskomponenten nicht zwangsläufig zu einer Verbesserung der Modellleistung führt. Vielmehr hängen optimale Ergebnisse oft von sorgfältig ausgewählten Methoden und deren Reihenfolge ab, wobei einige Komponenten starke Positionsabhängigkeiten aufweisen. Zusätzlich bestätigen unsere Ergebnisse den vielfach dokumentierten Zielkonflikt zwischen Fairness und Genauigkeit, zeigen jedoch auch, dass es möglich ist, Konfigurationen zu identifizieren, bei denen beide Aspekte gleichzeitig verbessert werden können. Diese Erkenntnisse vertiefen nicht nur unser Verständnis der Datenvorbereitung im Kontext fairer Klassifikation, sondern bieten Praktikern konkrete, empirisch fundierte Empfehlungen. Unsere Arbeit legt somit die Grundlage für ein besser informiertes Pipeline-Design und stellt einen flexiblen, modularen Rahmen bereit, der leicht erweitert werden kann, um zukünftige Datenvorbereitungstechniken und neue Bewertungsmetriken zu integrieren.