Fairness-monitoring in data preparation pipelines
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Machine Learning (ML) has become essential in today's production environments, which aim for high-performance models. However, the performance of these models highly depends on the data quality of the underlying data. Therefore, data preparation pipelines are used to ensure high data quality standards. In the process of ensuring data quality, it is possible to unintentionally introduce unfairness that favors a specific group. This can lead to serious implications for decision-making processes. In this work, we address the challenge of ensuring fairness in data preparation pipelines by developing a system that alerts users if potential unfairness may have been introduced in one or multiple steps of the pipeline. Through a comprehensive literature review, we identify fairness metrics commonly used and investigate the relationship between fairness and typical data characteristics. Based on this understanding, we develop a system that aims to detect steps in which unfairness may have been introduced within the data preparation pipeline if the resulting ML model cannot satisfy certain fairness metrics. In terms of fairness, we evaluate the performance of our proposed system across diverse benchmark datasets and various data preparation pipelines. We find that our system is a suitable method to detect steps within a data preparation pipeline that have potentially negatively influenced the fairness of the resulting model and thereby provide valuable feedback to the users. However, we also acknowledge the limitations of our work, including the focus on binary classification tasks and the consideration of only selected fairness metrics and data characteristics. In conclusion, our work contributes to the field of data preparation pipelines by offering a framework designed to ensure fairness within data preparation pipelines. By addressing the intersection of fairness and data preprocessing, we aim to foster fairer decision-making processes for ML models in real-world applications.
Maschinelles Lernen (ML) ist in den heutigen Produktionsumgebungen unentbehrlich geworden und zielt auf leistungsstarke Modelle ab. Die Leistung dieser Modelle hängt jedoch in hohem Maße von der Datenqualität der zugrunde liegenden Daten ab. Daher werden Data Preparation Pipelines eingesetzt, um hohe Datenqualitätsstandards zu gewährleisten. Bei der Sicherstellung der Datenqualität kann es zu unbeabsichtigten Ungerechtigkeiten kommen, die eine bestimmte Gruppe begünstigen. Dies kann schwerwiegende Auswirkungen auf Entscheidungsprozesse haben. In dieser Arbeit befassen wir uns mit der Herausforderung, Fairness in Data Preparation Pipelines zu gewährleisten, indem wir ein System entwickeln, das Benutzer warnt, wenn potenzielle Unfairness in einem oder mehreren Schritten der Pipeline eingeführt worden sein könnte. Anhand einer umfassenden Literaturrecherche identifizieren wir die üblicherweise verwendeten Fairness-Metriken und untersuchen die Beziehung zwischen Fairness und typischen Datencharakteristika. Auf der Grundlage dieses Verständnisses entwickeln wir ein System, das darauf abzielt, Schritte zu erkennen, in denen innerhalb der Data Preparation Pipeline Unfairness eingeführt worden sein könnte, wenn das resultierende ML-Modell bestimmte Fairness-Metriken nicht erfüllen kann. Wir bewerten die Leistung unseres vorgeschlagenen Systems in Bezug auf Fairness über verschiedene Benchmark-Datensätze und unterschiedliche Data Preparation Pipelines hinweg. Wir stellen fest, dass unser System eine geeignete Möglichkeit darstellt, um Schritte innerhalb einer Data Preparation Pipeline zu erkennen, die die Fairness des resultierenden Modells potenziell negativ beeinflusst haben könnten, und somit den Nutzern wertvolles Feedback zu geben. Wir erkennen jedoch auch die Grenzen unserer Arbeit an, darunter die Fokussierug auf ausschließlich binäre Klassifikationsaufgaben und die Berücksichtigung nur einer Auswahl von Fairness-Metriken und Datencharakteristika. Zusammenfassend lässt sich sagen, dass unsere Arbeit einen Beitrag zum Bereich der fairen Data Preparation Pipelines leistet, indem sie einen Rahmen bietet, der Fairness innerhalb von Data Preparation Pipelines gewährleisten soll. Durch die Auseinandersetzung mit dem Zusammenspiel von Fairness und Datenvorverarbeitung wollen wir gerechtere Entscheidungsprozesse für ML-Modelle in der realen Anwendung fördern.