Erweiterung eines AutoML-Frameworks zur Optimierung der Datenvorverarbeitung in Ensembles für ungleich verteilte Klassen
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Klassenungleichverteilung ist eine große Herausforderung in der Klassifikation. Wenn Daten eine Klassenungleichverteilung aufweisen, erzielen einzelne Klassifikationsmodelle oft eine unzureichende Vorhersagegenauigkeit. Um dieses Problem zu lösen, können spezielle Ensemble-Methoden angewendet werden. Ein Ensemble ist eine Kombination aus mehreren einzelnen Klassifikationsmodellen. Da die Erstellung eines Ensembles jedoch komplex ist, werden häufig Automated Machine Learning (AutoML) Frameworks eingesetzt. Diese erlauben das automatisierte Erstellen eines Ensembles. Obwohl bereits einige Ensemble-Methoden zur Behandlung von Klassenungleichverteilung in der Literatur existieren, werden diese kaum im Kontext von AutoML-Frameworks betrachtet. Vor diesem Hintergrund wird in dieser Arbeit ein Ansatz zur Erweiterung eines bestehenden AutoML-Frameworks vorgestellt, um das Problem der Klassenungleichverteilung zu behandeln. Dafür umfasst der Beitrag dieser Arbeit Folgendes: Analyse und Identifizierung von Ensemble-Methoden zur Behandlung von Klassenungleichverteilung, die für die Integration in das AutoML-Framework geeignet sind. Erstellung eines Konzepts zur Integration der identifizierten Methoden in das AutoML-Framework. Evaluation des Konzepts anhand acht Echtweltdatensätzen, die eine Klassenungleichverteilung aufweisen. Die Ergebnisse der Evaluation zeigen hierbei eine Verbesserung der Vorhersagegenauigkeit auf ungleich verteilten Daten sowie eine erhöhte Diversität der erstellten Ensembles.