Data-driven partitioning of training data for complex multiclass problems

Balihalli, Tushar Rajendra

Data-driven partitioning of training data for complex multiclass problems

Files

Tushar_Balihalli_Data_Driven_Partitioning.pdf (1.81 MB)

Date

2022

Authors

Balihalli, Tushar Rajendra

Abstract

Substantial technological advancements in the modern era have paved the way for the growth of a humongous amount of data that can be used for data analysis and decision-making processes. Data analysis tasks typically employ machine learning algorithms on real-world data. However, data in real-world scenarios contain a variety of complex characteristics like missing features, multi-class imbalance, and so on. Therefore, directly applying the machine learning methods does not lead to satisfactory results. As a result, data has to be pre-processed, e.g., by partitioning the data to reduce the complexity, before performing actual data analysis activities. The objective of this work is to develop a partitioning approach using clustering that reduces the complexity of the challenges. To this end, various measures that can reflect the impact of the challenges are analyzed in detail. These measures quantify the complexity associated with the data. The focus of characteristics related to data complexity is focused on two major challenges: C1 and C2. Challenge C1 focuses on multi-class imbalance characteristic including high number of classes, overlapping decision boundaries, whereas challenge C2 comprises of heterogeneous feature characteristics involving missing features, sub-concepts and class membership problem. Although there are measures to address individual problems, this work focuses on addressing all of the challenges in a single dataset, thereby overcoming the shortcomings of approaches that address only one characteristic. The training data is subjected to data-driven partitioning using clustering, which is then optimized for the value of complexity measure. AutoML, an automated machine learning concept is employed for the hyper-parameter optimization. Further, a classifier is trained on individual partitions, and its hyper-parameters are optimized to improve the model’s performance. The comprehensive evaluation discusses the results for different complexity measures and various state-of-the-art approaches using numerous validation datasets. The evaluation unfolds that partitioning of data with complex characteristics and optimizing for appropriate value of complexity measure increases system performance. Hence, this work demonstrates that the application of classification models on individual partitions aid for better performance in terms of prediction accuracy.

Erhebliche technologische Fortschritte in der heutigen Zeit haben denWeg für dasWachstum riesiger Datenmengen geebnet, die für Datenanalysen und Entscheidungsprozesse genutzt werden können. Bei der Datenanalyse werden in der Regel Algorithmen des maschinellen Lernens auf reale Daten angewendet. Die Daten in realen Szenarien enthalten jedoch eine Vielzahl komplexer Eigenschaften wie fehlende Feature-Werte, Ungleichgewicht zwischen mehreren Klassen usw. Daher führt die direkte Anwendung von Methoden des maschinellen Lernens meist nicht zu zufriedenstellenden Ergebnissen. Aus diesem Grund müssen die Daten vor der eigentlichen Datenanalyse vorverarbeitet werden, z. B. durch Partitionierung der Daten, um die Komplexität zu reduzieren. Ziel dieser Arbeit ist es, einen Partitionierungsansatz mit Hilfe von Clustering zu entwickeln, der die Komplexität der Herausforderungen reduziert. Zu diesem Zweck werden verschiedene Maße, die die Auswirkungen der Herausforderungen widerspiegeln können, im Detail analysiert. Diese Maße quantifizieren die mit den Daten verbundene Komplexität. Der Schwerpunkt der Eigenschaften, die mit der Datenkomplexität zusammenhängen, liegt in dieser Arbeit auf zwei Herausforderungen: C1 und C2. Herausforderung C1 konzentriert sich auf die Eigenschaft des Ungleichgewichts zwischen mehreren Klassen, insbesondere bei einer hohen Anzahl von Klassen und überlappenden Entscheidungsgrenzen, während Herausforderung C2 heterogene Merkmalseigenschaften umfasst, welche u.a. fehlende Feature-Werte, Unterkonzepte und das Problem der Klassenzugehörigkeit beinhalten. Obwohl es Maßnahmen zur Bewältigung einzelner Probleme gibt, konzentriert sich diese Arbeit auf die Bewältigung aller Herausforderungen in einem einzigen Datensatz und überwindet damit die Unzulänglichkeiten von Ansätzen, die nur ein Merkmal berücksichtigen. Die Trainingsdaten werden einer Partitionierung durch Clustering unterzogen, welche dann für den Wert des Komplexitätsmaßes optimiert wird. AutoML, ein Konzept für automatisiertes maschinelles Lernen, wird für die Optimierung der Hyperparameter eingesetzt. Anschließend wird ein Klassifikator auf einzelnen Partitionen trainiert, und seine Hyperparameter werden optimiert, um die Leistung des Modells zu verbessern. In der umfassenden Evaluation werden die Ergebnisse für verschiedene Komplexitätsmaße und verschiedene Stateof- the-Art-Ansätze anhand zahlreicher Validierungsdatensätze diskutiert. Die Evaluierung zeigt, dass die Partitionierung von Daten mit komplexen Eigenschaften und die Optimierung für einen geeigneten Wert des Komplexitätsmaßes die Systemleistung erhöht. Diese Arbeit zeigt also, dass die Anwendung von Klassifizierungsmodellen auf einzelne Partitionen zu einer besseren Leistung in Bezug auf die Vorhersagegenauigkeit führt.

URI

http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-123098
http://elib.uni-stuttgart.de/handle/11682/12309
http://dx.doi.org/10.18419/opus-12292

Collections

05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Full item page

Data-driven partitioning of training data for complex multiclass problems

Files

Date

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Keywords

Citation

URI

Collections

Endorsement

Review

Supplemented By

Referenced By