AutoML für Clustering zur Datenpartitionierung für einen Multi-Klassen-Anwendungsfall

Schneider, Michael

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-13860

Autor(en):	Schneider, Michael
Titel:	AutoML für Clustering zur Datenpartitionierung für einen Multi-Klassen-Anwendungsfall
Sonstige Titel:	AutoML for clustering to partition data for a multi-class use case
Erscheinungsdatum:	2023
Dokumentart:	Abschlussarbeit (Bachelor)
Seiten:	54
URI:	http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-138796 http://elib.uni-stuttgart.de/handle/11682/13879 http://dx.doi.org/10.18419/opus-13860
Zusammenfassung:	In der heutigen datengetriebenen Welt ist die effiziente und effektive Verarbeitung und Analyse von vorhandenen Datenmengen von essenzieller Bedeutung. Bisherige Arbeiten von Hirsch et al. [HRM19; HRM20] zeigen, wie man analytischen Herausforderungen eines Datensatzes aus Produktionsdaten, nämlich eine kleine Datensatzgröße, Klassenungleichverteilung und ein heterogenes Produktportfolio (C1-C3) angehen kann. Mit Hilfe von Ensemble-Learning-Verfahren kann die Klassifikation verbessert werden[HRM19]. Es wird aufgezeigt, dass verfügbares Domänenwissen in Form einer Produkthierarchie dazu genutzt werden kann, die Daten zu partitionieren, sodass die Vorhersage einer anschließenden Klassifikation signifikant verbessert werden kann [HRM20]. In Der Arbeit von Braun [Bra21] wird untersucht, ob die Vorhersage auf einem synthetisch generierten Datensatz mit denselben analytischen Herausforderungen, auch ohne vorhandenes Domänenwissen, verbessert werden kann. Dabei sollen die Daten durch eine rein datengetriebene Partitionierung mittels Clustering aufgeteilt werden, um die nachfolgende Klassifikation zu vereinfachen und homogenere Gruppen mit ähnlichen Eigenschaften zu erzeugen. Dabei werden vergleichbare oder sogar leicht verbesserte Ergebnisse, im Vergleich zur Klassifikation ohne Datenpartitionierung, erzielt. Jedoch zeigt sich, dass es Schwierigkeiten bei der Parameterwahl der Clustering-Algorithmen und die Bewertung der resultierenden Cluster gibt. Daher wird AutoML4Clust [TFS+21] eingesetzt, um die Parameterauswahl mittels intrinsischer Clustering-Metriken zu optimieren. In dieser Arbeit wird untersucht, ob die Erkenntnisse aus Brauns Vorarbeit [Bra21] auf realen Produktionsdaten eines Laserschneidemaschinenherstellers übertragen werden können. Hierbei sollen die Produktionsdaten dazu genutzt werden, den voll-automatisierten Prozess der Laserschneidemaschinen zu optimieren, indem Fehlzustände vor dem eigentlichen Prozess erkannt werden können. Die Produktionsdaten weisen dieselben analytischen Herausforderungen C2 und C3 aus [HRM19] auf, jedoch stellt im Vergleich zu C1, durch eigener Analyse die große Datenmenge, bestehend aus 6,5 Millionen Datenpunkten und 155 Features, eine neue Herausforderung dar. Die Umsetzung einer datengetriebenen Partitionierung eines Datensatzes dieser Größenordnung erfordert zusätzliche Methoden wie Undersampling und Feature-Selection, um der Laufzeit- und Speicherkomplexität der verwendeten Algorithmen entgegenzuwirken. Außerdem liegen keine vorher bekannten Cluster-Labels vor, wodurch eine Optimierung, basierend auf Metriken mit diesen bekannten Cluster-Labels, unmöglich ist. Das Hauptziel dieser Arbeit besteht darin, ein automatisch optimiertes Vorhersagemodell speziell für diesen Anwendungsfall zu erstellen, welches die Parameter der Clustering und Klassifikations-Algorithmen kombiniert optimiert. Dazu wird das Clustering als Vorverarbeitung der Daten genutzt, um homogenere Gruppen zu bilden. Für die Analyse und um die Herausforderungen der Daten zu adressieren, wird eine vollständig modulare Pipeline in Python erstellt. Jeder Schritt, einschließlich Datenaufbereitung, Undersampling, Clustering, Klassifikation, automatisiertes maschinelles lernen (AutoML), Modell-Retraining und Evaluation, kann erweitert oder ausgetauscht werden. Zusätzlich werden Python-Module verwendet, um das Tracking und die Durchführung von Experimenten zu vereinfachen und die Algorithmen mit Hilfe von GPUs zu beschleunigen. Bei der Evaluation zeigt sich eine geringfügig schlechtere Vorhersagegenauigkeit bei der Optimierung des kombinierten Clusterings und Klassifikation im Vergleich zum optimierten Baseline Random-Forest-Klassifikator ohne Datenpartitionierung. Zudem resultiert dies, trotz erheblichem zeitlichem Mehraufwand, der durch die benötigten extra Schritte für die Optimierung verursacht wird.
Enthalten in den Sammlungen:	05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:

Datei	Beschreibung	Größe	Format
BA_Thesis_Final.pdf		456,92 kB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige

Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.

Universität Stuttgart

OPUS - Online Publikationen der Universität Stuttgart