Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-12063
Autor(en): Kunze, Ulf
Titel: Partitioning training data for complex multi-class problems using constraint-based clustering
Sonstige Titel: Partitionierung von Trainingsdaten für komplexe Mehrklassenprobleme mittels Constraint-basiertem Clustering
Erscheinungsdatum: 2022
Dokumentart: Abschlussarbeit (Master)
Seiten: 58
URI: http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-120801
http://elib.uni-stuttgart.de/handle/11682/12080
http://dx.doi.org/10.18419/opus-12063
Zusammenfassung: Quality control is one of the most important tools for protecting consumers of low quality products and is therefore essential. But it is not only important to keep defective and substandard products off the market through quality control, but to repair them whenever possible. This saves unnecessary waste and is a sustainable use of resources. In this thesis, constraint-based clustering algorithms are evaluated in the use case of quality control. Constraint-based clustering algorithms are used because they promise more flexibility than rigid partitions. The reallocation of data instance into new clusters can help to reduce the influence of analytic challenges for example: heterogeneous product portfolio, Multi-class imbalance and small sample size. For this thesis the algorithms CDBSCAN, COP-Kmeans and MPCK-Means are evaluated. The used constraint sets are Constraints by: Product group, engine type and error classes. This work also examines the existing method in more detail to understand the different behaviours. The end result is an average improvement of 5% over the existing approach and an increase of 13% over a random forest classifier. Furthermore, methods for extracting domain knowledge from data sets are investigated. For this purpose, an active learning and an algorithmic approach are integrated into the existing pipeline.
Die Qualitätskontrolle ist eines der wichtigsten Instrumente zum Schutz der Verbraucher vor Produkten minderer Qualität und daher unerlässlich. Aber es ist nicht nur wichtig, fehlerhafte und minderwertige Produkte durch die Qualitätskontrolle vom Markt fernzuhalten, sondern sie nach Möglichkeit zu reparieren. Dies spart unnötigen Abfall und ist ein nachhaltiger Umgang mit Ressourcen. Mit dieser Arbeit werden Constraint-basierte clustering Algorithmen im Anwendungsfall der Qualitätskontrolle untersucht. Constraint-basierte Clustering Algorithmen werden eingesetzt, weil sie mehr Flexibilität versprechen als starre Partitionen. Die Neuzuordnung von Dateninstanzen zu neuen Clustern kann dazu beitragen, die Auswirkungen der folgenden analytischen Herausforderungen zu verringern: heterogenes Produktportfolio, Multi-class imbalance und Small Sample size. Für diese Arbeit werden die Algorithmen CDBSCAN, COP-Kmeans und MPCK-Means evaluiert. Die verwendeten Constraint-Sets sind Constraints nach Produktgruppen, Motortypen und Fehlerklassen. In dieser Arbeit wird auch die bestehende Methode genauer untersucht, um die unterschiedlichen Verhaltensweisen zu verstehen. Das Endergebnis ist eine durchschnittliche Verbesserung von 5% gegenüber dem bestehenden Ansatz und eine Steigerung von 13% gegenüber einem Random Forest Klassifikator. Zusätzlich werden Verfahren untersucht um Domänenwissen aus Datensätzen zu extrahieren. Dafür wird ein Active Learning und ein algorithmischer Ansatz in die bestehende Pipeline integriert.
Enthalten in den Sammlungen:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
Master These.pdf2,37 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.