Analyse von datengetriebenen Verfahren zur Erkennung falsch dokumentierter Klassenlabel

Bonnet, Gabriel

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-11930

Langanzeige der Metadaten

DC Element	Wert	Sprache
dc.contributor.author	Bonnet, Gabriel	-
dc.date.accessioned	2022-02-07T10:28:27Z	-
dc.date.available	2022-02-07T10:28:27Z	-
dc.date.issued	2021	de
dc.identifier.other	1789196124	-
dc.identifier.uri	http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-119473	de
dc.identifier.uri	http://elib.uni-stuttgart.de/handle/11682/11947	-
dc.identifier.uri	http://dx.doi.org/10.18419/opus-11930	-
dc.description.abstract	Über die letzten Jahrzehnte hinweg lässt sich eine stetige Zunahme gesammelter Daten verschiedenster Herkunft beobachten. Diese sind beispielsweise durch technologische Entwicklungen im Zusammenhang mit dem IoT entstanden. Damit diese Daten genutzt werden können, werden sie mithilfe datengetriebener Verfahren des Maschinellen Lernens ausgewertet. Solche Daten sind für eine große Anzahl industrieller Wertschöpfungen relevant, denn mithilfe von Datenanalysen lassen sich beispielsweise im Bereich des Qualitätsmanagements Ursachen für fehlerhafte Vor-gänge und die daraus resultierenden fehlerhaften Produkte bestimmen. Die gesammelten Daten bringen jedoch zahlreiche Herausforderungen mit sich. Zu diesen zählen zum Beispiel eine Klassenungleichverteilung, Label Noise und wenige Datenpunkte je Klasse, welche zu einer mäßigen Vorhersagegenauigkeit herkömmlicher Klassifikatoren führen. Wie schon das Ergebnis der Arbeit von Hirsch et. al. [HRM19] zeigt, schneidet der Random Forest Klassifikator unter den gegebenen Herausforderungen und somit auch im Hinblick auf Label Noise am besten ab. Ziel dieser Arbeit ist es demnach unterschiedliche datengetriebene Verfahren zur Erkennung von Label Noise in Kombination mit den genannten Herausforderungen zu untersuchen. Dabei wird speziell die Datenvorbereitung betrachtet und es wird untersucht, ob diese Verfahren gut mit den Herausforderungen umgehen können. Methoden zur Erkennung von Label Noise, auch Detektoren genannt, berechnen für jeden Datenpunkt aus einem Datensatz einen Konfidenzwert oder eine Wahrscheinlichkeit, ob dieser Datenpunkt richtig gelabelt wurde. Dafür nutzen die Detektoren unterschiedliche Algorithmen, wobei der Fokus dieser Arbeit auf fünf Detektoren, KDN, Instance-Hardness, Partitioning-Detektor, Random Forest Detektor und MCS, liegt. Um die Detektoren zu vergleichen, werden unterschiedliche Szenarien genutzt, da es nach dem Anwenden der Detektoren zwei Möglichkeiten gibt: Entweder können Datenpunkte gelöscht oder nach dem Konfidenzwert gewichtet werden. Zur Evaluation der Ansätze werden eine Reihe an Versuchen durchgeführt, die verschiedene Datensätze mit einer Vielzahl an unterschiedlichen Eigenschaften berücksichtigen. Dabei müssen fehlende Attributwerte abgeschätzt werden, damit der Random Forest angewandt werden kann. In der ersten Versuchsreihe werden iterativ Datensätze erstellt, mit denen die Herausforderungen isoliert betrachtet werden können. In dieser wird deutlich, dass der Random Forest mithilfe des Instance-Hardness Detektors durchschnittlich besser abschneidet als der Random Forest ohne Detektoren. In der zweiten Versuchsreihe dagegen wird der ImbalanceDataGenerator von Dennis Tschechlov verwendet, um Datensätze zu generieren, die alle Herausforderungen abdecken. Dabei stellt sich heraus, dass die Szenarien sehr ähnlich abschneiden. Generell erzielen der Instance-Hardness Detektor und der KDN unter den Detektoren die beste Genauigkeit. Dagegen schneidet der Partitioning-Detektor am schlechtesten ab. Der MCS-Detektor ist nicht für Mehrklassenprobleme geeignet.	de
dc.language.iso	de	de
dc.rights	info:eu-repo/semantics/openAccess	de
dc.subject.ddc	004	de
dc.title	Analyse von datengetriebenen Verfahren zur Erkennung falsch dokumentierter Klassenlabel	de
dc.type	bachelorThesis	de
ubs.fakultaet	Informatik, Elektrotechnik und Informationstechnik	de
ubs.institut	Institut für Parallele und Verteilte Systeme	de
ubs.publikation.seiten	65	de
ubs.publikation.typ	Abschlussarbeit (Bachelor)	de
Enthalten in den Sammlungen:	05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:

Datei	Beschreibung	Größe	Format
Bonnet-Analyse von datengetriebenen Verfahren zur Erkennung falsch dokumentierter Klassenlabel.pdf		1,15 MB	Adobe PDF	Öffnen/Anzeigen

Zur Kurzanzeige

Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.

Universität Stuttgart

OPUS - Online Publikationen der Universität Stuttgart