Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-9390
Autor(en): Tschechlov, Dennis
Titel: Metriken zur Evaluation von Teilschritten in Data Mining Analysen
Sonstige Titel: Metrics for the evaluation of partial steps in data mining analyses
Erscheinungsdatum: 2017
Dokumentart: Abschlussarbeit (Bachelor)
Seiten: 100
URI: http://elib.uni-stuttgart.de/handle/11682/9407
http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-94070
http://dx.doi.org/10.18419/opus-9390
Zusammenfassung: In dieser Arbeit wurde ein Konzept entwickelt, bei der für den K-means und den K-means++ eine effiziente Berechnung der Metriken ermöglicht wurde. Mit Hilfe der Metriken wurde anschließend ein Konvergenzkriterium zur frühzeitigen Terminierung für den K-means und den K-means++ aufgestellt. In den Experimenten konnte gezeigt werden, dass sowohl für synthetische, als auch für reale Datensätze Einsparungen in den Iterationen und der Ausführungszeit von über 90% möglich waren. Zudem wurde verdeutlicht, dass eine höhere Einsparung der Ausführungszeit auch gleichzeitig mit einem höheren Qualitätsverlust verbunden ist. Des Weiteren wurden diese beiden Metriken genutzt, um geeignete Zeitpunkte für eine Visualisierung auszumachen. Dabei ergaben sich für beide Metriken, die für jeweils beide Algorithmen geprüft wurden, je unterschiedliche Werte für die Anzahl der Visualisierungen. Diese erstreckten sich von 0% bis 30% der Anzahl der Iterationen des jeweiligen Durchlaufs. Es wurde zudem aufgezeigt, dass für beide Metriken die meisten Durchläufe der Visualisierungen im Bereich von 5% bis 20% waren. Daraufhin wurden beide Ansätze kombiniert, das heißt, dass untersucht wurde wie viele Visualisierungen sich bis zum festgelegten Konvergenzkriterium ergeben. Dabei hat sich herausgestellt, dass sich dafür deutlich mehr Visualisierungen im Verhältnis von Visualisierungen und Iterationen bis zur Konvergenz ergab.
Enthalten in den Sammlungen:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
bachelorarbeit-clustering.pdf1,61 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.