Integration of data reduction methods for an AutoML system for clustering analyses
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Machine learning is an integral part of data analysis, but necessitates both expert knowledge in analysis and in the analyzed domain to choose suitable parameters in order to produce valuable results. Automated machine learning a.k.a. AutoML aims to increase the accessibility of machine learning by automating the selection of suitable parameters, but AutoML systems are computing-intensive and thus often need long runtimes to produce valuable results. A proposed solution to this problem is the reduction of runtime of AutoML systems through reducing the underlying data while maintaining quality for results, which is actively explored for supervised systems. Data reduction for unsupervised systems that use clustering is still largely unexplored. In this work suitable data reduction methods for the integration into an AutoML system for clustering, namely the AutoML4Clust system, are searched and selected. Moreover, different approaches to integrating the selected found data reduction methods into the system are presented. Both the selected data reduction methods and the different integration approaches are ultimately used to build a new AutoML system for clustering on the basis of AutoML4Clust, the AutoML4ClustDR system. In the evaluation it is shown that AutoML4ClustDR succeeds in reducing runtime without sacrificing a significant amount of quality for the results compared to AutoML4Clust.
Maschinelles Lernen ist ein integraler Teil der Datenanalyse, setzt jedoch Fachwissen in der Datenanalyses sowie Expertise in der untersuchten Domäne voraus, damit die geeigneten Parameter gewählt werden können, um wertvolle Resultate zu generieren. Automatisiertes maschinelles Lernen, kurz AutoML, hat das Ziel die Einstiegshürde für die Nutzung von maschinellem Lernen zu senken, indem die geeigneten Parameter automatisch ausgewählt werden. Allerdings sind AutoML Systeme sehr rechenintensiv, wodurch sich in der Regel auch lange Laufzeiten für die Systeme ergeben. Die Reduktion der Laufzeit durch die Reduzierung der zugrundeliegenden Daten,ohne dass die Ergebnisse dabei merklich an Qualität einbüßen, ist ein Lösungsansatz der in überwachten AutoML Systemen aktiv erforscht wird. Die Integration von Datenreduktion in unüberwachte AutoML Systeme für Clustering ist noch weitesgehend unerforscht. In dieser Arbeit werden Datenreduktionsmethoden, die sich für die Integration in ein AutoML System für Clustering, spezifisch das AutoML4Clust System, eignen, identifiziert und ausgewählt. Zusätzlich werden verschiedene Herangehensweisen für die Integration der ausgewählten Datenreduktionsmethoden in das bestehende System präsentiert. Die ausgewählten Datenreduktionsmethoden, sowie die verschiedenen Ansätze zur Integration der Methoden werden schlussendlich dazu genutzt um ein neues System auf Basis des AutoML4Clust Systems zu bauen. Das neue System heißt AutoML4ClustDR. In der Auswertung wird demonstriert, dass das AutoML4ClustDR System erfolgreich die Laufzeit im Vergleich zu dem AutoML4Clust System verringert, ohne nennenswerte Verluste bei der Qualität der Ergebnisse hinnehmen zu müssen.