Please use this identifier to cite or link to this item: http://dx.doi.org/10.18419/opus-10782
Authors: Niederhausen, Tim
Title: Untersuchung der Auswirkungen von Autoencodern auf Datenanalyseprozesse
Other Titles: Investigation of the Effects of Autoencoders on Data Analysis Processes
Issue Date: 2019
metadata.ubs.publikation.typ: Abschlussarbeit (Bachelor)
metadata.ubs.publikation.seiten: 75
URI: http://elib.uni-stuttgart.de/handle/11682/10799
http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-107994
http://dx.doi.org/10.18419/opus-10782
Abstract: Dank neuer Technologien wächst die Menge an erhobenen und gesammelten Daten stetig an. Mittels komplexer Analysealgorithmen versuchen Analysten aus großen Datenmengen Wissen zu gewinnen. Die Folge sind lange Laufzeiten. Dadurch ist der Analyst gegebenenfalls gehemmt, mehrere Explorationsschritte durchzuführen, um zu belastbaren Ergebnissen zu gelangen. Um diese langen Laufzeiten zu reduzieren, können die Datensätze verkleinert werden. Eine Möglichkeit hierfür ist die Dimensionsreduzierung. Hierbei wird die Anzahl an Features eines Datensatzes verkleinert. Für diese Aufgabe existiert eine Vielzahl an Algorithmen. Darunter auch Autoencoder, ein speziell dafür ausgelegtes künstliches neuronales Netz. Allerdings besitzen Autoencoder eine Vielzahl an Hyperparametern, die sinnvoll gesetzt werden müssen, um ein belastbares Ergebnis zu erzielen. Die Suche einer solchen Konfiguration stellt eine zusätzliche Aufgabe für den Analysten dar. In dieser Arbeit wird ein Verfahren vorgestellt, mit dem eine Autoencoder-Konfiguration für einen noch ungesehenen Datensatz automatisch erstellt wird. Als Grundlage dienen belastbare Autoencoder bereits bekannter Datensätze, die für den noch ungesehenen Datensatz übernommen werden. Die Auswahl des am besten geeigneten bekannten Datensatzes findet anhand von Metafeatures des ungesehenen Datensatzes statt. Im Zuge dieser Arbeit wurde ein Werkzeug entwickelt, welches das beschriebene Konzept umsetzt und belastbare Konfigurationen von Autoencodern für bisher ungesehene Datensätze vorschlägt. Eine Evaluation dieses Ansatzes zeigt, dass große Laufzeiteinsparungen möglich sind, die Qualität allerdings abhängig vom Data-Mining-Algorithmus ist. Für Clustering sind stabile Ergebnisse zu sehen, die den Explorationszyklus deutlich beschleunigen können.
Thanks to new technologies, the amount of data collected is constantly growing. Using complex analysis algorithms, analysts try to gain knowledge from large amounts of data. The result are long runtimes. This may prevent the analyst from carrying out several exploration steps in order to obtain reliable results. To reduce these long algorithm runtimes, the datasets can be reduced in size. One possible approach for this is dimensionality reduction, in which case the number of features a dataset possesses is reduced. A multitude of algorithms exist for this task. These include autoencoders, artificial neural networks specifically designed for this purpose. However, autoencoders have a large number of hyperparameters that must be set correctly in order to achieve a reliable result. The search for such an autoencoder configuration presents an additional challenge for the analyst. In this work, a method is presented to automatically create an autoencoder configuration for a yet unseen dataset. This new autoencoder configuration is based on reliable auto-encoders of already known datasets, which are adapted to the unseen dataset. The selection of the most suitable known dataset is thereby based on metafeatures of the unseen dataset. In the course of this work, a tool was developed which implements the described concept and suggests robust configurations of autoencoders for previously unseen datasets. An evaluation of this approach shows that large reductions in runtime are possible, but the quality depends highly on the used data mining algorithm. For clustering algorithms, robust results can be seen that can significantly accelerate the exploration process.
Appears in Collections:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Files in This Item:
File Description SizeFormat 
bachelorarbeit.pdf876,36 kBAdobe PDFView/Open


Items in OPUS are protected by copyright, with all rights reserved, unless otherwise indicated.