Please use this identifier to cite or link to this item: http://dx.doi.org/10.18419/opus-3454
Authors: Zwietasch, Tim
Title: Detecting anomalies in system log files using machine learning techniques
Issue Date: 2014
metadata.ubs.publikation.typ: Abschlussarbeit (Bachelor)
URI: http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-97679
http://elib.uni-stuttgart.de/handle/11682/3471
http://dx.doi.org/10.18419/opus-3454
Abstract: Log files, which are produced in almost all larger computer systems today, contain highly valuable information about the health and behavior of the system and thus they are consulted very often in order to analyze behavioral aspects of the system. Because of the very high number of log entries produced in some systems, it is however extremely difficult to find relevant information in these files. Computer-based log analysis techniques are therefore indispensable for the process of finding relevant data in log files. However, a big problem in finding important events in log files is, that one single event without any context does not always provide enough information to detect the cause of the error, nor enough information to be detected by simple algorithms like the search with regular expressions. In this work, three different data representations for textual information are developed and evaluated, which focus on the contextual relationship between the data in the input. A new position-based anomaly detection algorithm is implemented and compared to various existing algorithms based on the three new representations. The algorithms are executed on a semantically filtered set of a labeled BlueGene/L log file and evaluated by analyzing the correlation between the labels contained in the log file and the anomalous events created by the algorithms. The results show, that the developed anomaly detection algorithm generates the most correlating set of anomalies by using one of the three representations.
Logdateien werden heutzutage in nahezu allen größeren Computersystemen produziert. Diese enthalten wertvolle Informationen über den Zustand und das Verhalten des darunterliegenden Systems. Aus diesem Grund werden sie sehr häufig als erstes im Falle eines Fehlers oder sonstigem Fehlverhalten in einem System konsultiert. Wegen der enormen Anzahl an Ereignissen, die in Logdateien gespeichert werden, wird die Suche nach Einträgen, welche Informationen über einen Fehler im System besitzen, jedoch sehr erschwert. Computerbasierte Analysetechniken werden aus diesem Grund mehr und mehr unerlässlich für die Diagnose von Fehlverhalten aus Logdateien. In dieser Arbeit werden drei verschiedene Repräsentationsformen für textuelle Informationen vorgestellt und evaluiert, welche sich auf kontextuelle Abhängigkeiten zwischen den Daten in der Eingabe beschäftigen. Zusätzlich wird, basierend auf den drei entwickelten Repräsentationen, ein neuer positionsbasierter Algorithmus zum Erkennen von Anomalien vorgestellt, implementiert und mit verschiedenen anderen Algorithmen verglichen. Die Algorithmen werden auf einer semantisch gefilterten Instanz einer beschrifteten Logdatei ausgeführt, die von dem Supercomputer BlueGene/L stammt. Die Ergebnisse der Ausführung werden anschließend evaluiert, indem die Korrelation zwischen den vorhandenen Beschriftungen und den Ereignissen, die als anomal eingestuft wurden, analysiert wird. Die Ergebnisse zeigen, dass der entwickelte Algorithmus in zwei der drei Repräsentationen die insgesamt beste Korrelation zwischen Ereignissen, die als anomal eingestuft wurden und den beschrifteten Ereignissen, erzeugt.
Appears in Collections:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Files in This Item:
File Description SizeFormat 
BCLR_0148.pdf4,56 MBAdobe PDFView/Open


Items in OPUS are protected by copyright, with all rights reserved, unless otherwise indicated.