Investigating the influence of learning rates on the learning speed of neural networks

Sasse, Robin

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-12062

Autor(en):	Sasse, Robin
Titel:	Investigating the influence of learning rates on the learning speed of neural networks
Erscheinungsdatum:	2021
Dokumentart:	Abschlussarbeit (Bachelor)
Seiten:	85
URI:	http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-120791 http://elib.uni-stuttgart.de/handle/11682/12079 http://dx.doi.org/10.18419/opus-12062
Zusammenfassung:	This Bachelor’s Thesis investigates the effects of learning rates on the learning speed of Residual Neural Networks, training on the CIFAR-10 and CIFAR-100 data sets. Besides the optimal constant learning rate setting, we discuss the option of learning rate scheduling and calculating the learning rate. Cyclical schedules with large maximum learning rates are used to recreate a phenomenon called super-convergence, which speeds up the training procedure by as much as orders of magnitude and leads to better generalization capabilities of the network. We present an intuition as to why cyclical learning rates lead to better regularization of the network. We show that super-convergence can be reproduced for the optimizer Adam by introducing cyclical learning rates. Lastly, a method which calculates the learning rate, rather than requiring it as a hyper-parameter, is investigated. This algorithm promises to use statistical element-wise curvature information to automatically tune the learning rate for each iteration and each parameter separately. We show that while the approach of calculating the learning rate is valid, it neither leads to super-convergence nor to a higher validation accuracy achieved by the network when compared to the ones trained with cyclical learning rates. In dieser Bachelorarbeit untersuchen wir die Effekte von zyklischen Lernraten auf die Konvergenzgeschwindigkeit Residualer Neuronaler Netze, welche auf dem CIFAR-10 und dem CIFAR-100 Datensatz trainiert werden. Neben der optimalen Einstellung konstanter Lernraten, werden dynamische ("scheduled") und berechnete Lernraten analysiert. Wir rekreiren ein Phenomän, genannt Super-Convergence, welches durch zyklische Lernraten, mit außergewöhnlich großen Maximal-Lernraten, hervorgerufen wird und das Training um ein vielfaches beschleunigt. Als positiver Seiteneffekt generalisiert das trainierte Netzwerk außerdem besser. Wir liefern eine intuitive Erklärung der Ursachen von Super-Convergence und der besseren Regularisierung der Netze. Des Weiteren zeigen wir, dass Super-Convergence auch für den Optimierer Adam emergiert wenn zyklische Lernraten verwendet werden. Zusätzlich analysieren wir eine Methode, welche die Lernrate berechnet, anstatt sie als Parameter übergeben zu bekommen. Dieser Algorithmus verspricht über statistische, elementweise Kurveninformationen die Lernrate, für jeden Parameter des Netzes separat, zu bestimmen. Wir zeigen, dass dieser Ansatz valide ist. Jedoch zeigen wir ebenfalls, dass die Berechnung der Lernrate auf diese Art, im Gegensatz zur Nutzung zyklischer Lernraten, weder zu einer höheren Validation Accuracy, noch zu Super-Convergence führt.
Enthalten in den Sammlungen:	05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:

Datei	Beschreibung	Größe	Format
Bachelor_Thesis_Robin_Sasse_ohne Unterschriftsblatt.pdf		3,23 MB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige

Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.

Universität Stuttgart

OPUS - Online Publikationen der Universität Stuttgart