Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-13967
Autor(en): Stegmaier, Tobias
Titel: Biologically plausible Reinforcement Learning
Erscheinungsdatum: 2023
Dokumentart: Abschlussarbeit (Bachelor)
Seiten: 41
URI: http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-139864
http://elib.uni-stuttgart.de/handle/11682/13986
http://dx.doi.org/10.18419/opus-13967
Zusammenfassung: The fundamental idea of Reinforcement Learning (RL) is learning by interacting with an environment through trial and error and is inspired by the way animals learn in nature. However, standard RL approaches still struggle with seemingly simple tasks, where humans would excel after a few trials. In detail, there is a high volatility between different runs of the RL training process, in addition to a slow convergence rate for each trial. Previous work has shown that using a biologically inspired approach to RL significantly improves this learning speed and increases the robustness of training across different runs. The biologically based approach uses a state representation, called Spatial Semantic Pointers (SSPs), where embeddings of the state are encoded in a biologically plausible vector space representation. Experiments on a simple two-dimensional navigation task have shown that introducing a grid-like structure into the vector space further increases the learning speed. However, it remains unclear, whether these findings scale to different environments with more complex inputs. Specifically, we are interested in comparing this approach in environments with state spaces to environments with more complex inputs, such as RGB images. Furthermore, the approach is also compared to common artificial neural networks with the state-of-the-art Advantage Actor-Critic (A2C) agent. Our results suggest that using biologically based state representations leads to a faster learning speed in some environments while causing slower learning in others. Further, the state representations do not extend very well on larger or more complex inputs like images, causing worse performance in both learning speed and overall training time needed.
Die grundlegende Idee von Reinforcement Learning (RL), von lernen, indem man mit seiner Umgebung durch Trial-and-Error (Versuch und Irrtum) interagiert, ist ähnlich zu der Art, wie Tiere in der Natur lernen. RL Ansätze haben jedoch Probleme scheinbar einfache Aufgaben zu lösen, in denen Menschen nach nur einigen Testläufen exzellent Leistung zeigen. In mehr Detail, der RL Lernvorgang zeichnet sich durch eine Sprunghaftigkeit über Trainingsdurchläufe aus, zusätzlich zu einer langsamen Konvergenz rate für jeden Trainingsdurchlauf. Vorherige Arbeit hat gezeigt, dass die Nutzung eines durch die Biologie inspirierten Ansatz zu RL die Lerngeschwindigkeit und die Stabilität über Trainingsdurchläufen erhöht. Die biologisch inspirierten Ansätze nutzen eine Repräsentation für den State (Zustand), die sich Spatial Semantic Pointer (SSP) nennt, die den State durch die Nutzung eines biologisch plausiblen Vektorraum kodiert. Experimente mit einer zweidimensionalen Navigationsaufgabe haben gezeigt, dass das Einführen einer rasterähnlichen Struktur in den Vektorraum die Lerngeschwindigkeit noch weiter erhöht. Es ist jedoch nicht sicher, ob diese Ergebnisse sich auch so in anderen Umgebungen mit komplexeren Werten ausdehnen lassen. Diese Arbeit vergleicht diesen Ansatz in Umgebungen mit komplexeren Inputs (Werte, die in ein neuronales Netz gegeben werden) wie zum Beispiel RGB-Bilder. Des Weiteren wird der Ansatz, mit einem regulären künstlichen neuronalen Netz (ANN), mit einem Advantage Actor-Critic (A2C) verglichen, einem Model des aktuellen Technikstands. Die Ergebnisse legen nahe, dass biologisch inspirierte Repräsentationen für den Zustand zu einer höheren Lerngeschwindigkeit in einigen Umgebungen führt, aber zu langsameres Lernen in anderen Umgebungen. Zusätzlich lassen sich die Repräsentationen für den Zustand nicht gut auf größere oder komplexere Inputs erweitern, da sie schlechtere Ergebnisse in Lerngeschwindigkeit und benötigte Trainingszeit haben.
Enthalten in den Sammlungen:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
Bachelor_Thesis___Biologically_Plausible_Reinforcement_Learning.pdf1,23 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.