Leveraging biologically-plausible representations for robust and efficient generalisation in reinforcement learning
Abstract
In Reinforcement Learning (RL), efficiently representing the state of an observation space is a critical factor affecting an agent’s learning performance. However, most existing methods rely on discrete states or deep neural networks, which may result in insufficient expressiveness for continuous spaces and reduced computational efficiency. To address this limitation, this study introduces a state representation method based on Spatial Semantic Pointers (SSPs), which encodes observation spaces into high-dimensional vector representations. By leveraging the hexagonal grid structure inherent to SSPs, this approach provides an efficient and precise representation of continuous spaces. Compared to traditional methods, SSP-based state representation naturally handles complex continuous spaces, reduces information loss caused by discretization and demonstrates greater computational efficiency and robustness compared to neural network-based methods. In this work, we integrate our encoding method into the XLand-MiniGrid environment, which provides a challenging benchmark with a rich diversity of rulesets, further showcasing the effectiveness of our approach.
Im Bereich des Reinforcement Learning (RL) ist die effiziente Darstellung des Zustands eines Beobachtungsraums ein entscheidender Faktor, der die Lernleistung eines Agenten beeinflusst. Die meisten bestehenden Methoden basieren jedoch auf diskreten Zuständen oder tiefen neuronalen Netzwerken, was zu einer unzureichenden Ausdruckskraft für kontinuierliche Räume und einer geringeren Recheneffizienz führen kann. Um diese Einschränkung zu überwinden, führt diese Studie eine Zustandsdarstellungsmethode basierend auf Spatial Semantic Pointers (SSPs) ein, die Beobachtungsräume in hochdimensionale Vektordarstellungen codiert. Durch die Nutzung der hexagonalen Gitterstruktur, die SSPs innewohnt, bietet dieser Ansatz eine effiziente und präzise Darstellung kontinuierlicher Räume. Im Vergleich zu traditionellen Methoden ermöglicht die SSP-basierte Zustandsdarstellung eine natürliche Handhabung komplexer kontinuierlicher Räume, verringert den Informationsverlust durch Diskretisierung und zeigt eine höhere Recheneffizienz und Robustheit im Vergleich zu neuronalen Netzwerken. In dieser Arbeit integrieren wir unsere Codierungsmethode in die XLand-MiniGrid-Umgebung, die mit einer Vielzahl von Regelmengen eine herausfordernde Benchmark bietet und die Effektivität unseres Ansatzes weiter demonstriert.