Data-efficient reinforcement learning with Bayesian neural networks

Thumbnail Image

Date

2025

Journal Title

Journal ISSN

Volume Title

Publisher

Stuttgart : Fraunhofer-Institut für Produktionstechnik und Automatisierung IPA

Abstract

Artificial Intelligence (AI) and Machine Learning (ML) have propelled significant advancements across numerous domains, with deep Reinforcement Learning (RL) emerging as a critical solution for complex control tasks. While traditional Neural Networks (NNs) enhance performance and learning capacity, they often exhibit overconfidence and lack uncertainty information in their predictions, which can compromise optimal decision-making in stochastic environments. This thesis elucidates the potential of Bayesian Neural Networks (BNNs), which reconcile the predictive capacities of NNs with the probabilistic rigor of Bayesian inference, offering a robust paradigm for uncertainty quantification. An innovative approach is introduced, employing the Kalman filter, a powerful tool for state estimation in dynamic systems, to enable efficient online learning of BNNs. The effectiveness and efficiency of this approach are validated on standard ML datasets. Beyond providing a theoretical exposition of BNNs, the thesis pioneers the integration of BNNs within both model-free and model-based RL frameworks. The objective is to utilize the uncertainty quantification capabilities of BNNs to improve learning efficiency and safety performance of RL algorithms, over- coming challenges associated with overconfidence and uncertain predictions. The practical efficacy of the proposed methodologies is validated through experiments on classic control problems and complex robotic tasks. The empirical results underscore significant improvements in learning efficiency and safety performance, proving the theoretical merits of integrating BNNs with RL. In conclusion, this thesis offers an in-depth exploration into the fusion of BNNs and RL, presenting innovative methodologies that incorporate uncertainty information into RL paradigms. The insights and methodologies proposed serve as a springboard for future research, moving us closer to the realization of RL’s full potential in real-world applications.


Künstliche Intelligenz (KI) und Maschinelles Lernen (ML) haben bedeutende Fortschritte in zahlreichen Bereichen vorangetrieben, wobei das tiefe Bestärkende Lernen (Reinforcement Learning, RL) als entscheidende Lösung für komplexe Steuerungsaufgaben hervortritt. Während traditionelle neuronale Netze (NNs) die Leistung und Lernkapazität verbessern, zeigen NNs oft übermäßiges Selbstvertrauen und inkludieren keine Unsicherheitsinformationen in ihren Vorhersagen, was die optimale Entscheidungsfindung in stochastischen Umgebungen beeinträchtigen kann. Diese Dissertation untersucht das Potenzial der Bayes’schen Neuronalen Netze (BNNs), welche die Vorhersagekapazitäten der NNs mit der probabilistischen Rigorosität der Bayes’schen Inferenz in Einklang bringen und somit ein robustes Paradigma für die Quantifizierung von Unsicherheit bieten. Ein innovativer Ansatz wird vorgestellt, der das Kalman-Filter, ein etabliertes Werkzeug zur Zustandsschätzung in dynamischen Systemen, verwendet, um ein effizientes Online-Lernen von BNNs zu ermöglichen. Die Wirksamkeit und Effizienz dieses Ansatzes werden an unterschiedlichen Datensätzen untersucht sowie validiert. Über eine theoretische Darstellung der BNNs hinaus, bahnt die Dissertation den Weg für die Integration von BNNs in sowohl modellfreie als auch modellbasierte RL-Frameworks. Das Ziel ist es, die Fähigkeiten der BNNs zur Quantifizierung von Unsicherheit zu nutzen, um die Lerneffizienz und Sicherheitsleistung von RL-Algorithmen zu verbessern und Herausforderungen im Zusammenhang mit übermäßigem Selbstvertrauen und unsicheren Vorhersagen zu überwinden. Die praktische Wirksamkeit der vorgeschlagenen Methoden wird durch Experimente zu klassischen Steuerungsproblemen und komplexen robotischen Aufgaben validiert. Die empirischen Ergebnisse unterstreichen deutliche Verbesserungen in Lerneffizienz und Sicherheitsleistung und bestätigen die theoretischen Vorteile der Integration von BNNs in das RL. Abschließend bietet diese Dissertation eine detaillierte Untersuchung der Kombination von BNNs und RL und präsentiert innovative Methoden, die Unsicherheitsinformationen in RL-Paradigmen integrieren. Die vorgeschlagenen Erkenntnisse und Methoden dienen als Ausgangspunkt für zukünftige Forschungen und liefern einen Beitrag zur Nutzung des vollen Potenzials von RL in realen Anwendungsszenarien.

Description

Keywords

Citation

Endorsement

Review

Supplemented By

Referenced By

Creative Commons license

Except where otherwised noted, this item's license is described as info:eu-repo/semantics/openAccess