Model-based reinforcement learning with state-space models

Thumbnail Image

Date

2025

Journal Title

Journal ISSN

Volume Title

Publisher

Stuttgart : Fraunhofer-Institut für Produktionstechnik und Automatisierung IPA

Abstract

Formulating mathematical equations that describe dynamic systems remains a significant and necessary challenge in designing a control system to this day. The time required for this process increases the automation costs in almost every domain. One way to reduce these costs is through a technique called system identification, where mathematical equations are formulated using measurement data. Different input signals are applied to the system, and the resulting output signals are measured. Subsequently, a model is searched that features similar or ideally identical behavior to the measurements. However, established methods for system identification often lack adequate complexity. A major issue is that dynamic models have temporal dependencies that can only be accurately replicated by differential equations. In the literature, a common approach to address this, is through an approximation called discretization, which transforms a differential equation into a difference equation. This thesis examines how methods of artificial intelligence can assist in performing a system identification task. To be precise, three new algorithms are developed that enable machine learning techniques to identify a system under different circumstances. Here, a focus lies in conducting an identification in the continuous-time domain. Furthermore, the thesis investigates how the developed methods can be directly integrated into an automation context, which is known as model-based Reinforcement Learning. This involves iteratively identifying a model that is immediately used as a basis for a controller. The use of this controller generates new measurement data, enabling model updates, which results in the model becoming more accurate with every new iteration. The key innovations of this work are described in Chapters 4 through 6. Chapter 4 introduces a method for identifying a linear state-space model. The focus here is on a quick identification that can also be performed on a computer with limited computational power. Subsequently, the method is integrated into a model-based reinforcement learning environment. Chapter 5 presents a method that identifies individual system parameters in an otherwise known nonlinear differential equation of the state-space representation. Here, noisy measurement data is used, and the algorithm allows that not every system state is directly measurable. Chapter 6 extends the method that is introduced in Chapter 5 so that the complete state-space equation is now estimated. Special emphasis is placed on the incorporation of system knowledge -if available- into the identification process in order to improve the identification quality. This method is also subsequently integrated into a model-based reinforcement learning environment. All presented methods are validated in a simulation. In the final chapter, the approach is additionally validated on a real-world laboratory experiment.


Das Aufstellen von mathematischen Gleichungen, die dynamische Systeme beschreiben, stellt bis heute eine große Herausforderung beim Entwurf eines Regelungssystems dar. Die dafür notwendige Zeit erhöht die Automatisierungskosten in nahezu jedem Bereich. Eine Möglichkeit diese zu reduzieren, bietet die sogenannte Systemidentifikation, wo mathematische Gleichungen mit Hilfe von Messdaten aufgestellt werden. Dabei werden dem System unterschiedliche Eingangssignale zugeführt und die sich ergebenden Ausgangssignale gemessen. Anschließend wird ein Modell gesucht, das ein ähnliches oder idealerweise identisches Verhalten zu den Messungen aufweist. Etablierte Methoden zur Systemidentifikation haben jedoch häufig eine unzureichende Komplexität. Ein großes Problem ist dabei, dass dynamische Modelle Zeitabhängigkeiten besitzen, welche nur von Differentialgleichungen präzise nachgebildet werden können. In der Literatur wird hierbei häufig die Näherung einer Diskretisierung vorgenommen, welche aus einer Differentialgleichung eine Differenzengleichung erzeugt. In der vorliegenden Arbeit wird untersucht, wie Methoden der künstlichen Intelligenz helfen können, eine Systemidentifikation vorzunehmen. Dazu werden drei neue Algorithmen entwickelt, die neuronale Netze dazu befähigen ein System zu identifizieren. Ein besonderes Augenmerk wird daraufgelegt, dass die Identifikation im zeitkontinuierlichen Bereich durchgeführt wird. Des Weiteren wird untersucht, wie die entwickelten Algorithmen direkt in einen Automatisierungskontext, dem sogenannten model-based Reinforcement Learning (dt.: modellbasiertes, bestärkendes Lernen) eingebunden werden können. Dabei wird iterativ ein Modell identifiziert, welches umgehend als Grundlage für einen Regler verwendet wird. Die Nutzung dieses Reglers erzeugt neue Messdaten, was eine Modellaktualisierung ermöglicht, sodass das Modell mit fortschreitender Iteration immer genauer wird. Die wesentlichen Neuerungen dieser Arbeit sind in den Kapiteln 4-6 beschrieben. In Kapitel 4 wird zunächst eine Methode eingeführt, welche es erlaubt ein lineares Zustandsraummodell zu identifizieren. Hierbei liegt der Fokus auf der schnellen Identifikation, welche auch auf einem Rechner mit geringer Leistung durchgeführt werden kann. Anschließend wird die Methode in eine model-based Reinforcement Learning'-Umgebung eingebunden. Kapitel 5 zeigt eine Methode, die einzelne Systemparameter in einer ansonsten bekannten, nichtlinearen Differentialgleichung, der Zustandsraumdarstellung, identifiziert. Dabei werden verrauschte Messdaten verwendet und der Algorithmus erlaubt, dass nicht alle Systemzustände direkt messbar sind. Kapitel 6 erweitert die in Kapitel 5 eingeführte Methode, sodass nun das komplette Zustandsraummodell geschätzt wird. Ein besonderer Fokus wird daraufgelegt, dass, sofern vorhanden, Systemwissen in den Identifikationsprozess eingebunden werden kann, was die Identifikationsqualität verbessert. Auch diese Methode wird anschließend wieder in eine model-based Reinforcement Learning'-Umgebung eingebunden. Alle vorgestellten Methoden werden durch Simulationen validiert. In Kapitel 6 wird der dort vorgestellte Ansatz zusätzlich zu einer simulativen Validierung auch auf einem echten Laboraufbau auf seine Tauglichkeit geprüft.

Description

Keywords

Citation

Endorsement

Review

Supplemented By

Referenced By

Creative Commons license

Except where otherwised noted, this item's license is described as info:eu-repo/semantics/openAccess