Bayesian symbolic regression in structured latent spaces

Thumbnail Image

Date

2025

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Symbolic regression is an interpretable machine learning method that learns mathematical expressions from given data. It naturally combines with Bayesian Inference which lets experts express their knowledge as prior distributions over equations. However, the infinite search space of mathematical expressions renders exhaustive search impractical, and Bayesian Inference remains costly. Therefore, we propose to execute the Bayesian Reasoning in the learned latent space of a trained Variational Autoencoder (VAE) and thereby exploit inherent structures in the search space. While latent spaces have been used to structure search spaces, our approach provides the probability of each mathematical expression rather than selecting the best one. We suggest practical approximations to the posterior distribution in latent space and obtain formula examples by sampling from the posterior using the Gaussian Process Hamiltonian Monte Carlo (GP-HMC) method. We have validated our method using various Koza, Nguyen, and self-generated datasets and compared it against genetic programming and SInDy concerning the Root Mean Square Error (RMSE). Keywords: Symbolic Regression, latent space, Variational Autoencoder, Character Variational Autoencoder, Grammar Variational Autoencoder, Bayesian Reasoning, Gaussian Process, Hamiltonian Monte Carlo, Gaussian Process Hamiltonian Monte Carlo


Die symbolische Regression ist eine interpretierbare Methode des maschinellen Lernens, die mathematische Ausdrücke aus gegebenen Daten lernt. Sie kombiniert sich natürlich mit der Bayesianischen Inferenz, die es Experten ermöglicht, ihr Wissen als Priorverteilungen über Gleichungen auszudrücken. Jedoch macht der unendliche Suchraum mathematischer Ausdrücke eine erschöpfende Suche unpraktisch, und die Bayesianische Inferenz bleibt kostspielig. Daher schlagen wir vor, das Bayesianische Schließen im erlernten latenten Raum eines trainierten Variational Autoencoders (VAE) durchzuführen und damit die inhärenten Strukturen im Suchraum zu nutzen. Während latente Räume verwendet wurden, um Suchräume zu strukturieren, liefert unser Ansatz die Wahrscheinlichkeit jedes mathematischen Ausdrucks, anstatt den besten auszuwählen. Wir schlagen praktische Annäherungen an die posteriore Verteilung im latenten Raum vor und erhalten Formelbeispiele durch das Probenahmeverfahren aus dem Posterior mithilfe der Hamiltonian Monte Carlo-Methode des Gaussian Prozesses. Wir haben unsere Methode mit verschiedenen Koza, Nguyen und selbst erstellten Datensätzen validiert und sie im Hinblick auf den Root Mean Square Error (RMSE) mit genetischer Programmierung und SInDy verglichen. Schlüsselwörter: Symbolic Regression, latent space, Variational Autoencoder, Character Variational Autoencoder, Grammar Variational Autoencoder, Bayesian Reasoning, Gaussian Process, Hamiltonian Monte Carlo, Gaussian Process Hamiltonian Monte Carlo

Description

Keywords

Citation

Endorsement

Review

Supplemented By

Referenced By