Investigating the potential of large language models to enhance AI planner efficiency through automated domain model configuration

Thumbnail Image

Date

2025

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

As AI planning systems grow increasingly complex and are applied to a wider range of real-world problems, the efficiency and quality of their underlying domain models become ever more critical. However, optimizing the structure of planning domain models remains a significant challenge in AI planning, as there is little in the way of standard procedures. This thesis investigates whether Large Language Models (LLMs) can automatically reorder domain files to measurably improve AI planner performance. A modular framework was designed and implemented that combines multiple state-of-the-art LLMs and automated validation, incorporating syntactic and semantic checks. The system generates domain configurations using diverse prompt styles and temperature settings, then evaluates their impact on efficiency across benchmark planning domains and a diverse set of planners. The results demonstrate that LLM selection has a substantially greater effect on output quality than prompt strategy or temperature settings, with models like GPT-4o achieving the highest rates of valid, semantically accurate, and performance-enhancing rewrites. However, not all automatically generated variants surpass the baselines, and the risk of unintended semantic changes persists. The process remains dependent on domain and planner characteristics, indicating that further research is needed to enable planner-specific adaptation, safeguard semantic correctness, and extend the approach to richer planning paradigms. Despite these limitations, the findings suggest that automated, LLM-driven domain rewriting can become a valuable preprocessing step in the planning pipeline. By establishing a transparent, extensible evaluation methodology, this research provides a blueprint for reproducible studies in LLM-driven domain optimization. It critically assesses current model limitations and outlines clear directions for future research.


Mit zunehmender Komplexität von AI planning-Systemen und deren Anwendung auf eine immer größere Bandbreite realer Probleme wird die Effizienz und Qualität der zugrundeliegenden domain models immer entscheidender. Dennoch bleibt die Optimierung der Struktur von planning domain models eine bedeutende Herausforderung im AI planning, da es kaum standardisierte Vorgehensweisen gibt. Diese Arbeit untersucht, ob Large Language Models (LLMs) domain files automatisch umordnen können, um die Performance von AI planners messbar zu verbessern. Ein modulares Framework wurde entwickelt und implementiert, das mehrere state-of-the-art LLMs und automatisierte Validierung kombiniert und dabei sowohl syntaktische als auch semantische Prüfungen integriert. Das System generiert domain configurations mittels unterschiedlicher prompt styles und temperature settings und bewertet deren Einfluss auf die Effizienz anhand von benchmark planning domains und einer Vielzahl von planners. Die Ergebnisse zeigen, dass die Auswahl des LLMs einen deutlich größeren Einfluss auf die Output-Qualität hat als prompt strategy oder temperature settings, wobei Modelle wie GPT-4o die höchsten Raten an gültigen, semantisch korrekten und performance-steigernden Rewrites erzielen. Allerdings übertreffen nicht alle automatisch erzeugten Varianten die Baselines, und das Risiko unbeabsichtigter semantischer Änderungen bleibt bestehen. Der Prozess hängt weiterhin von den Eigenschaften der jeweiligen domain und des planners ab, was darauf hindeutet, dass weitere Forschung nötig ist, um eine planner-spezifische Anpassung zu ermöglichen, semantische Korrektheit abzusichern und den Ansatz auf reichhaltigere planning paradigms auszuweiten. Trotz dieser Einschränkungen deuten die Ergebnisse darauf hin, dass automatisiertes, LLM-gesteuertes domain rewriting ein wertvoller preprocessing-Schritt in der planning pipeline werden kann. Durch die Etablierung einer transparenten, erweiterbaren Evaluationsmethodik bietet diese Arbeit eine Blaupause für reproduzierbare Studien zur LLM-gesteuerten domain optimization. Sie bewertet die aktuellen Modellgrenzen kritisch und skizziert klare Richtungen für zukünftige Forschung.

Description

Keywords

Citation

Endorsement

Review

Supplemented By

Referenced By