The Yokai challenge : a new frontier for Multi-Agent Reinforcement Learning and Machine Theory of Mind

Thumbnail Image

Date

2024

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

The ability to infer the beliefs, desires, and preferences of others around us - known as Theory of Mind - is critical to effectively collaborate as human beings. In recent years, Theory of Mind has been extended to the field of artificial intelligence as Machine Theory of Mind. Agents with a Theory of Mind have a human-like ability to reason about the mental states of other agents, thus enabling more efficient cooperation among agents. In the field Multi-Agent Reinforcement Learning, AI practitioners tackle specific challenges such as Overcooked, Hanabi, and the StarCraft Multi-Agent Challenge, which encourage more research in this area. However, previous challenges either do not require Theory of Mind or, if they do, do not require spatio-temporal reasoning. To bridge this gap, we further introduce a novel challenge based on the card game called Yokai in this work. Yokai, similar to Hanabi, is a cooperative game characterized by incomplete information. The complexity of Yokai promises to provide a valuable opportunity to test the current capabilities of Multi-Agent Reinforcement Learning algorithms in tasks requiring Theory of Mind. In this thesis, we set out to explore Yokai as a potential benchmark for Theory of Mind reasoning. To this end, we first conduct a theoretical comparison between Yokai and Hanabi. We then discuss our implementation of a high-performance Yokai environment, which uses Jax-a numerical computing library that integrates features of NumPy, automatic differentiation, and GPU/TPU support. Finally, we assess and discuss the performance of the MAPPO and IPPO algorithms in the Yokai and Hanabi environments, aiming to understand their effectiveness in scenarios that demand Theory of Mind reasoning capabilities. Our experiment results reveal that: (1) Yokai indeed poses a greater challenge than Hanabi, as indicated by the rewards achieved and model adaptability. (2) MAPPO outperforms IPPO in complex multi-agent cooperative tasks if agents can be trained with a sufficiently large number of steps, and (3) an increase in the number of participants makes multi-agent cooperative tasks more challenging. In conclusion, our work suggests that the increased complexity of Yokai makes it a valuable and more challenging testbed for Theory of Mind, and we hope that this more challenging Yokai environment can facilitate further research of Machine Theory of Mind in the field of Multi-Agent Reinforcement Learning.


Die Fähigkeit, auf die Überzeugungen, Wünsche und Vorlieben anderer Menschen in unserer Umgebung zu schließen - bekannt als Theory of Mind - ist entscheidend für eine effektive Zusammenarbeit zwischen den Menschen. In den letzten Jahren, Theory of Mind auf den Bereich der künstlichen Intelligenz ausgeweitet und als Machine Theory of Mind des Verstandes. Agenten mit einer Theory of Mind haben eine menschenähnliche Fähigkeit, über die mentale Zustände anderer Agenten zu verstehen, was eine effizientere Zusammenarbeit zwischen Agenten ermöglicht. Unter Bereich des Multi-Agent Reinforcement Learning beschäftigen sich KI-Praktiker mit spezifischen Herausforderungen wie Overcooked, Hanabi und die StarCraft Multi-Agent Challenge, die zu weiterer Forschung in diesem Bereich mehr Forschung in diesem Bereich. Die bisherigen Herausforderungen erfordern jedoch entweder keine Theory of Mind of Mind oder, falls doch, kein räumlich-zeitliches Denken erforderlich. Um diese Lücke zu schließen, führen wir führen wir in dieser Arbeit eine neue Herausforderung ein, die auf dem Kartenspiel Yokai basiert. Yokai ist, ähnlich wie Hanabi, ein kooperatives Spiel mit unvollständiger Information. Die Komplexität von Yokai verspricht eine wertvolle Gelegenheit, um die aktuellen Fähigkeiten von Multi-Agent Reinforcement Learning Algorithmen in Aufgaben, die Theory of Mind des Verstandes erfordern. In dieser Arbeit wollen wir Yokai als potenziellen Benchmark für Theory of Mind untersuchen. Theory of Mind zu untersuchen. Zu diesem Zweck führen wir zunächst einen theoretischen Vergleich zwischen Yokai und Hanabi. Anschließend diskutieren wir unsere Implementierung einer leistungsstarken Yokai Umgebung, die Jax verwendet - eine Bibliothek für numerische Berechnungen, die Funktionen von von NumPy, automatische Differenzierung und GPU/TPU-Unterstützung integriert. Schließlich bewerten und diskutieren wir schließlich die Leistung der MAPPO- und IPPO-Algorithmen in den Umgebungen Yokai und Hanabi Umgebungen, um ihre Effektivität in Szenarien zu verstehen, die Theory of Mind Theory of Mind-Fähigkeiten erfordern. Die Ergebnisse unserer Experimente zeigen, dass: (1) Yokai tatsächlich Yokai tatsächlich eine größere Herausforderung darstellt als Hanabi, was sich in den erzielten Belohnungen und der Anpassungsfähigkeit. (2) MAPPO übertrifft IPPO in komplexen kooperativen Multi-Agenten-Aufgaben wenn Agenten mit einer ausreichend großen Anzahl von Schritten trainiert werden können, und (3) eine Erhöhung der die Anzahl der Teilnehmer macht kooperative Multi-Agenten-Aufgaben anspruchsvoller. Zusammenfassend lässt sich sagen, dass unsere Arbeit zeigt, dass die erhöhte Komplexität von Yokai es zu einem Testumgebung für Theory of Mind macht, und wir hoffen, dass diese anspruchsvollere herausfordernde Yokai-Umgebung die weitere Erforschung der maschinellen Theory of Mind auf dem Gebiet des Multi-Agenten-Verstärkungslernens.

Description

Keywords

Citation

Endorsement

Review

Supplemented By

Referenced By