Multimodal LLM for Theory of Mind modeling in collaborative tasks

Thewes, Jan-Philipp

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-14663

Langanzeige der Metadaten

DC Element	Wert	Sprache
dc.contributor.author	Thewes, Jan-Philipp	-
dc.date.accessioned	2024-07-18T09:14:53Z	-
dc.date.available	2024-07-18T09:14:53Z	-
dc.date.issued	2024	de
dc.identifier.other	1895801753	-
dc.identifier.uri	http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-146824	de
dc.identifier.uri	http://elib.uni-stuttgart.de/handle/11682/14682	-
dc.identifier.uri	http://dx.doi.org/10.18419/opus-14663	-
dc.description.abstract	Die Fähigkeit, die Überzeugungen, Wünsche und Absichten anderer zu deuten, wird als Theory of Mind (ToM) bezeichnet und ist unerlässlich für eine effektive Zusammenarbeit. In dieser Arbeit untersuchen wir diese Fähigkeit im Kontext von Mensch-Maschine-Kollaboration in der multimodalen Testumgebung Mindcraft. Im Gegensatz zu bisherigen Ansätzen modellieren wir ToM dabei nicht explizit in der Modellarchitektur und begrenzen unser Modell nicht auf vordefinierte Fragestellungen, sondern nutzen die Flexibilität und impliziten ToM-Fähigkeiten von Large Language Models (LLM). Dafür entwerfen wir eine Architektur für ein Multimodales Large Language Model (MM-LLM), in dem Informationen aus Video, Text und Graphen verarbeitet werden. In unseren Experimenten konnten wir zeigen, dass unser Modell bisherige Ansätze in den getesteten ToM-Aufgaben übertrifft und in manchen Aufgaben sogar menschliche Performance erreichen kann. Darüber hinaus zeigte unser MM-LLM, dass es zuverlässig fehlendes Wissen von sich selber und dem jeweiligen Partner verhersagen kann, um somit eine Basis für ein gemeinsames Verständnis in der Kollaboration zu legen. Die Relevanz von Multimodalität für diese Fähigkeiten konnte in unseren Experimenten nicht gezeigt werden. Hierfür nehmen wir an, dass aufgabenspezifisches Video-Encoding und -Sampling einen wichtigen Beitrag leisten würde. Insgesamt unterstreicht unsere Arbeit das Potential von MM-LLMs für eine effektive und intuitive Mensch-Maschine-Kollaboration, indem unser MM-LLM einen neuen Höchstwert für die Performance in ToM-Aufgaben in multimodalen Umgebungen festlegt.	de
dc.description.abstract	The ability to infer the beliefs, desires, and intentions of others, known as Theory of Mind (ToM), is crucial for effective collaboration. In this work, we explore this ability in the context of task-oriented human-machine collaboration with a focus on Multimodal Large Language Models (MM-LLMs). While previous works relied on fixed question-answer pairs or explicit ToM modeling, we investigate the implicit ToM capabilities of MM-LLMs within the multimodal research environment Mindcraft. We propose a model architecture that integrates video, text and knowledge graphs to create a more realistic and flexible collaborative interface. Our findings show that MM-LLMs not only outperform specialized baseline models in ToM tasks but also achieve human performance in some scenarios. Furthermore, our model accurately predicts its own and the partner's missing knowledge in collaborative situations, demonstrating its potential for common-ground reasoning. However, the importance of multimodality for ToM tasks could not be confirmed in our experiments, suggesting that task-specific video sampling and encoding might be crucial for successful multimodal reasoning. Overall, this work reinforces the potential of MM-LLMs to enable more intuitive and efficient human-machine collaborations while surpassing previous baselines in ToM task performance within multimodal environments.	en
dc.language.iso	en	de
dc.rights	info:eu-repo/semantics/openAccess	de
dc.subject.ddc	004	de
dc.title	Multimodal LLM for Theory of Mind modeling in collaborative tasks	en
dc.type	masterThesis	de
ubs.fakultaet	Informatik, Elektrotechnik und Informationstechnik	de
ubs.institut	Institut für Visualisierung und Interaktive Systeme	de
ubs.publikation.seiten	72	de
ubs.publikation.typ	Abschlussarbeit (Master)	de
Enthalten in den Sammlungen:	05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:

Datei	Beschreibung	Größe	Format
Thewes JP_Master_Thesis.pdf		7,68 MB	Adobe PDF	Öffnen/Anzeigen

Zur Kurzanzeige

Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.

Universität Stuttgart

OPUS - Online Publikationen der Universität Stuttgart