Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-14663
Langanzeige der Metadaten
DC ElementWertSprache
dc.contributor.authorThewes, Jan-Philipp-
dc.date.accessioned2024-07-18T09:14:53Z-
dc.date.available2024-07-18T09:14:53Z-
dc.date.issued2024de
dc.identifier.other1895801753-
dc.identifier.urihttp://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-146824de
dc.identifier.urihttp://elib.uni-stuttgart.de/handle/11682/14682-
dc.identifier.urihttp://dx.doi.org/10.18419/opus-14663-
dc.description.abstractDie Fähigkeit, die Überzeugungen, Wünsche und Absichten anderer zu deuten, wird als Theory of Mind (ToM) bezeichnet und ist unerlässlich für eine effektive Zusammenarbeit. In dieser Arbeit untersuchen wir diese Fähigkeit im Kontext von Mensch-Maschine-Kollaboration in der multimodalen Testumgebung Mindcraft. Im Gegensatz zu bisherigen Ansätzen modellieren wir ToM dabei nicht explizit in der Modellarchitektur und begrenzen unser Modell nicht auf vordefinierte Fragestellungen, sondern nutzen die Flexibilität und impliziten ToM-Fähigkeiten von Large Language Models (LLM). Dafür entwerfen wir eine Architektur für ein Multimodales Large Language Model (MM-LLM), in dem Informationen aus Video, Text und Graphen verarbeitet werden. In unseren Experimenten konnten wir zeigen, dass unser Modell bisherige Ansätze in den getesteten ToM-Aufgaben übertrifft und in manchen Aufgaben sogar menschliche Performance erreichen kann. Darüber hinaus zeigte unser MM-LLM, dass es zuverlässig fehlendes Wissen von sich selber und dem jeweiligen Partner verhersagen kann, um somit eine Basis für ein gemeinsames Verständnis in der Kollaboration zu legen. Die Relevanz von Multimodalität für diese Fähigkeiten konnte in unseren Experimenten nicht gezeigt werden. Hierfür nehmen wir an, dass aufgabenspezifisches Video-Encoding und -Sampling einen wichtigen Beitrag leisten würde. Insgesamt unterstreicht unsere Arbeit das Potential von MM-LLMs für eine effektive und intuitive Mensch-Maschine-Kollaboration, indem unser MM-LLM einen neuen Höchstwert für die Performance in ToM-Aufgaben in multimodalen Umgebungen festlegt.de
dc.description.abstractThe ability to infer the beliefs, desires, and intentions of others, known as Theory of Mind (ToM), is crucial for effective collaboration. In this work, we explore this ability in the context of task-oriented human-machine collaboration with a focus on Multimodal Large Language Models (MM-LLMs). While previous works relied on fixed question-answer pairs or explicit ToM modeling, we investigate the implicit ToM capabilities of MM-LLMs within the multimodal research environment Mindcraft. We propose a model architecture that integrates video, text and knowledge graphs to create a more realistic and flexible collaborative interface. Our findings show that MM-LLMs not only outperform specialized baseline models in ToM tasks but also achieve human performance in some scenarios. Furthermore, our model accurately predicts its own and the partner's missing knowledge in collaborative situations, demonstrating its potential for common-ground reasoning. However, the importance of multimodality for ToM tasks could not be confirmed in our experiments, suggesting that task-specific video sampling and encoding might be crucial for successful multimodal reasoning. Overall, this work reinforces the potential of MM-LLMs to enable more intuitive and efficient human-machine collaborations while surpassing previous baselines in ToM task performance within multimodal environments.en
dc.language.isoende
dc.rightsinfo:eu-repo/semantics/openAccessde
dc.subject.ddc004de
dc.titleMultimodal LLM for Theory of Mind modeling in collaborative tasksen
dc.typemasterThesisde
ubs.fakultaetInformatik, Elektrotechnik und Informationstechnikde
ubs.institutInstitut für Visualisierung und Interaktive Systemede
ubs.publikation.seiten72de
ubs.publikation.typAbschlussarbeit (Master)de
Enthalten in den Sammlungen:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
Thewes JP_Master_Thesis.pdf7,68 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.