Recreating false-belief tests as Visual Question Answering tasks

Erdemann, Michael

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-13954

Autor(en):	Erdemann, Michael
Titel:	Recreating false-belief tests as Visual Question Answering tasks
Erscheinungsdatum:	2023
Dokumentart:	Abschlussarbeit (Master)
Seiten:	62
URI:	http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-139739 http://elib.uni-stuttgart.de/handle/11682/13973 http://dx.doi.org/10.18419/opus-13954
Zusammenfassung:	Theory of Mind (ToM) ist ein Schlüsselaspekt der menschlichen Intelligenz, aber es ist noch unklar, ob Künstliche Intelligenz (KI) diese Fähigkeit erlernen kann. In früheren Arbeiten wurde versucht, die ToM-Fähigkeit an KI-Modellen zu testen, indem verschiedene Implementierungen wie Text oder Bilder verwendet wurden, aber keine von ihnen folgte einer Visual Question Answering (VQA) Ansatz. Diese Arbeit präsentiert den neuen Datensatz CLEVR-ToM, der zum ersten Mal false-belief Tests als VQA-Aufgaben darstellt. Durch die Verwendung eines VQA-Ansatzes werden mit natürlichsprachlichen (Text) und visuellen (Bild) Informationen zwei wichtige menschliche Sinne angesprochen. Insbesondere für den Sally-Anne Test, der einen false-belief über den Ort testet, erscheint diese VQA-Version sehr vorteilhaft, da sie viele Ähnlichkeiten mit der ursprünglichen Form des Tests aufweist. Für den Test wird in dieser Arbeit das CNN+LSTM+RN-Modell zu einem neuen Modell CNN+2LSTM+RN erweitert, damit es an den neuen CLEVR-ToM-Datensatz besser angepasst ist. Das CNN+2LSTM+RN-Modell lieferte hervorragende Ergebnisse auf dem CLEVR-ToM-Datensatz mit einer Accuracy von fast 98% und erreichte damit höhere Ergebnisse als das ursprüngliche Modell. Diese Arbeit beweist zum ersten Mal, dass es möglich ist, false-belief Tests in VQA-Form zu implementieren und dass die Modelle die Aufgaben sehr gut bewältigen können. Dies legt den Grundstein für weitere Tests anderer, noch anspruchsvollerer ToM-Typen, die auf dieser Basis aufgebaut werden können. Theory of Mind (ToM) represents a key aspect of human intelligence, but it is still unclear whether Artificial Intelligence (AI) can learn this ability. Previous works attempted to test the ToM ability on AI models by using different implementations like text or images but none of them did follow a Visual Question Answering (VQA) approach. This work presents the new data set CLEVR-ToM, which for the first time represents false-belief tests as VQA tasks. By using a VQA approach, it addresses two important human senses with natural language (text) and visual (image) information. Especially for the Sally-Anne test, which tests a location false-belief, this VQA version appears very beneficial as it shows many similarities to the original form of the test. For the testing, this work extends the CNN+LSTM+RN model to a new model CNN+2LSTM+RN to better fit the new CLEVR-ToM data set. The CNN+2LSTM+RN model delivered outstanding results on the CLEVR-ToM data set with an accuracy of almost 98%, achieving higher results than the original model. This work proves for the first time that it is possible to implement the false-belief test in a VQA fashion and that the models can handle the tasks very well. This lays the foundation for further tests of other, even more challenging ToM types, that can be built on this basis.
Enthalten in den Sammlungen:	05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:

Datei	Beschreibung	Größe	Format
msc2023_michael-final.pdf		3,09 MB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige

Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.

Universität Stuttgart

OPUS - Online Publikationen der Universität Stuttgart