Analysing human vs. neural attention in VQA

Ma, Yingpeng

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-14329

Autor(en):	Ma, Yingpeng
Titel:	Analysing human vs. neural attention in VQA
Erscheinungsdatum:	2024
Dokumentart:	Abschlussarbeit (Master)
Seiten:	vii, 55
URI:	http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-143483 http://elib.uni-stuttgart.de/handle/11682/14348 http://dx.doi.org/10.18419/opus-14329
Zusammenfassung:	Visual Question Answering (VQA) has drawn substantial interest in both academic and industrial research fields in recent years. Driven by Vision Transformers (ViT) and the vision-text co-attention mechanism, these models have shown notable performance improvement. Yet, the black-box nature of neural attention impedes people from understanding its functionality and establishing their trustworthiness. Drawing inspiration from various scholars and their contributions, this thesis demystifies these mechanisms. We aim to 1) extract the neural attention weights of VQA models, 2) remap the weights to machine attention maps, 3) compare machine attention with human gazing heatmaps, and 4) compute the related metrics to provide deeper insights into the attention patterns. First, the attempts to reproduce the MCAN model implementation and machine attention extraction on the VQA-MHUG dataset are performed on the MULAN framework. Through a comparison with official implementations, the accuracy and correctness of the re implementation have been verified. Then, utilizing the toolkit of the MULAN framework, the 1D attention weights are remapped to 2D neural attention maps. Next, these attention maps are compared to human-gazing heatmaps of VQA-MHUG using explainable AI (XAI) metrics. Following the above pipeline, another experiment on the AiR-D dataset is conducted and reports the Area Under ROC Curve (AUC), Spearman’s rank correlation coefficient (rho), and Jensen-Shannon Divergence (jsd) metrics to compare the neural attention with the human gazing heatmaps. Finally, the discussion of the differences between the official and re-produced implementations is presented alongside insights on the interpretability of neural attention in VQA models. Die visuelle Beantwortung von Fragen (Visual Question Answering, VQA) hat in den letzten Jahren sowohl in der akademischen als auch in der industriellen Forschung großes Interesse gefunden. Angetrieben von Vision Transformers (ViT) und dem Co-Attention-Mechanismus zwischen Bild und Text haben diese Modelle eine beachtliche Leistungssteigerung gezeigt. Die Blackbox-Natur der neuronalen Aufmerksamkeit verhindert jedoch, dass die Menschen ihre Funktionsweise verstehen und ihre Vertrauenswürdigkeit feststellen können. Diese Arbeit entmystifiziert diese Mechanismen, indem sie sich von verschiedenen Wissenschaftlern und deren Beiträgen inspirieren lässt. Unser Ziel ist es, 1) die neuronalen Aufmerksamkeitsgewichte von VQA-Modellen zu extrahieren, 2) die Gewichte in maschinelle Aufmerksamkeitskarten umzuwandeln, 3) die maschinelle Aufmerksamkeit mit menschlichen Blick-Heatmaps zu vergleichen und 4) die entsprechenden Metriken zu berechnen, um tiefere Einblicke in die Aufmerksamkeitsmuster zu erhalten. Zunächst wird versucht, die MCAN-Modellimplementierung und die maschinelle Aufmerksamkeitsextraktion auf dem VQA-MHUG Datensatz mit dem MULAN-Framework zu reproduzieren. Durch einen Vergleich mit offiziellen Implementierungen wurden die Genauigkeit und Korrektheit der Neuimplementierung überprüft. Anschließend werden die 1D-Aufmerksamkeitsgewichte mithilfe des Toolkits des MULAN-Frameworks in neuronale 2D-Aufmerksamkeitskarten umgewandelt. Anschließend werden diese Aufmerksamkeitskarten mit den Heatmaps des VQA-MHUG verglichen, wobei erklärbare KI (XAI) Metriken verwendet werden. Im Anschluss an die oben beschriebene Pipeline wird ein weiteres Experiment mit dem AiR-D-Datensatz durchgeführt, bei dem der Bereich unter der ROC-Kurve (AUC), der Spearman-Rangkorrelationskoeffizient (rho) und die Jensen-Shannon-Divergenz (jsd) gemessen werden, um die neuronale Aufmerksamkeit mit den Heatmaps der menschlichen Blicke zu vergleichen. Abschließend werden die Unterschiede zwischen den offiziellen und den neu erstellten Implementierungen diskutiert und Erkenntnisse über die Interpretierbarkeit der neuronalen Aufmerksamkeit in VQA-Modellen vorgestellt.
Enthalten in den Sammlungen:	05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:

Datei	Beschreibung	Größe	Format
Thesis_Yingpeng_Submission.pdf		3,29 MB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige

Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.

Universität Stuttgart

OPUS - Online Publikationen der Universität Stuttgart