Bridging cognitive and deep learning models of attention

Thumbnail Image

Date

2025

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Neural attention mechanisms, drawing inspiration from the cognitive modeling of human attention, have led to significant advancements in deep learning models across the fields of computer vision (CV) and natural language processing (NLP) (Gupta et al., 2021). Despite these technological strides, AI models still fall short of human performance in tasks demanding nuanced comprehension (e.g., reading comprehension), as well as in out-of-the-box data domains and novel modalities (Sarker, 2021). The goal of this dissertation is to bridge human and data-driven models of attention to enhance the performance of neural systems for CV and NLP tasks. We hypothesize that the human–machine performance gap is due to a lack of adequate human-like attention functionalities in AI systems, given the relationship between attention functionality and task performance in humans (Pashler et al., 2001). To address this gap, we focus on three aspects that currently hamper the performance of attention-based deep neural networks (DNNs) (Kotseruba et al., 2016). First, the lack of interpretability, obscuring our knowledge of how these models process and prioritize information. Second, the challenge of generalizability across datasets and domains. Third, the substantial data dependency, hindering the development and scalability of the models for certain tasks. We explore if we can mitigate these issues by integrating DNNs with cognitive models of attention, especially for the tasks of reading and scene perception, where human attention has been widely studied and where DNNs fall short of human capabilities (Das et al., 2017; Mathias et al., 2021). Accordingly, the manuscript develops along three research questions. The first is: What is the relationship between neural and human attention? Focusing on reading comprehension tasks, we uncover correlations between models and human-like attention on reading comprehension tasks. Our findings demonstrate that: a closer alignment with human attention patterns can in fact significantly improve DNNs task performance in both mono- and multimodal settings; that there is a trade-off between model complexity and attention-based interpretability; and that specifically text attention is significantly correlated to model accuracy. Second, we ask: How does incorporating cognitive theories of attention into DNNs enhance model generalizability? We illustrate that using cognitive simulations as an inductive bias, along with specialized training, effectively compensates for the absence of human ground truth attention data in novel domains. We pioneer a method (known as deep saliency prediction (Wang et al., 2021)) to initiate training a DNN for visual saliency prediction by using cognitive model simulations as an inductive bias. Our text and image saliency models, informed by generalized eye movement behaviors simulated from cognitive models, are further refined with limited eye-tracking data, achieving significant performance improvements comparable to the state of the art across various domains and datasets. Lastly, our third research question is: Can methods informed by cognitive models of attention effectively mitigate data dependency requirements? We apply our saliency prediction model in mono- and multimodal NLP tasks using a novel joint semi-supervised training method: we generate task-specific human-like attention by training our downstream task models and allowing for gradient flow in the saliency prediction model. Hence, we supervise neural attention layers of different downstream DNNs with different saliency predictions from the same model. This way, by supervising neural attention mechanisms with human-like attention, and jointly training both models for a given task end-to-end, we circumvent the need for task-specific human data. Put together, our studies set forth a structured approach towards addressing key limitations of current data-driven deep learning models of attention. This thesis demonstrates that integrating them with cognitive science frameworks of human attention opens up new research possibilities, allowing to obtain models that are more efficient, more aligned with human cognitive processes, and that better perceive and understand the world in a human-like manner.


Neuronale Aufmerksamkeits - Attention - Mechanismen, die sich an der kognitiven Modellierung der menschlichen Aufmerksamkeit orientieren, haben zu erheblichen Fortschritten bei Deep-Learning-Modellen in den Bereichen Computer Vision (CV) und Natural Language Processing (NLP) geführt (Gupta et al., 2021). Trotz dieser technologischen Fortschritte bleiben KI-Modelle bei Aufgaben, die ein nuanciertes Verständnis erfordern (z. B. Leseverständnis), sowie bei unkonventionellen Datendomänen und neuartigen Modalitäten immer noch hinter der menschlichen Leistung zurück (Sarker, 2021). Das Ziel dieser Dissertation ist es, menschliche und datengesteuerte Modelle der Aufmerksamkeit zu verbinden, um die Leistung neuronaler Systeme für CV- und NLP- Aufgaben zu verbessern. Wir stellen die Hypothese auf, dass die Leistungslücke zwischen Mensch und Maschine auf das Fehlen adäquater, menschenähnlicher Aufmerksamkeitsfunktionen in KI-Systemen zurückzuführen ist, wenn man die Beziehung zwischen Aufmerksamkeitsfunktionalität und Aufgabenleistungperformanz beim Menschen betrachtet (Pashler et al., 2001). Um diese Lücke zu schließen, konzentrieren wir uns auf drei Aspekte, die derzeit die Leistung von aufmerksamkeitsbasierten tiefen neuronalen Netzen (Deep Neural Networks, DNNs) behindern (Kotseruba et al., 2016). Erstens, die mangelnde Interpretierbarkeit, die unser Wissen darüber, wie diese Modelle Informationen verarbeiten und priorisieren, verschleiert. Zweitens, die Herausforderung der Verallgemeinerbarkeit über Datensätze und Domänen hinweg. Drittens, die erhebliche Datenabhängigkeit, die die Entwicklung und Skalierbarkeit der Modelle für bestimmte Aufgaben behindert. Wir untersuchen, ob wir diese Probleme durch die Integration von DNNs mit kognitiven Modellen der Aufmerksamkeit entschärfen können, insbesondere für die Aufgaben des Lesens und der Szenenwahrnehmung, bei denen die menschliche Aufmerksamkeit umfassend untersucht wurde und bei denen DNNs hinter den menschlichen Fähigkeiten zurückbleiben (Das et al., 2017; Mathias et al., 2021). Dementsprechend entwickelt sich die Arbeit entlang dreier Forschungsfragen. Die erste lautet: Wie ist die Beziehung zwischen neuronaler und menschlicher Aufmerksamkeit? Indem wir uns auf Leseverständnisaufgaben konzentrieren, decken wir Korrelationen zwischen Modellen und menschlicher Aufmerksamkeit bei Leseverständnisaufgaben auf. Unsere Ergebnisse zeigen, dass eine engere Angleichung an menschliche Aufmerksamkeitsmuster die Leistung von DNNs sowohl in mono- als auch in multimodalen Umgebungen erheblich verbessern kann, dass es einen Kompromiss zwischen Modellkomplexität und aufmerksamkeitsbasierter Interpretierbarkeit gibt und dass insbesondere die Textaufmerksamkeit signifikant mit der Modellgenauigkeit korreliert ist. Zweitens fragen wir: Wie kann die Einbeziehung kognitiver Theorien über Aufmerksamkeit in DNNs die Verallgemeinerbarkeit von Modellen verbessern? Wir zeigen, dass die Verwendung kognitiver Simulationen als induktiver Bias zusammen mit spezialisiertem Training das Fehlen menschlicher Ground-Truth-Daten zur Aufmerksamkeit in neuartigen Domänen wirksam kompensiert. Wir führen eine Methode ein (bekannt als Deep Saliency Prediction (Wang et al., 2021), um ein DNN für die visuelle Salienzvorhersage zu trainieren, indem wir kognitive Modellsimulationen als induktiven Bias verwenden. Unsere Text- und Bildsalienzmodelle, die durch verallgemeinerte Augenbewegungsverhaltensweisen, die von kognitiven Modellen simuliert werden, informiert werden, werden mit begrenzten Eye-Tracking-Daten weiter verfeinert und erreichen signifikante Leistungsverbesserungen, die mit dem Stand der Technik in verschiedenen Domänen und Datensätzen vergleichbar sind. Unsere dritte Forschungsfrage lautet schließlich: Können Methoden, die auf kognitiven Aufmerksamkeitsmodellen beruhen, die Anforderungen an die Datenabhängigkeit wirksam abschwächen? Wir wenden unser Salienzvorhersagemodell in mono- und multimodalen NLP-Aufgaben an, indem wir eine neuartige Joint Semisupervised Trainingsmethode verwenden: Wir erzeugen aufgabenspezifische, menschenähnliche Aufmerksamkeit, indem wir unsere nachgelagerten Aufgabenmodelle trainieren und einen Gradient Flow im Salienzvorhersagemodell zulassen. Daher überwachen wir die neuronalen Aufmerksamkeitsschichten verschiedener nachgeschalteter DNNs mit unterschiedlichen Salienzvorhersagen aus demselben Modell. Durch die Überwachung neuronaler Aufmerksamkeitsmechanismen mit menschenähnlicher Aufmerksamkeit und das gemeinsame Training beider Modelle für eine gegebene Aufgabe von Anfang bis Ende umgehen wir so die Notwendigkeit aufgabenspezifischer menschlicher Daten. Zusammengenommen stellen unsere Studien einen strukturierten Ansatz zur Überwindung der wichtigsten Einschränkungen aktueller datengesteuerter Deep-Learning-Modelle der Aufmerksamkeit dar. Diese Arbeit zeigt, dass die Integration dieser Modelle mit kognitionswissenschaftlichen Modellen der menschlichen Aufmerksamkeit neue Forschungsmöglichkeiten eröffnet, die es ermöglichen, Modelle zu erhalten, die effizienter sind, besser auf menschliche kognitive Prozesse abgestimmt sind und die Welt auf eine menschenähnliche Weise besser wahrnehmen und verstehen.

Description

Keywords

Citation

Endorsement

Review

Supplemented By

Referenced By