From mind to machine: leveraging gaze behaviour and user feedback for mental face reconstruction

Thumbnail Image

Date

2025

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

With the ever-growing prevalence of intelligent systems, these systems must understand users' mental states to effectively and safely assist and interact with them. While many aspects of modelling human mental states, particularly emotions and cognition, have been extensively studied, the systems' ability to comprehend users' mental imagery - a vital component of human planning and action - remains underexplored.

In this thesis, we examine the task of computational mental image reconstruction (MIR), situated at the intersection of artificial intelligence (AI) and human cognition, to decode and recreate image representations held in the mind's eye. Specifically, we focus on mental face reconstruction, which has been extensively studied within forensics, offering a controllable and well-defined image space to investigate this challenging task.

This thesis proposes various methodologies aimed at enhancing mental face reconstruction by addressing the limitations of prior work: (1) reducing reconstruction times and users' mental workload by simplifying the task with interactive AI systems; (2) allowing users to manually adjust and refine reconstructions by providing semantic and fine-grained control over reconstructed images; and (3) investigating implicit behavioural signals, such as human gaze data, for MIR.

This work explores two primary concepts for enhancing MIR systems: one that utilises explicit user feedback and control and another that focuses on gaze-based approaches. The first concept centres on using explicit user feedback in facial reconstruction. We developed an intelligent system where users rank sets of faces based on their similarity to the mental image they envision. Our system uses this ranking information to infer and generate the mental image the user has in mind, significantly reducing the user's workload and reconstruction time. While this method can produce faces that are visually similar to the users' mental images, accurately reconstructing fine facial features remains challenging. To address this, we introduced a novel method called UP-FacE, which gives users fine-grained and semantic control over various facial features. We created a tool with a simple slider interface that allows users to refine and fine-tune faces predicted by mental face reconstruction systems.

The second concept explores leveraging human gaze behaviour, which has been shown to encode valuable information about users' mental states but has not been widely investigated for MIR. To study the feasibility of gaze-based image reconstruction methods, we proposed a novel approach operating in a controlled environment with human-like faces. This demonstrated our ability to extract valuable information from users' gaze behaviour and subsequently reconstruct mental face images. Since this method required prior knowledge unavailable during test time, we extended this work into an interactive system where users and AI iteratively collaborate to infer the user's mental face image without prior knowledge.

The main limitation to successfully applying gaze-based methods for accurate reconstructions is the lack of task- and user-specific gaze data. A promising solution is to employ user models that simulate gaze behaviour during training. However, existing methods typically predict gaze data for an average user, ignoring individual differences in gaze behaviour. Given the user-specific nature of MIR, we developed a novel method that learns user embeddings from a small amount of gaze data, allowing us to synthesise user-specific visual attention. Further improving user models to simulate gaze behaviour is crucial for training effective, gaze-based mental face reconstruction systems.

Our proposed reconstruction systems aim to reduce the friction associated with MIR, a critical factor for effective and pervasive human-AI interaction. Furthermore, our insights into gaze-based MIR suggest potential future methodologies that could further reduce this friction, thereby enhancing the effectiveness of human-AI interactions.


Mit der zunehmenden Verbreitung intelligenter Systeme wird es immer wichtiger, dass diese die mentalen Zustände ihrer Benutzer verstehen, um effektiver und sicherer zu interagieren und Unterstützung zu bieten. Während viele Aspekte der Modellierung menschlicher mentaler Zustände, insbesondere in Bezug auf Emotionen und kognitive Prozesse, intensiv erforscht wurden, bleibt die Fähigkeit solcher Systeme, die mentalen Bilder von Benutzern - eine zentrale Komponente menschlicher Planung und Handlung - zu entschlüsseln, weitgehend unerforscht.

Diese Arbeit widmet sich der Aufgabe der computergestützten mentalen Bildrekonstruktion, einem Bereich an der Schnittstelle von künstlicher Intelligenz (KI) und menschlicher Kognition, mit dem Ziel, visuelle Vorstellungen aus dem menschlichen Gedächtnis zu dekodieren und nachzubilden. Der Fokus liegt dabei auf der Rekonstruktion mentaler Gesichter, ein Thema, das in der Forensik intensiv untersucht wurde und einen klar definierten Bildraum zur Erforschung dieser anspruchsvollen Aufgabe bietet.

Wir befassen uns mit verschiedenen Methoden zur Verbesserung der mentalen Gesichtsrekonstruktion, indem wir die Einschränkungen bestehender Ansätze adressieren: (1) Verkürzung der Rekonstruktionszeit und Reduzierung der mentalen Belastung der Benutzer durch interaktive KI-Systeme, die die Aufgabe vereinfachen. (2) Einführung einer semantischen und fein abgestimmten Kontrolle, mit der Benutzer Rekonstruktionen manuell anpassen und verfeinern können. (3) Erforschung der Nutzung impliziter Verhaltenssignale wie Blickdaten, um mentale Bilder zu rekonstruieren. Die Arbeit hebt zwei zentrale Ansätze zur Verbesserung der Rekonstruktion hervor: die Nutzung expliziten Benutzerfeedbacks und die Integration blickbasierter Methoden.

Der erste Ansatz konzentriert sich auf die Einbindung von explizitem Benutzerfeedback in den Rekonstruktionsprozess. Hierfür haben wir ein intelligentes System entwickelt, bei dem Benutzer Gesichter nach ihrer Ähnlichkeit mit dem mentalen Bild, das sie sich vorstellen, bewerten. Diese Informationen ermöglichen dem System eine effiziente Rekonstruktion, was sowohl die Arbeitsbelastung der Benutzer als auch die benötigte Zeit erheblich reduziert. Um präzisere Gesichtszüge zu rekonstruieren, haben wir zudem eine Methode namens UP-FacE entwickelt, die Benutzern über eine intuitive Benutzeroberfläche mit Schiebereglern eine detaillierte Kontrolle über die Gesichtseigenschaften bietet.

Der zweite Ansatz untersucht das Potenzial des Blickverhaltens, das wertvolle Hinweise auf die mentalen Zustände der Benutzer liefert, jedoch bisher kaum für die mentale Bildrekonstruktion genutzt wurde. Wir schlagen einen neuartigen Ansatz vor, der in einer kontrollierten Umgebung mit menschenähnlichen Gesichtern arbeitet und zeigt, wie Blickdaten zur Rekonstruktion mentaler Bilder verwendet werden können. Da diese Methode auf Vorkenntnisse angewiesen war, die nicht immer verfügbar sind, haben wir sie durch ein interaktives System erweitert, in dem Benutzer und KI iterativ zusammenarbeiten, um das mentale Bild ohne Vorkenntnisse zu rekonstruieren.

Ein zentrales Hindernis für blickbasierte Methoden ist der Mangel an aufgaben- und nutzerspezifischen Blickdaten. Wir schlagen vor, Benutzermodelle einzusetzen, die Blickverhalten während des Trainings simulieren. Bestehende Ansätze berücksichtigen jedoch meist nur durchschnittliches Blickverhalten und ignorieren individuelle Unterschiede. Daher haben wir eine Methode entwickelt, die mit einer kleinen Menge an Blickdaten nutzerspezifische Embeddings lernt, um personalisierte visuelle Aufmerksamkeit zu simulieren. Die Weiterentwicklung solcher Modelle ist entscheidend, um blickbasierte Systeme für die mentale Bildrekonstruktion zu optimieren.

Unsere vorgeschlagenen Systeme zielen darauf ab, die mit der Rekonstruktion mentaler Bilder verbundene Hürden zu minimieren – ein wichtiger Schritt für eine reibungslose Mensch-KI-Interaktion. Darüber hinaus bieten unsere Erkenntnisse zu blickbasierten Ansätzen Perspektiven für zukünftige Methoden, die die Effizienz und Effektivität solcher Interaktionen weiter verbessern könnten.

Description

Keywords

Citation

Endorsement

Review

Supplemented By

Referenced By