Prompt-based continual learning for visual question answering

Thumbnail Image

Date

2024

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

In an ever-evolving world, Continual Learning (CL) strives to enable a costly trained model to learn new tasks without forgetting previously acquired knowledge. This work critically examines current CL benchmarks for Visual Question Answering (VQA), identifying significant shortcomings in the construction introducing bias. To address these issues, we propose a new CL-VQA benchmark based on GQA, designed to be incremental in both the language and the visual modality. Combined with learning it in one modality only, it can offer rich new diagnostics for a model. Additionally, we extend DualPrompt, a prompt-based CL method, DualPrompt, to the multi-modal domain. Using Dark Experience Replay as a baseline, we evaluate the performance against the new benchmark.


In einer sich schnell verändernden Welt, versucht das Feld des Continual Learning (CL) kostspielige Modelle neue Aufgaben lernen zu lassen, ohne bisher gelerntest zu vergessen. In dieser Arbeit werden aktuelle CL benchmarks für Visual Question Answering (VQA) kritisch untersucht und Defizite festgestellt, die Schieflagen verursachen. Um diese zu beheben wird ein neues CL-VQA benchmark erstellt, das sowohl visuell als auch textlich inkrementelle Aufgaben definiert. Daneben kann es auch nur in einer Modalität gelernt werden, womit viele und neue Diagnosen über ein Model erstellt werden können. Zusätzlich wird DualPrompt, eine prompt-basierte CL Methode für die Multi-Modalität erweitert. Mit Dark Experience Replay als die Baseline wird die Leistungsfähigkeit des neuen Modells mit der neuen Benchmark gemessen.

Description

Keywords

Citation

Endorsement

Review

Supplemented By

Referenced By