Generation-based continual learning approach for visual question answering

Tilli, Pascal

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-11198

Autor(en):	Tilli, Pascal
Titel:	Generation-based continual learning approach for visual question answering
Erscheinungsdatum:	2020
Dokumentart:	Abschlussarbeit (Master)
Seiten:	75
URI:	http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-112158 http://elib.uni-stuttgart.de/handle/11682/11215 http://dx.doi.org/10.18419/opus-11198
Zusammenfassung:	Humans have the ability to continually acquire knowledge throughout their lifespan. In contrast, neural networks suffer from catastrophic forgetting when trained on new tasks. Continual learning studies the methods to achieve similar memory effects in artificial neural networks and enable them to learn tasks sequentially. In this thesis, we investigate generation-based continual learning methods. Generation-based models have been used to replay previously learned data distributions and retain knowledge of solving previous tasks. Generative replay has been shown to work on uni-modal datasets with relatively low complexity. Our experiments focus on Visual Question Answering (VQA), which is known to be a more complex, multi-modal domain. We provide approaches and results for three datasets of the domain VQA and one uni-modal toy dataset. As a proof of concept, we start by training the handwritten digits of the MNIST dataset continually. For the VQA domain, we study the VQAv2 dataset, CLEVR, and Shapeworld. We found that generative models do not perform well in VQA. Our models could not overcome catastrophic forgetting except for the Shapeworld dataset. Within the Shapeworld setting, our approach with generative replay did enable continual learning. Menschen besitzen die Fähigkeit sich kontinuierlich, im Laufe ihres Lebens, Wissen anzueignen. Neuronale Netze hingegen leiden unter dem Phänomen des verhängnisvollen Vergessens, wenn es hinsichtlich neuer Aufgaben trainiert wird. Das Feld des kontinuierlichen Lernens befasst sich mit den Methoden, um vergleichbare Erinnerungseffekte in künstlichen neuronalen Netzen zu erzielen, um sie in die Lage zu versetzen, Aufgaben sequentiell zu lernen. In dieser Thesis untersuchen wir generierungsbasierte Methoden des kontinuierlichen Lernens. Generierungsbasierte Methoden werden verwendet, um zuvor gelernte Datenverteilungen wiederzugeben, um das Wissen zur Lösung früherer Aufgaben zu erhalten. Es hat sich gezeigt, dass die generierte Wiedergabe von Datenpunkten zur Erhaltung des Wissens bei unimodalen Datensätzen mit relativ geringer Komplexität funktioniert hat. In unseren Experimenten fokussieren wir uns auf Visual Question Answering (VQA), eine bekanntlich komplexe, multimodale Domäne. Wir stellen Ansätze und Ergebnisse für drei Datensätze der Domäne VQA, sowie für einen unimodalen Datensatz zur Verfügung. Als Proof-of-Concept beginnen wir damit, die handschriftlichen Ziffern des MNIST-Datensatzes kontinuierlich zu trainieren. In der Domäne VQA untersuchen wir den VQAv2-Datensatz, CLEVR und Shapeworld. Die Ergebnisse zeigen, dass generative Modelle in VQA nicht gut funktionieren. Unsere neuronalen Netze konnten das katastrophale Vergessen, mit Ausnahme des Shapeworld-Datensatzes, nicht überwinden. Mit dem Shapeworld-Datensatz konnte unser Ansatz der generativen Wiedergabe kontinuierliches Lernen ermöglichen.
Enthalten in den Sammlungen:	05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:

Datei	Beschreibung	Größe	Format
Tilli_Masterarbeit.pdf		4,71 MB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige

Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.

Universität Stuttgart

OPUS - Online Publikationen der Universität Stuttgart