Please use this identifier to cite or link to this item: http://dx.doi.org/10.18419/opus-11198
Authors: Tilli, Pascal
Title: Generation-based continual learning approach for visual question answering
Issue Date: 2020
metadata.ubs.publikation.typ: Abschlussarbeit (Master)
metadata.ubs.publikation.seiten: 75
URI: http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-112158
http://elib.uni-stuttgart.de/handle/11682/11215
http://dx.doi.org/10.18419/opus-11198
Abstract: Humans have the ability to continually acquire knowledge throughout their lifespan. In contrast, neural networks suffer from catastrophic forgetting when trained on new tasks. Continual learning studies the methods to achieve similar memory effects in artificial neural networks and enable them to learn tasks sequentially. In this thesis, we investigate generation-based continual learning methods. Generation-based models have been used to replay previously learned data distributions and retain knowledge of solving previous tasks. Generative replay has been shown to work on uni-modal datasets with relatively low complexity. Our experiments focus on Visual Question Answering (VQA), which is known to be a more complex, multi-modal domain. We provide approaches and results for three datasets of the domain VQA and one uni-modal toy dataset. As a proof of concept, we start by training the handwritten digits of the MNIST dataset continually. For the VQA domain, we study the VQAv2 dataset, CLEVR, and Shapeworld. We found that generative models do not perform well in VQA. Our models could not overcome catastrophic forgetting except for the Shapeworld dataset. Within the Shapeworld setting, our approach with generative replay did enable continual learning.
Menschen besitzen die Fähigkeit sich kontinuierlich, im Laufe ihres Lebens, Wissen anzueignen. Neuronale Netze hingegen leiden unter dem Phänomen des verhängnisvollen Vergessens, wenn es hinsichtlich neuer Aufgaben trainiert wird. Das Feld des kontinuierlichen Lernens befasst sich mit den Methoden, um vergleichbare Erinnerungseffekte in künstlichen neuronalen Netzen zu erzielen, um sie in die Lage zu versetzen, Aufgaben sequentiell zu lernen. In dieser Thesis untersuchen wir generierungsbasierte Methoden des kontinuierlichen Lernens. Generierungsbasierte Methoden werden verwendet, um zuvor gelernte Datenverteilungen wiederzugeben, um das Wissen zur Lösung früherer Aufgaben zu erhalten. Es hat sich gezeigt, dass die generierte Wiedergabe von Datenpunkten zur Erhaltung des Wissens bei unimodalen Datensätzen mit relativ geringer Komplexität funktioniert hat. In unseren Experimenten fokussieren wir uns auf Visual Question Answering (VQA), eine bekanntlich komplexe, multimodale Domäne. Wir stellen Ansätze und Ergebnisse für drei Datensätze der Domäne VQA, sowie für einen unimodalen Datensatz zur Verfügung. Als Proof-of-Concept beginnen wir damit, die handschriftlichen Ziffern des MNIST-Datensatzes kontinuierlich zu trainieren. In der Domäne VQA untersuchen wir den VQAv2-Datensatz, CLEVR und Shapeworld. Die Ergebnisse zeigen, dass generative Modelle in VQA nicht gut funktionieren. Unsere neuronalen Netze konnten das katastrophale Vergessen, mit Ausnahme des Shapeworld-Datensatzes, nicht überwinden. Mit dem Shapeworld-Datensatz konnte unser Ansatz der generativen Wiedergabe kontinuierliches Lernen ermöglichen.
Appears in Collections:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Files in This Item:
File Description SizeFormat 
Tilli_Masterarbeit.pdf4,71 MBAdobe PDFView/Open


Items in OPUS are protected by copyright, with all rights reserved, unless otherwise indicated.