RAFT meets DICL : a recurrent all-pair transform for optical flow estimation based on displacement Invariant cost volume learning

Luz, Maximilian

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-13298

Langanzeige der Metadaten

DC Element	Wert	Sprache
dc.contributor.author	Luz, Maximilian	-
dc.date.accessioned	2023-07-18T11:15:36Z	-
dc.date.available	2023-07-18T11:15:36Z	-
dc.date.issued	2022	de
dc.identifier.other	1853041114	-
dc.identifier.uri	http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-133177	de
dc.identifier.uri	http://elib.uni-stuttgart.de/handle/11682/13317	-
dc.identifier.uri	http://dx.doi.org/10.18419/opus-13298	-
dc.description.abstract	Bewegung ist ein grundlegender Aspekt der visuellen Wahrnehmung, sowohl bei Tieren als auch bei Maschinen. Die Extraktion von Bewegungsinformationen aus monokularen Bildsequenzen als Vektorfeld von Verschiebungen, dem sogenannten optischen Fluss, ist eines der Kernprobleme des Maschinensehens. Dessen Anwendungen sind weitverbreitet und werden, unter anderem durch Fortschritte beim autonomen Fahren und anderen autonomen Maschinen, welche mit unserer Welt interagieren, stets mehr und wichtiger. Überdies nutzen Systeme zur Handlungserkennung (Action Recognition), Objektverfolgung, Navigation und Lokalisierung, Videoverarbeitung, sowie für diverse andere visuelle Analyseaufgaben solche Bewegungsinformationen, wodurch ein erheblicher Bedarf an genauen Methoden zur Schätzung des optischen Flusses entsteht, insbesondere an solchen, die in verschiedenen anspruchsvollen Szenarien gut und zuverlässig funktionieren. Zu diesem Zweck schlagen wir die Kombination zweier moderner Ansätzen vor: der "recurrent all-pairs field transform for optical flow" (RAFT) von Teed und Deng (ECCV 2020) und dem "displacement-invariant matching cost learning" (DICL) von Wang et al. (NeurIPS 2020). RAFT führt eine neuartige rekurrente neuronale Architektur ein, die den optischen Fluss iterativ auf einer einzigen räumlichen Ebene durch Abtasten und Dekodieren eines hierarchischen 4D-Kostenvolumens ermittelt und verfeinert. Hierdurch wurde es zu einer der derzeit genauesten Methoden. Bei RAFT wird dieses Kostenvolumen, das aus Werten besteht, welche die paarweise Ähnlichkeit zwischen den merkmalsbeschreibenden Vektoren zweier aufeinander folgender Bilder einer Sequenz beschreiben, über das Skalarprodukt berechnet. DICL hingegen verwendet ein neuronales Netzwerk als erlernbare Kostenfunktion, um genauere Kostenwerte zu generieren, ermittelt aber den Fluss nicht rekurrent, sondern folgt einem eher klassischen grob-zu-fein Warping Schema. In dieser Masterarbeit kombinieren wir das Beste aus beiden Techniken, im Speziellen den dynamischen Kostenlernansatz von DICL und den rekurrenten Ermittlungs- und Verfeinerungsansatz von RAFT. Wir tun dies, indem wir einen generischen RAFT-basierten Ansatz herleiten, welcher die Verwendung beliebiger und potenziell erlernbarer Kostenfunktionen, insbesondere jener von DICL, ermöglicht, wobei nur deren Differenzierbarkeit erforderlich ist. Des Weiteren liefern wir eine detaillierte Analyse dieser Kombination, sowohl für eine RAFT-ähnliche hierarchische Kostenvolumenmethode als auch für eine praktikablere grob-zu-fein Methode, und erörtern mehrere Schwierigkeiten, die dabei auftreten. Obwohl wir noch nicht in der Lage sind, signifikante Verbesserungen in der Genauigkeit im Vergleich zu RAFT aufzuzeigen, glauben wir, dass unser Gesamtansatz das Potenzial für diese zeigt und darüber hinaus neue Kostenlernstrategien ermöglichen kann.	de
dc.description.abstract	Motion is a fundamental aspect of visual perception, both in animals but also machines. In particular, the extraction of motion information from monocular image sequences as vector field of displacements, the so-called optical flow, is one of the core problems in computer vision. Its applications are widespread and, with the recent advancements in autonomous driving and other autonomous machines interacting with our world, ever-growing. Additionally, systems for action recognition, object tracking, navigation and localization, video processing, as well as other visual analysis tasks make use of such motion information, creating a considerable demand for accurate optical flow estimation methods, especially ones working well across various challenging scenarios. To this end, we propose the combination of two recent approaches: The "recurrent all-pairs field transform for optical flow" (RAFT) by Teed and Deng (ECCV 2020), and "displacement-invariant matching cost learning" (DICL) by Wang et al. (NeurIPS 2020). RAFT introduces a novel recurrent neural network architecture, estimating and refining optical flow iteratively on a single spatial level by sampling from and decoding a hierarchical 4D cost volume. This has made it one of the current state-of-the-art methods in terms of accuracy. In RAFT, this cost volume, consisting of matching costs describing the pairwise similarity between feature embeddings of two subsequent frames, is computed via the standard dot product. DICL, on the other hand, employs a convolutional neural network as a learned cost function to provide more accurate cost values, but does not estimate flow recurrently, instead following a more classical coarse-to-fine warping scheme. Within this thesis, we combine the best of both techniques, specifically, the dynamic cost learning approach proposed within DICL and the recurrent estimation and refinement approach proposed within RAFT. We do so by deriving a generic RAFT-based framework that allows for the use of arbitrary and potentially learned cost functions, such as the one employed by DICL, only requiring differentiability thereof. We furthermore provide an in-depth analysis of said combination, for both a RAFT-like hierarchical cost volume method and a more feasible coarse-to-fine method, and discuss several difficulties encountered with it. While we are yet unable to show significant improvements in accuracy compared to RAFT, we believe that our overall approach displays the potential for such and, moreover, may enable new cost learning strategies.	en
dc.language.iso	en	de
dc.rights	info:eu-repo/semantics/openAccess	de
dc.subject.ddc	004	de
dc.title	RAFT meets DICL : a recurrent all-pair transform for optical flow estimation based on displacement Invariant cost volume learning	de
dc.type	masterThesis	de
ubs.fakultaet	Informatik, Elektrotechnik und Informationstechnik	de
ubs.institut	Institut für Visualisierung und Interaktive Systeme	de
ubs.publikation.seiten	170	de
ubs.publikation.typ	Abschlussarbeit (Master)	de
Enthalten in den Sammlungen:	05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:

Datei	Beschreibung	Größe	Format
MasterThesis _RAFT_meets_DICL.pdf		39,41 MB	Adobe PDF	Öffnen/Anzeigen

Zur Kurzanzeige

Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.

Universität Stuttgart

OPUS - Online Publikationen der Universität Stuttgart