Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-12763
Autor(en): Bihlmaier, Simon Tobias
Titel: Optical flow estimation with separable cost volume
Erscheinungsdatum: 2022
Dokumentart: Abschlussarbeit (Master)
Seiten: 75
URI: http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-127827
http://elib.uni-stuttgart.de/handle/11682/12782
http://dx.doi.org/10.18419/opus-12763
Zusammenfassung: Optical Flow Estimation is an important task in computer vision that involves finding correspondences between subsequent frames. Recently many approaches have focused on learning to estimate optical flow using neural networks. Constructing and processing correlation volumes using on volutional neural networks is applied in many works and yields good results. Separable Flow by Zhang et al. is an extension for correlation volume based methods such as Recurrent All-Pairs Field Transforms for Optical Flow by Teed and Deng. It separates the four dimensional correlation volume into two correlation volumes with only one instead of two displacement dimensions. At the time of its release, state of the art estimation quality results were reported for Separable Flow on the Sintel and KITTI datasets. By investigating the implementation provided by the authors, significant changes of the model structure and training schedule compared to the paper can be discovered. The goal of this thesis is to verify the published claims about the training regime, model structure, estimation quality and number of parameters. This is accomplished by reverting identifiable changes in multiple ablation steps. Evaluating the ablation step closest to the published description shows that the claimed estimation quality can not be reproduced. The provided model implementation combined with the published training schedule performs the most similar to the results of the paper. Additionally, the claim that the four dimensional correlation volume does not need to be stored in order to compute the three dimensional correlation volumes is investigated.This claim is verified by providing an alternative parallel implementation for Graphics Processing Units that fulfills the storage constraint. At the cost of longer computation times, the memory consumption of Separable Flow can be reduced during training and inference. In an effort to improve the estimation quality, Global Motion Aggregation by Jiang et al. is added to Separable Flow. On the ablation training schedule, the combined model achieves better results than Global Motion Aggregation in isolation.
Die Bestimmung des optischen Flusses ist eine wichtige Aufgabe im Maschinensehen, die darin besteht Korrespondenzen zwischen aufeinanderfolgenden Bildern zu finden. In letzter Zeit haben sich viele Ansätze mit dem Lernen der optischen Fluss Bestimmung mithilfe neuronaler Netze beschäftigt. Die Konstruktion und Verarbeitung von Korrelationsvolumina mit Konvolutionalen Neuronalen Netzwerken wird in vielen Arbeiten verwendet und führt zu guten Ergebnissen.Separable Flow von Zhang et al. ist eine Erweiterung für Methoden wie Recurrent All-Pairs Field Transforms for Optical Flow von Teed und Deng, die Korrelationsvolumina nutzen. Es trennt das vierdimensionale Korrelationsvolumen in zwei Korrelationsvolumina mit nur einer statt zwei Verschiebungsdimensionen auf. Zum Zeitpunkt der Veröffentlichung erzielte Separable Flow die besten Ergebnisse auf den Sintel und KITTI Datensätzen. Bei der Untersuchung der von den Autoren bereitgestellten Implementierung konnten signifikante Änderungen in der Modellstruktur und im Trainingsplan gegenüber der Veröffentlichung festgestellt werden. Das Ziel dieser Masterarbeit ist es, die Behauptungen der Veröffentlichung über das Trainingsregime, die Modellstruktur, die Qualität der Schätzung und die Anzahl der Parameter zu überprüfen. Dies wird erreicht, indem identifizierbare Änderungen in mehreren Ablationsschritten rückgängig gemacht werden. Die Auswertung des Ablationsschritts, welcher der veröffentlichten Beschreibung am nächsten kommt, zeigt, dass die behauptete Schätzungsqualität nicht reproduziert werden kann. Die bereitgestellte Modellimplementierung in Kombination mit dem veröffentlichten Trainingsplan kommt den Ergebnissen der Veröffentlichung am nächsten. Außerdem wird die Behauptung, dass das vierdimensionale Korrelationsvolumen nicht gespeichert werden muss, um die dreidimensionalen Korrelationsvolumina zu berechnen, untersucht. Diese Behauptung wird überprüft, indem eine alternative parallele Implementierung für Grafikprozessoren beschrieben wird, welche die Speicherbeschränkung erfüllt. Auf Kosten längerer Berechnungszeiten kann der Speicherverbrauch von Separable Flow während des Trainings und der Inferenz reduziert werden. Um die Qualität der Schätzung zu verbessern, wird Global Motion Aggregation von Jiang et al. zu Separable Flow hinzugefügt. Auf dem Ablationstrainingsplan erzielt das kombinierte Modell bessere Ergebnisse als Global Motion Aggregation allein.
Enthalten in den Sammlungen:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
Masterarbeit_SimonBihlmaier.pdf1,61 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.