Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-12009
Autor(en): Bauer, Ruben
Titel: Region proposal network for simple objects in grasping experiments
Erscheinungsdatum: 2020
Dokumentart: Abschlussarbeit (Master)
Seiten: 96
URI: http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-120266
http://elib.uni-stuttgart.de/handle/11682/12026
http://dx.doi.org/10.18419/opus-12009
Zusammenfassung: Particularly in applied robotics, the grasping of objects is a major field which comes with various difficulties. Multiple objects with simple or complex shapes as well as different colors can be scattered on a surface in random positions and orientations. However, with the knowledge about the correct object positions, a robot has high chance of grasping them. Object detection systems can determine bounding boxes of objects in images, which can help to calculate the correct object positions. Current state-of-the-art object detection systems such as the popular Faster R-CNN and the Mask R-CNN, often use multi-stage architectures. Both models utilize a region proposal network to obtain regions which are likely to contain objects. This thesis introduces and evaluates multiple architecture variations of single-stage and two-stage models. These variations include a region proposal network, yet in the setting of grasping experiments. Usually, the training of these models is done in a supervised manner which requires lots of data with ground truth information. Generating this kind of data in a real world environment is expensive, yet it is cost-efficient to generate the same kind of data in a simulated environment. Therefore, this thesis introduces a framework to generate artificial data in a simulated grasping experiment environment. This framework implements several domain randomization techniques in order to randomize this simulation environment. The training data contains only artificial images with objects of simple geometry. The results have shown that models, which were trained only on these artificial images, can still generalize well to images of a real environment. Furthermore, the generalization to images which contain objects of complex geometry is equally possible. This thesis performs ablation studies on the employed domain randomization techniques which reveal both degradation and improvement of different techniques. Benchmarks on the model variations show that a significantly faster inference is possible compared to the originally Faster R-CNN and Mask R-CNN, while still achieving pleasant prediction results. This was made possible by using different configurations for the region proposal network, and by introducing faster feature extraction backbone architectures.
Insbesondere in der angewandten Robotik ist das Greifen von Objekten ein großes Forschungsgebiet, welches mit verschiedenen Schwierigkeiten verbunden ist. Verschiedene Objekte mit einfachen oder komplexen Formen sowie in unterschiedlichen Farben können in zufälligen Positionen und Orientierungen auf einer Oberfläche verteilt sein. Sollten jedoch die korrekten Objektpositionen bekannt sein, dann kann ein Roboter diese mit hoher Wahrscheinlichkeit Greifen. Objekterkennungssysteme können Objekte in Bildern erkennen und ihre Bounding Boxen bestimmen, welche die Objekte auf den Bildern einrahmen. Diese Informationen werden oft genutzt, um dann echte Objektpositionen zu berechnen. Aktuelle Objekterkennungssysteme, wie das bekannte Faster R-CNN und das Mask R-CNN, verwenden häufig mehrstufige Architekturen. Beide Modelle verwenden unter anderem ein Region Proposal Netzwerk, welches wichtige Vorarbeit leistet, um aus einem Bild Regionen zu bestimmen, die mit hoher Wahrscheinlichkeit Objekte enthalten. In dieser Arbeit werden mehrere Architekturvarianten von einstufigen und zweistufigen Objekterkennungsmodellen entwickelt und diese im Kontext von Greifexperimenten ausgewertet. Diese Modelle verwenden ebenfalls ein Region Proposal Netzwerk. Das Trainieren solcher Modelle erfordert in der Regel große Mengen an Trainingsdaten, die korrekte Ground-Truth Informationen beinhalten. Das Generieren solcher Daten ist in der echten Welt teuer und aufwändig.Abhilfe können Simulationsumgebungen schaffen, welche es erlauben, kostengünstig große Mengen an künstlicher Trainingsdaten zu generieren. In dieser Arbeit wurde ein Framework entwickelt, welches zur Erzeugung künstlicher Trainingsdaten im Kontext von Greifversuchen, genutzt werden kann. Das Framework implementiert verschiedene Domain Randomization Techniken, um diese Simulationsumgebung so zufällig wie möglich zu gestalten. Die generierten Trainingsdaten enthalten dabei ausschließlich künstliche Bilder mit Objekten einfacher Geometrie, welche genutzt wurden, um die verschiedenen Modellvarianten zu trainieren. Die Ergebnisse haben gezeigt, dass diese Modelle, die nur auf diesen künstlichen Bildern trainiert wurden, immer noch gut sowohl simple als auch komplexe Objekte in Bildern einer ähnlichen, aber realen Umgebung erkennen können. Außerdem wurden verschiedene Experimente durchgeführt, um die Effekte der eingesetzten Domain Randomization Techniken zu untersuchen. Benchmarks für die verschiedenen Modellvarianten haben gezeigt, dass das Erkennen von Objekten auf Bildern, im Vergleich zu den ursprünglichen Faster R-CNN und Mask R-CNN Modellen, deutlich beschleunigt werden kann, ohne dabei große Verluste in der Genauigkeit der Objekterkennung in Kauf nehmen zu müssen. Dies wurde unter anderem durch die Entwicklung eines kleinen Autoenkodierer Netzwerkes, dessen vortrainierter Enkodierer für das Extrahieren von Features verwendet wurde, möglich, sowie durch die Anpassung der Konfigurationen für das Region Proposal Netzwerkes auf den Kontext von Greifexperimenten.
Enthalten in den Sammlungen:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
region_proposal_network_for_simple_objects_in_grasping_final_signed.pdf22,51 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.