Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-14385
Autor(en): Wang, Weitian
Titel: Stationary vehicle classification based on scene understanding
Erscheinungsdatum: 2024
Dokumentart: Abschlussarbeit (Master)
Seiten: 51
URI: http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-144045
http://elib.uni-stuttgart.de/handle/11682/14404
http://dx.doi.org/10.18419/opus-14385
Zusammenfassung: Navigating through dense traffic situations like merging onto highways and making unprotected left turns remains a challenge for the existing autonomous driving system. Classifying vehicles into parked, stopped, and moving vehicles can benefit the decision-making system in this case because they play different roles during the vehicle-to-vehicle negotiation process. Existing works in vehicle classification focused on trivial cases and used methods that are not generalized enough. To fill this gap, after analyzing this problem and summarizing the necessary information needed for this problem, we propose a multi-modal model that can leverage information from lidar, radar, camera, and high-definition maps. To meet the complexity of our task and the needs of our model, we collect the dataset in real driving scenario and then preprocess and label it. By utilizing a pretrained vision encoder for fine-grained visual feature extraction and vision foundation model (CLIP) for scene understanding, our model achieves a 97.63% test accuracy on our dataset. Through visualization methods, experiments, and quantitative analyses, we investigate the effectiveness and importance of different encoders used in our model. We interpret and explain the successes and failures of our model to give a better understanding of how different latent features contribute to the final result. In the end, the limitations of our model and potential improvements are discussed.
Zur Navigation durch dichte Verkehrssituationen wie das Einfädeln auf Autobahnen und das Durchführen ungeschützter Linksdreher bleibt eine Herausforderung für das bestehende autonome Fahrsystem. Die Klassifizierung von Fahrzeugen in geparkte, stehende und sich bewegende Fahrzeuge kann dem Entscheidungssystem in diesem Fall nutzen, da sie unterschiedliche Rollen während des Fahrzeug-zu-Fahrzeug-Verhandlungsprozesses spielen. Bisherige Arbeiten zur Fahrzeugklassifizierung konzentrierten sich auf triviale Fälle und verwendeten Methoden, die nicht hinreichend verallgemeinert waren. Um diese Lücke zu schließen, schlagen wir nach Analyse dieses Problems und Zusammenfassung der für dieses Problem erforderlichen Informationen ein multimodales Modell vor, das Informationen aus Lidar, Radar, Kamera und hochauflösenden Karten nutzen kann. Um die Komplexität unserer Aufgabe und die Anforderungen unseres Modells zu erfüllen, sammeln wir den Datensatz in realen Fahrszenarien und bereiten ihn dann auf und kennzeichnen ihn. Durch die Nutzung eines vorab trainierten Visionencoders zur Extraktion feingranularer visueller Merkmale und des Vision-Grundlagenmodells (CLIP) zur Szenenverständnis erreicht unser Modell eine Testgenauigkeit von 97,63 % auf unserem Datensatz. Durch Visualisierungsmethoden, Experimente und quantitative Analysen untersuchen wir die Wirksamkeit und Bedeutung verschiedener Encoder, die in unserem Modell verwendet werden. Wir interpretieren und erklären die Erfolge und Misserfolge unseres Modells, um ein besseres Verständnis dafür zu vermitteln, wie verschiedene latente Merkmale zum endgültigen Ergebnis beitragen. Abschließend werden die Grenzen unseres Modells und mögliche Verbesserungen diskutiert.
Enthalten in den Sammlungen:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
master thesis-Weitian Wang.pdf1,36 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.