06 Fakultät Luft- und Raumfahrttechnik und Geodäsie
Permanent URI for this collectionhttps://elib.uni-stuttgart.de/handle/11682/7
Browse
3 results
Search Results
Item Open Access On the information transfer between imagery, point clouds, and meshes for multi-modal semantics utilizing geospatial data(2022) Laupheimer, Dominik; Haala, Norbert (apl. Prof. Dr.-Ing.)The semantic segmentation of the huge amount of acquired 3D data has become an important task in recent years. Images and Point Clouds (PCs) are fundamental data representations, particularly in urban mapping applications. Textured meshes integrate both representations by wiring the PC and texturing the reconstructed surface elements with high-resolution imagery. Meshes are adaptive to the underlying mapped geometry due to their graph structure composed of non-uniform and non-regular entities. Hence, the mesh is a memory-efficient realistic-looking 3D map of the real world. For these reasons, we primarily opt for semantic segmentation of meshes, which is a widely overlooked topic in photogrammetry and remote sensing yet. In particular, we head for multi-modal semantics utilizing supervised learning. However, publicly available annotated geospatial mesh data has been rare at the beginning of the thesis. Therefore, annotating mesh data has to be done beforehand. To kill two birds with one stone, we aim for a multi-modal fusion that enables multi-modal enhancement of entity descriptors and semi-automatic data annotation leveraging publicly available annotations of non-mesh data. We propose a novel holistic geometry-driven association mechanism that explicitly integrates entities of modalities imagery, PC, and mesh. The established entity relationships between pixels, points, and faces enable the sharing of information across the modalities in a two-fold manner: (i) feature transfer (measured or engineered) and (ii) label transfer (predicted or annotated). The implementation follows a tile-wise strategy to facilitate scalability to large-scale data sets. At the same time, it enables parallel, distributed processing, reducing processing time. We demonstrate the effectiveness of the proposed method on the International Society for Photogrammetry and Remote Sensing (ISPRS) benchmark data sets Vaihingen 3D and Hessigheim 3D. Taken together, the proposed entity linking and subsequent information transfer inject great flexibility into the semantic segmentation of geospatial data. Imagery, PCs, and meshes can be semantically segmented with classifiers trained on any of these modalities utilizing features derived from any of these modalities. Particularly, we can semantically segment a modality by training a classifier on the same modality (direct approach) or by transferring predictions from other modalities (indirect approach). Hence, any established well-performing modality-specific classifier can be used for semantic segmentation of these modalities - regardless of whether they follow an end-to-end learning or feature-driven scheme. We perform an extensive ablation study on the impact of multi-modal handcrafted features for automatic 3D scene interpretation - both for the direct and indirect approach. We discuss and analyze various Ground Truth (GT) generation methods. The semi-automatic labeling leveraging the entity linking achieves consistent annotation across modalities and reduces the manual label effort to a single representation. Please note that the multiple epochs of the Hessigheim data consisting of manually annotated PCs and semi-automatically annotated meshes are a result of this thesis and provided to the community as part of the Hessigheim 3D benchmark. To further reduce the labeling effort to a few instances on a single modality, we combine the proposed information transfer with active learning. We recruit non-experts for the tedious labeling task and analyze their annotation quality. Subsequently, we compare the resulting classifier performances to conventional passive learning using expert annotation. In particular, we investigate the impact of visualizing the mesh instead of the PC on the annotation quality achieved by non-experts. In summary, we accentuate the mesh and its utility for multi-modal fusion, GT generation, multi-modal semantics, and visualizational purposes.Item Open Access Dense image matching for close range photogrammetry(2016) Wenzel, Konrad; Fritsch, Dieter (Prof. Dr.-Ing.)Dichte Bildzuordnung ermöglicht die Berechnung von 3D Oberflächen aus mindestens zwei Bildern durch die Lösung des Korrespondenzproblems für jedes Pixel. Anhand der Korrespondenzinformation und der bekannten Kamerageometrie kann die Tiefeninformation durch einen Schnitt der Sichtstrahlen im Raum rekonstruiert werden. Dichte Stereobildzuordnung wird beispielsweise für Stereo-Kamerasysteme im Robotik- und Automobilbereich eingesetzt, wo die Tiefeninformation mit hoher Frequenz berechnet und für Aufgaben wie Szenenverstehen und Maschinensteuerung verwendet wird. Die Erweiterung zu Multi-View Stereo ermöglicht die Rekonstruktion von Oberflächen aus mehr als zwei Bildern. In Kombination mit den aktuellen Entwicklungen im Bereich automatischer Orientierungsbestimmung können komplexe Szenen mit beliebiger Kamerakonfiguration ohne weitere Vorinformationen erfasst werden. Hierdurch wird die Erfassung von Oberflächen mit handelsüblichen Kameras für Anwendungen wie Denkmalpflege oder Vermessung ermöglicht. Die Herausforderungen der dichten Bildzuordnung sind insbesondere schwache Texturen und sich wiederholende Muster, welche zu Mehrdeutigkeiten bei der Zuordnung führen. Die verwendete Bildzordnungsmethode sollte diese zuverlässig auflösen können und zudem robust gegenüber radiometrischen und projektiven Unterschieden sein. Szenen mit starken Tiefenvariationen, beispielsweise durch Vordergrundobjekte und entfernten Hintergrund, sollten prozessiert werden können ohne scharfe Kanten oder Details zu verlieren. Fehlzuordnungen und falsche Korrespondenzen durch bewegte Objekte sollten automatisch erkannt werden. In dieser Arbeit wird eine Multi-View Stereo Methode vorgestellt, welche dichte Punkt- wolken für einen gegebenen Satz von Bildern und deren Orientierungen rekonstruiert ohne Vorinformationen über die Szene zu benötigen. Sie skaliert auf große Datensätze komplexer Szenen mit starken Tiefen- und Maßstabsvariationen. Die Methode basiert auf einem multi-baseline Ansatz, bei welchem für jedes Bild Disparitätskarten für mehrere Stereomodelle mithilfe einer hierarchischen Semi Global Matching Methode berechnet werden. Anschließend werden die resultierenden Disparitätskarten in einem Multi-Stereo Triangulationsschritt für die Berechnung einer dichten Punktwolke verwendet. In einer darauf folgenden Punktwolkenfusion und -filterung werden die Punktwolken der Einzelbilder zusammengefasst und validiert, um Ausreißer und redundante Punkte zu eliminieren. Das erste Kapitel umfasst eine Einleitung in das Thema und die Ziele dieser Arbeit. Im zweiten Kapitel wird der Stand der Forschung im Vergleich zu der in dieser Arbeit vorgestellten Methode diskutiert. Die Methode selbst wird den darauffolgenden drei Kapiteln im Detail behandelt. Das dritte Kapitel umfasst dabei den multi-baseline Ansatz für die bildweise Extraktion von Punktwolken, während das vierte Kapitel das Problem der Auswahl von günstigen Stereomodellen in Bezug auf geometrische Konfigurationen diskutiert. Im fünften Kapitel folgt ein Nachverarbeitungsschritt zur Punktwolkenfusion und -filterung. Das siebte Kapitel umfasst eine Zusammenfassung mit Hinblick auf Grenzen des Verfahrens sowie mögliche Erweiterungen.Item Open Access Ableitung von Bewegungsstrategien zur automatisierten, vollständigen Vermessung von Innenraumszenen auf autonomnavigierender Plattform(2012) Fietz, Alexander; Fritsch, Dieter (Prof. Dr.-Ing.)Die Selbstlokalisierung eines autonomen mobilen Roboters in der Umgebung ist eine seiner grundlegenden Aufgaben. Eine präzise Lokalisierung ist für viele Applikationen notwendig. Eine Vorrausetzung dafür ist das Vorliegen einer genauen und vollständigen Karte. Während die durch den Roboter erzeugte Karte bei typischen Robotikanwendungen ein notwendiges Nebenprodukt darstellt, rückt diese bei einer Betrachtung von vermessungstechnischer Seite in den Fokus. Es stellt sich die Frage, inwiefern sich die gesammelten Raumdaten bezüglich der Genauigkeit, der Vollständigkeit und des Detaillierungsgrades für eine Umgebungskartierung eignen, die den Anforderungen eines menschlichen Nutzers genügt. Im Alltag benötigt dieser exakte Modelle von Innenräumen, deren Beschaffung häufig mit großem Aufwand verbunden ist. Eine vollautomatische Generierung dieser Innenraummodelle wäre für ihn daher wünschenswert. Die Arbeit soll hierzu einen Beitrag leisten und versucht die Verfahren und Mittel zusammenzustellen, die notwendig sind, um das Modell einer Innenraumszene quasi ”per Knopfdruck“ zu erhalten. Konzipiert wurde ein mobiles Messsystem, durch das sich Innenraumumgebungen vollständig und mit möglichst hoher Genauigkeit in 2D als auch in 3D einmessen lassen. Der Aufbau des Messsystems erfolgte in zwei Stufen. In einer Basisstufe wurde eine mobile Plattform mit einem Low-Cost Laserscanner ausgestattet, um eine 2D-Exploration von Innenraumszenen zu ermöglichen. In einer Ausbaustufe erlaubt die Anbringung einer Digitalkamera eine zusätzliche 3D-Rekonstruktion, basierend auf der Anwendung photogrammetrischer Methoden. In der Arbeit werden Positionierungsstrategien für die 2D als auch die 3D Vermessung vorgestellt, deren primäres Ziel eine Genauigkeitsmaximierung der resultierenden Raumdaten ist. Im ersten Teil der Arbeit wird ein 2D-Messsystem vorgestellt, dass in der Lage ist, unbekannte Innenraumszenen zu erkunden und exakte Grundrisspläne von diesen zu erstellen. Dabei fährt das System iterativ Messposen an, die durch eine Positionierungsstrategie bestimmt werden. Die an den einzelnen Messpositionen aufgezeichneten 2D-Punktwolken werden über ein Scan-Matching Verfahren in einem gemeinsamen Koordinatensystem registriert. Die Positionierungsstrategie beruht auf einer globalen Betrachtung der Umwelt als Verkettung von Liniensegmenten. Da die Enden dieser Segmente auf Datenlücken hinweisen, wird über diese die Exploration einer Szene bis zu deren vollständiger Erfassung vorangetrieben. Der zweite Teil der Arbeit stellt eine Positionierungsstrategie vor, durch die sich ein Aufnahmeverband aufnehmen lässt, mit dem eine photogrammetrische Rekonstruktion möglich ist. Bereits vor der eigentlichen Aufnahme werden mögliche Posenkonfigurationen über eine Genauigkeitsabschätzung eruiert. Die Annahme, sich in ebenen Umgebungen zu bewegen, ermöglicht eine Einschränkung der Wahl möglicher Kameraposen auf ein 2D Suchproblem. Ausgangsinformation der Posebestimmung ist die 2D-Umgebungskarte, die sich durch das vorgestellte 2D Messsystem erstellen lässt. Aus dieser werden iterativ pseudozufällige Posenkonstellationen für definierte Umgebungsbereiche abgeleitet und anhand einer Kostenfunktion miteinander verglichen. Die Kostenfunktion versucht die im Bündelausgleich entstehenden Varianzen der Objektpunkte abzuschätzen. Dies ist möglich, indem auch das funktionale Modell des Bündelausgleichs auf eine 2D Betrachtung reduziert wird, wobei ein 2D-Richtungsnetz entsteht. Form und Größe der resultierenden Fehlerellipsen lassen Rückschlüsse auf die Güte möglicher Kameraposen zu und erlauben eine vergleichende Evaluierung. Ein wesentlicher Teil der Arbeit beschäftigt sich mit der empirischen Evaluierung der Systeme, um deren Leistungsvermögen und die Güte der resultierenden Raumdaten zu erörtern. Anhand von Versuchen in realen Umgebungen wird die praktische Anwendbarkeit der entwickelten Messverfahren belegt. Im Falle der scannenden Vermessung belegen die Experimente, dass das entwickelte Messsystem auch komplexe Innenraumszenarien einzumessen und zu explorieren vermag. Eine Betrachtung der erstellten Punktwolke zeigt, dass deren Genauigkeit vielen vermessungstechnischen Ansprüchen genügt und das Verfahren diesbezüglich herkömmlichen Messmitteln überlegen ist. Bei einer anschließenden Modellierung werden jedoch feinere Umgebungsstrukturen fälschlich abgebildet oder gehen ganz verloren. Auch die 3D-Messstrategie ist existierenden Strategien nachweislich überlegen. Das rein passive Verfahren führt jedoch zu Punktwolken, die nicht dicht genug sind, um mit entsprechender Software detaillierte Umgebungsmodelle erzeugen zu können.