05 Fakultät Informatik, Elektrotechnik und Informationstechnik
Permanent URI for this collectionhttps://elib.uni-stuttgart.de/handle/11682/6
Browse
52 results
Search Results
Item Open Access Developing a multimodal feedback motion guidance system in VR for people with motion disabilities(2021) Wennrich, KevinMotion is an important aspect in the area of physiotherapy. The correctness of those motions is even more important, especially in the home exercises. In this thesis, the prototype of a multimodal guidance system in virtual reality, which tracks the movements of the users and compares it to the correct position in the field of physiotherapy exercises was created. The get the requirements for the system, people who needed to go to physiotherapy, because of an injury or a disability (stroke, MS, NPC), were interviewed, as well as a physiotherapist. Based on the results, we have implemented a virtual physiotherapist and the auditory guidance as two modalities. Further modalities have been the ghostarm and the haptic guidance as vibration bands. The prototype in which the user can choose and combine the guidances have been developed. The system, the modalities and its limits have been evaluated in a online study and a pilot study, with the results, that until now the ghostarm and virtual physiotherapist are the most liked guidances. A user study is planned for the future.Item Open Access Stationary vehicle classification based on scene understanding(2024) Wang, WeitianNavigating through dense traffic situations like merging onto highways and making unprotected left turns remains a challenge for the existing autonomous driving system. Classifying vehicles into parked, stopped, and moving vehicles can benefit the decision-making system in this case because they play different roles during the vehicle-to-vehicle negotiation process. Existing works in vehicle classification focused on trivial cases and used methods that are not generalized enough. To fill this gap, after analyzing this problem and summarizing the necessary information needed for this problem, we propose a multi-modal model that can leverage information from lidar, radar, camera, and high-definition maps. To meet the complexity of our task and the needs of our model, we collect the dataset in real driving scenario and then preprocess and label it. By utilizing a pretrained vision encoder for fine-grained visual feature extraction and vision foundation model (CLIP) for scene understanding, our model achieves a 97.63% test accuracy on our dataset. Through visualization methods, experiments, and quantitative analyses, we investigate the effectiveness and importance of different encoders used in our model. We interpret and explain the successes and failures of our model to give a better understanding of how different latent features contribute to the final result. In the end, the limitations of our model and potential improvements are discussed.Item Open Access Leveraging large language models for latent intention recognition and next action prediction(2024) Ahmed, MohamedAutonomous agents that operate within graphical user interfaces (GUIs) have a significant potential to improve user experience. To achieve this, such agents must be customized and proactive. Understanding user intentions through their interactions and engagements with GUIs enables these agents to better fulfill user needs. This work introduces a novel LLM-based framework, Mistral-Intention, that accurately recognizes latent user intentions from their interactions. A key innovation is the integration of a sub-goal generation step, using prompt engineering to decompose user tasks into actionable steps, enhancing the model's interpretative capabilities and extendability. Furthermore, the incorporation of a keyword extraction-based loss significantly refines the model's focus on critical information of user actions such as typed values, ensuring comprehensive and relevant intention recognition. We evaluate Mistral-Intention using a range of metrics, including manual metrics and automatic methods based on GPT-4o, against a modified version of the state-of-the-art task automation framework, namely SYNAPSE. Results from extensive testing on the MIND2WEB and MoTIF datasets highlight Mistral-Intention's superior performance in intention recognition across various GUI environments. Furthermore, we implement an LLM-based computer agent capable of predicting the user's next action. We have addressed the challenges faced while developing such agents, such as the limited context window, and understanding the current GUI environment. Our LLM-based agent exhibits an improvement of 15.30% in the element accuracy and 13.20% in operation F1 over the previous state-of-the-art method in MindAct on MIND2WEB. Our work not only pushes the boundaries of computational HCI but also opens new pathways for developing more intuitive and effective user-center interaction solutions.Item Open Access RAFT meets DICL : a recurrent all-pair transform for optical flow estimation based on displacement Invariant cost volume learning(2022) Luz, MaximilianBewegung ist ein grundlegender Aspekt der visuellen Wahrnehmung, sowohl bei Tieren als auch bei Maschinen. Die Extraktion von Bewegungsinformationen aus monokularen Bildsequenzen als Vektorfeld von Verschiebungen, dem sogenannten optischen Fluss, ist eines der Kernprobleme des Maschinensehens. Dessen Anwendungen sind weitverbreitet und werden, unter anderem durch Fortschritte beim autonomen Fahren und anderen autonomen Maschinen, welche mit unserer Welt interagieren, stets mehr und wichtiger. Überdies nutzen Systeme zur Handlungserkennung (Action Recognition), Objektverfolgung, Navigation und Lokalisierung, Videoverarbeitung, sowie für diverse andere visuelle Analyseaufgaben solche Bewegungsinformationen, wodurch ein erheblicher Bedarf an genauen Methoden zur Schätzung des optischen Flusses entsteht, insbesondere an solchen, die in verschiedenen anspruchsvollen Szenarien gut und zuverlässig funktionieren. Zu diesem Zweck schlagen wir die Kombination zweier moderner Ansätzen vor: der "recurrent all-pairs field transform for optical flow" (RAFT) von Teed und Deng (ECCV 2020) und dem "displacement-invariant matching cost learning" (DICL) von Wang et al. (NeurIPS 2020). RAFT führt eine neuartige rekurrente neuronale Architektur ein, die den optischen Fluss iterativ auf einer einzigen räumlichen Ebene durch Abtasten und Dekodieren eines hierarchischen 4D-Kostenvolumens ermittelt und verfeinert. Hierdurch wurde es zu einer der derzeit genauesten Methoden. Bei RAFT wird dieses Kostenvolumen, das aus Werten besteht, welche die paarweise Ähnlichkeit zwischen den merkmalsbeschreibenden Vektoren zweier aufeinander folgender Bilder einer Sequenz beschreiben, über das Skalarprodukt berechnet. DICL hingegen verwendet ein neuronales Netzwerk als erlernbare Kostenfunktion, um genauere Kostenwerte zu generieren, ermittelt aber den Fluss nicht rekurrent, sondern folgt einem eher klassischen grob-zu-fein Warping Schema. In dieser Masterarbeit kombinieren wir das Beste aus beiden Techniken, im Speziellen den dynamischen Kostenlernansatz von DICL und den rekurrenten Ermittlungs- und Verfeinerungsansatz von RAFT. Wir tun dies, indem wir einen generischen RAFT-basierten Ansatz herleiten, welcher die Verwendung beliebiger und potenziell erlernbarer Kostenfunktionen, insbesondere jener von DICL, ermöglicht, wobei nur deren Differenzierbarkeit erforderlich ist. Des Weiteren liefern wir eine detaillierte Analyse dieser Kombination, sowohl für eine RAFT-ähnliche hierarchische Kostenvolumenmethode als auch für eine praktikablere grob-zu-fein Methode, und erörtern mehrere Schwierigkeiten, die dabei auftreten. Obwohl wir noch nicht in der Lage sind, signifikante Verbesserungen in der Genauigkeit im Vergleich zu RAFT aufzuzeigen, glauben wir, dass unser Gesamtansatz das Potenzial für diese zeigt und darüber hinaus neue Kostenlernstrategien ermöglichen kann.Item Open Access Exploration support for performance maps(2023) Galuschka, MarcelIn der architektonischen Entwurfsoptimierung ist die Analyse des mehrdimensionalen Parameterraums ein wichtiger Vorgang, um neue Lösungen zu finden. In dieser Arbeit wird ein glyphenbasierter Ansatz entwickelt, um die Informationen des Parameterraums und des kontinuierlichen Lösungsraums zu kombinieren. Die auf einem einheitlichen Gitter dargestellten Glyphen kodieren zusätzlich die Unsicherheit des zugrunde liegenden kontinuierlichen Raumes. Interaktion wird hinzugefügt, um Informationen mit höherer Auflösung zu erhalten. Eine Feedback-Schleife wird eingeführt, um Bereiche anzuzeigen, die bereits erforscht wurden. Die Anwendung des Tools wird demonstriert und in einer Expertenstudie bewertet. Die Ergebnisse der Studie werden klassifiziert und für technische Verbesserungen und zukünftige Forschung aufbereitet.Item Open Access Evaluation of different image representations for reinforcement learning agents(2024) Ramasamy Sundararaj, JayakumarThough Deep Reinforcement Learning (DRL) has emerged as a powerful paradigm for training agents to perform complex tasks, it encounters challenges when confronted with raw sensory inputs. Despite using the deep neural network’s prowess to generate meaningful internal representations, DRL approaches suffer from a high sample complexity. The effectiveness and scalability of DRL techniques are frequently hindered by the high-dimensional nature of input data, especially in methods utilizing image-based observations. To overcome this challenge, a promising approach is to start with improved input representations to enhance learning performance significantly. This work addresses this challenge using novel techniques to enhance DRL agents’ training efficiency and performance. We propose using compact and structured image representations, namely object-centric and scene graph-based state representations, as intermediate state representations for training lightweight DRL agents. These representations facilitate extracting important features from raw observations, effectively reducing input space dimensionality. To assess the effectiveness of our proposed approaches, we conduct experiments on three Atari 2600 games: Space Invaders, Frostbite, and Freeway. Our findings reveal that models trained with intermediate state representations, while showing slightly lower performance than those trained from raw image pixels, achieved a notable performance by surpassing Human Normalized Score (HNS) in one game environment with fewer model parameters. Furthermore, we investigate alternative loss functions for value function estimation and explore strategies to mitigate the issue of diminishing entropy during training. Finally, through a systematic analysis of experimental findings, we provide valuable insights into the efficacy and drawbacks of these approaches, shedding light on promising avenues for future research in formulating suitable state spaces for training agents using DRL.Item Open Access Filter dictionaries for optical flow prediction with RAFT(2023) Walter, PeterIn the field of optical flow estimation, a dense vector field must be generated describing the apparent two-dimensional displacement of objects in consecutive images of a sequence. Although state of the art predictions are currently produced by deep convolutional neural networks, one major issue is that they are strongly susceptible to adversarial attacks, such as the Perturbation Constrained Flow Attack, which create small, noisy perturbations pursuing maximal change in the optical flow estimate. To improve adversarial robustness, this thesis includes receptive field convolutional layers into the optical flow predicting neural network RAFT. These receptive field layers use filter dictionaries to impose specific (geometric) priors onto convolutional kernels and improve results in image classification and reconstruction tasks. Each kernel in these RFCNNs can be written as a weighted sum over a fixed subset of filters taken from the dictionary. Besides the existing Gaussian derivative and Parseval completed sparse directional dictionaries, a novel PCA dictionary is proposed which consists of the principal components of the previously trained network’s kernels. All types of dictionaries are compared against each other at multiple positions in the network. Results show that receptive fields in individual layers mostly do not affect and in RAFT’s feature encoder even degrade performance, while Parseval completed dictionaries do not benefit the neural network in this context of optical flow. However, filter dictionaries with geometric motivations in RAFT’s update block, namely the Gaussian derivatives and sparse directional FDs, make the network up to 20% more robust against the PCFA in exchange for a worse fit in quality.Item Open Access Evaluation and application of estimated gaze depth in Virtual Reality(2022) Walter, TobiasEye Tracking Kameras werden zum Standard in neuen Virtual Reality Brillen. Während Evaluation und Bewertung von zweidimensionalen Eye Tracking Daten schon Einsatz in Forschung und Designprozessen finden, ist der Einsatz von dreidimensionaler Blicktiefe weitgehend unerforscht. Üblicherweise wird zur Schätzung der Blicktiefe der Blickstrahl mit einer zweidimensionalen Ebene, z.~B. dem Bilschirm, geschnitten. Allerdings setzt dieser Ansatz voraus, dass Abstände der Szene bekannt sind und keine Verdeckung auftritt. In dieser Arbeit wird die Blicktiefe durch das Schneiden der Blickgeraden beider Augen geschätzt. Dies ermöglicht die Verwendung von semi- transparenten Objekten, mit denen ein Benutzer interagieren kann. Einblicke in die Blicktiefe können wertvolle Einsichten in Benutzerverhalten liefern, in verdeckungsreichen Szenen die Frage klären, welches Ziel fokussiert wird und neue Interaktionstechniken ermöglichen. Ziel dieser Arbeit ist es, Blicktiefenschätzung zu evaluieren und neue Verwendungsmöglichkeiten zu erfrorschen. Um eine zuverlässige Schätzung zu erhalten, werden zwei Kalibrierungsprozeduren entwickelt, die auf aktuellen Methoden aufbauen und Modalitäten verglichen, die Einfluss auf die Kalibrierung haben könnten. Die Implementierung wurde in einer Pilotstudie (n=10) verglichen. Die Ergebnisse zeigen, dass Interaktion gut in Distanzen bis zu 1.2 Metern funktioniert, während Objekte, die nur 30 cm vom Benutzer entfernt waren, teilweise als unangenehm empfunden wurden. Außerdem legen die Ergebnisse nahe, dass ein sich bewegendes Kalibrierungsziel zu einer besseren Allzweckkalibrierung führt. Eine sorgfältige Kalibrierung des Raumes, in dem Interaktion verwendet wird, kann daher die Blicktiefenschätzung und Interaktion verbessern.Item Open Access A global adversarial attack on scene flow(2023) Hasenbalg, MarcelIm Bereich Computer Vision haben sich tiefe neuronale Netze als Lösung für komplexe Probleme bewährt. Die Rekonstruktion von Tiefeninformation aus Stereo-Bildern und die Schätzung des optischen Flusses aus Bildsequenzen wird am genauesten von Methoden, welche auf tiefem maschinellem Lernen basieren gelöst. Die Erweiterung des optischen Flusses auf drei räumliche Dimensionen wird Scene Flow genannt. Tiefe neuronale Netze für die Schätzung von Scene Flow übertreffen die Genauigkeit klassischer Methoden, welche auf Minimierung von Energie Funktionen basieren. Die Anwendung von neuronalen Netzen für die Schätzung von Scene Flow in sicherheitskritischen Bereichen wie autonomes Fahren oder roboter-assistierter Chirurgie erfordert eine gründliche Evaluation dieser Systeme. Die Manipulation der Ausgabeschicht von Neuronalen Netzwerken mithilfe von Adversarial Attacks wurde zunächst für Objekt-Klassifizierungsnetzwerke entdeckt. Das Ziel von Adversarial Attacks ist den Eingabe-Bildern minimale Störungen hinzuzufügen, welche letztendlich zu fehlerhaften Ausgaben führen. Aktuelle Forschungsergebnisse konnten zeigen, dass moderne Netzwerke zur Schätzung des optischen Flusses oder der Tiefenrekonstruktion eine geringe Robustheit gegen Adversarial Attacks aufweisen. In dieser Thesis wird ein Framework entwickelt, welches eine gezielte beschränkte globale Adversarial Attack (GSFA) auf neuronale Netze zur Scene Flow Schätzung ermöglicht. Mehrere verschiedene Arten von Attacken, welche Störungen auf bestimmte Eingaben oder an verschiedenen Stellen der Vearbeitung hinzufügen, werden eingeführt. Diese Arten von Adversarial Attacks werden angewendet um die Ausgaben des modernen Scene Flow Netzwerks RAFT-3D zu manipulieren. Die Auswirkungen von GSFA auf die Genaugikeit der Scene Flow Schätzung und die Größe der Störung der Eingabebilder wird mit RAFT-3D und zwei Scene Flow Benchmark Datensätzen überprüft. Die Ergebnisse vielseitiger Experimente beweisen, dass RAFT-3D dieselben Schwächen gegen Adversarial Attacks aufzeigt, wie Netzwerke zur Tiefenrekonstruktion oder zur Schätzung des optischen Flusses. Einschränkungen der Größe der Störungen sind effektiv darin die Störungen der Eingabebilder im nicht wahrnehmbaren oder kaum wahrnehmbaren Bereich zu halten, während die Ausgabe sich dem definierten Ziel des Zero Scene Flow annähert.Item Open Access Human-AI collaboration for immersive analysis of spatiotemporal ensemble data(2024) Weiler, SimonMany simulations and experiments produce large amounts of spatiotemporal data, for example consisting of sets of two-dimensional positional recordings over a long time interval. The high dimensionality of the data, together with its complex time-dependent behaviors, greatly limits the possibilities of manual analysis using traditional tooling. This thesis presents a novel approach to the visual analysis of spatiotemporal ensemble data by combining an immersive and intuitive virtual reality (VR) interface with interactive machine learning elements. By defining queries for specific spatiotemporal patterns, users are able to arrange the entire ensemble in a three-dimensional workspace based on the similarity between members, while individual members and their temporal behavior can be examined in detail using an intuitive three-dimensional visualization utilizing space-time cubes. Through a small-scale user study, the workflow and VR implementation have been tested on their usability, together with a comparison between different interaction techniques in terms of task efficiency and user experience. Results show that even users with little VR experience responded positively to the three-dimensional interactions and intuitive data exploration, while also achieving high ratings in immersion and engagement, despite an initial learning curve and some visual clarity issues.