05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Permanent URI for this collectionhttps://elib.uni-stuttgart.de/handle/11682/6

Browse

Search Results

Now showing 1 - 10 of 148
  • Thumbnail Image
    ItemOpen Access
    Developing a multimodal feedback motion guidance system in VR for people with motion disabilities
    (2021) Wennrich, Kevin
    Motion is an important aspect in the area of physiotherapy. The correctness of those motions is even more important, especially in the home exercises. In this thesis, the prototype of a multimodal guidance system in virtual reality, which tracks the movements of the users and compares it to the correct position in the field of physiotherapy exercises was created. The get the requirements for the system, people who needed to go to physiotherapy, because of an injury or a disability (stroke, MS, NPC), were interviewed, as well as a physiotherapist. Based on the results, we have implemented a virtual physiotherapist and the auditory guidance as two modalities. Further modalities have been the ghostarm and the haptic guidance as vibration bands. The prototype in which the user can choose and combine the guidances have been developed. The system, the modalities and its limits have been evaluated in a online study and a pilot study, with the results, that until now the ghostarm and virtual physiotherapist are the most liked guidances. A user study is planned for the future.
  • Thumbnail Image
    ItemOpen Access
    Interactive visualizations for multivariate weather data on smartwatches
    (2024) Rohwer, Jakob Moritz
    Der Markt für Smartwatches wächst schnell und birgt viel Potenzial. Doch der kleine Bildschirm der Geräte stellt Entwickler vor neue Herausforderungen, wenn es um Visualisierung geht. Das gilt insbesondere für komplexere Darstellungen. Für Wetterdaten gibt es viele komplexere Möglichkeiten der Visualisierung, sei es der Temperaturverlauf dargestellt als Diagramm oder die Luftfeuchtigkeit als Fortschrittsanzeige. In dieser Arbeit wird die neue Wetterapplikation WeDaVis vorgestellt, welche neue Arten der Visualisierung für Wetterdaten benutzt. Wie die Ergebnisse unserer Studie gezeigt haben, präferierten die Teilnehmer keine bestimmte Art der Datenrepräsentation, sondern stattdessen hingen die Präferenzen von der Art der Wetterinformation ab. Teilnehmer präferierten die Visualisierungen von WeDaVis bei eher ungewöhnlicheren Daten, wie zum Beispiel der Windstärke oder dem Luftdruck. Textbasierte Darstellungen wurden präferiert, wenn es um bekanntere Informationen, wie die Temperatur, ging. Weitere Ergebnisse der Studie zeigten, dass Möglichkeiten der Interaktion visualisiert werden sollten, denn sonst hatten die Teilnehmer Probleme, diese wahrzunehmen. Da sich die Interessen der Teilnehmer für verschiedene Wetterinformationen unterschieden, sollten Applikationen dementsprechend anpassbar sein, und sollten ungefähr sechs Datenrepräsentationen auf einem Bildschirm anzeigen. Da das Forschungsgebiet der Wetterinformationen relativ neu ist, strebte dieses Projekt an, zu dieser Forschung beizutragen, indem wir versucht haben, eine möglichst effiziente Wetterapplikation zu entwickeln, die auf die Benutzung auf der Smartwatch abgestimmt ist.
  • Thumbnail Image
    ItemOpen Access
    Visuelle Unterstützung bei der Planung der Bildentwicklung in Lateinformationschoreografien
    (2023) Schmierer, Fabian
    Das Gebiet der Visualisierung von Teamsportdaten wächst in den letzten Jahren stetig. Grund dafür sind die steigende Popularität und Kommerzialisierung von Sportarten wie Fußball. Für Randsportarten existieren indes jedoch kaum digitale Lösungen. Eine dieser Sportarten ist der Lateinformationstanz. In dieser Arbeit soll deswegen ein digitales Werkzeug entwickelt werden, mit dem Choreografien für Lateinformationen erstellt, analysiert und mit den Tänzern kommuniziert werden können. Der Fokus liegt hierbei insbesondere auf der Erstellung von Bildern einer Choreografie und der Bildentwicklung. Dieser Prozess wird bisher nur von einfachen Programmen unterstützt, mit welchen man die Positionen der Tänzer in einem Koordinatensystem einzeichnet und dies dann in einer 2D- oder 3D-Ansicht betrachtet. In Zusammenarbeit mit drei Formationstrainern wurden deshalb Anforderungen erhoben, die ein Programm zur Bildentwicklung erfüllen sollte. Anschließend wurden die Anforderungen in einem webbasierten Prototypen implementiert. Der Prototyp wurde daraufhin in einer qualitativen Studie mit vier Domänenexperten evaluiert. Hierbei stellte sich heraus, dass Choreografien mit dem Prototyp ohne großen Aufwand editiert und analysiert werden können. Als positive Merkmale wurden insbesondere die gewählten visuellen Kodierungen und die Möglichkeiten zur Analyse der Choreografie von den Teilnehmern hervorgehoben. Die Spezifikation von Bildübergängen, das visuelle Erkennen von Kollisionen und die Erstellung von Posen im 3D-Modus wurden ebenfalls gelobt. Jedoch brauchen diese Funktionen Überarbeitungen im Bereich des Interaktionsdesigns. Eine Zeitleiste, bestehend aus Takten mit jeweils acht Schlägen, in der die zeitliche Verordnung der Bilder eingetragen ist, wurde als zu vereinfacht bezeichnet. Basierend auf dem Feedback wurden abschließend neun Designrichtlinien herausgearbeitet, welche für digitale Werkzeuge zur Bildentwicklung angewandt werden können.
  • Thumbnail Image
    ItemOpen Access
    Stationary vehicle classification based on scene understanding
    (2024) Wang, Weitian
    Navigating through dense traffic situations like merging onto highways and making unprotected left turns remains a challenge for the existing autonomous driving system. Classifying vehicles into parked, stopped, and moving vehicles can benefit the decision-making system in this case because they play different roles during the vehicle-to-vehicle negotiation process. Existing works in vehicle classification focused on trivial cases and used methods that are not generalized enough. To fill this gap, after analyzing this problem and summarizing the necessary information needed for this problem, we propose a multi-modal model that can leverage information from lidar, radar, camera, and high-definition maps. To meet the complexity of our task and the needs of our model, we collect the dataset in real driving scenario and then preprocess and label it. By utilizing a pretrained vision encoder for fine-grained visual feature extraction and vision foundation model (CLIP) for scene understanding, our model achieves a 97.63% test accuracy on our dataset. Through visualization methods, experiments, and quantitative analyses, we investigate the effectiveness and importance of different encoders used in our model. We interpret and explain the successes and failures of our model to give a better understanding of how different latent features contribute to the final result. In the end, the limitations of our model and potential improvements are discussed.
  • Thumbnail Image
    ItemOpen Access
    VisRecall++: analysing and predicting visualisation recallability from gaze behaviour
    (2024) Wang, Yao; Jiang, Yue; Hu, Zhiming; Ruhdorfer, Constantin; Bâce, Mihai; Bulling, Andreas
    Question answering has recently been proposed as a promising means to assess the recallability of information visualisations. However, prior works are yet to study the link between visually encoding a visualisation in memory and recall performance. To fill this gap, we propose VisRecall++ - a novel 40-participant recallability dataset that contains gaze data on 200 visualisations and five question types, such as identifying the title, and finding extreme values.We measured recallability by asking participants questions after they observed the visualisation for 10 seconds.Our analyses reveal several insights, such as saccade amplitude, number of fixations, and fixation duration significantly differ between high and low recallability groups.Finally, we propose GazeRecallNet - a novel computational method to predict recallability from gaze behaviour that outperforms several baselines on this task.Taken together, our results shed light on assessing recallability from gaze behaviour and inform future work on recallability-based visualisation optimisation.
  • Thumbnail Image
    ItemOpen Access
    Leveraging large language models for latent intention recognition and next action prediction
    (2024) Ahmed, Mohamed
    Autonomous agents that operate within graphical user interfaces (GUIs) have a significant potential to improve user experience. To achieve this, such agents must be customized and proactive. Understanding user intentions through their interactions and engagements with GUIs enables these agents to better fulfill user needs. This work introduces a novel LLM-based framework, Mistral-Intention, that accurately recognizes latent user intentions from their interactions. A key innovation is the integration of a sub-goal generation step, using prompt engineering to decompose user tasks into actionable steps, enhancing the model's interpretative capabilities and extendability. Furthermore, the incorporation of a keyword extraction-based loss significantly refines the model's focus on critical information of user actions such as typed values, ensuring comprehensive and relevant intention recognition. We evaluate Mistral-Intention using a range of metrics, including manual metrics and automatic methods based on GPT-4o, against a modified version of the state-of-the-art task automation framework, namely SYNAPSE. Results from extensive testing on the MIND2WEB and MoTIF datasets highlight Mistral-Intention's superior performance in intention recognition across various GUI environments. Furthermore, we implement an LLM-based computer agent capable of predicting the user's next action. We have addressed the challenges faced while developing such agents, such as the limited context window, and understanding the current GUI environment. Our LLM-based agent exhibits an improvement of 15.30% in the element accuracy and 13.20% in operation F1 over the previous state-of-the-art method in MindAct on MIND2WEB. Our work not only pushes the boundaries of computational HCI but also opens new pathways for developing more intuitive and effective user-center interaction solutions.
  • Thumbnail Image
    ItemOpen Access
    Augmented reality to improve electroencephalography (EEG) cap preparation
    (2024) Bocksch, Yannik
    EEG (Electroencephalography) cap preparation requires a significant amount of time before actual measurements can be performed. It takes even longer for EEG caps that need some form of conductive gel or saltwater to decrease contact impedance between the electrodes and the scalp. In this thesis, several methods for detecting electrodes in a camera image and identifying detected electrodes are developed and evaluated for performance and reliability. Additionally, an application is developed that leverages augmented reality to visualize important values, like the impedance of electrodes, directly in the view of the operator. The proposed application runs on the Microsoft Hololens 2 that is used by the operator to overlay a visualization of impedance values of the electrodes over the electrodes themselves, which lets the operator see those values immediately. This reduces the time required to look at a separate device that shows impedance values and locate electrodes on the cap that require additional preparation. However, the identification of electrodes from the camera image does not work reliably enough with the proposed methods, and several ArUco markers, placed in predefined locations on the EEG cap, are used for aligning the virtual representation of the electrodes with the real electrodes.
  • Thumbnail Image
    ItemOpen Access
    Visueller Vergleich von Tänzer-Trajektorien in Lateinformationschoreographien
    (2023) Riedlinger, Alexander
    In der Welt des Sports hat die Visualisierung von Mannschaftssportdaten in den letzten Jahren zunehmend an Bedeutung gewonnen. Grund dafür ist die zunehmende Popularität und Kommerzialisierung des Sports. Fast 1,5 Milliarden fußballinteressierte verfolgten im vergangenen Winter das Finale der Fußballweltmeisterschaft in Katar 1. Sport erlebt eine nie dagewesene Relevanz. Sportvisualisierungen finden im Sport ein breites Publikum und werden in der privaten Analyse am Stammtisch ebenso eingesetzt wie im Training durch das Trainerteam. Im Lateinformationstanz ist diese Form der Analyse jedoch noch unterentwickelt und es gibt kaum Lösungen für den Vergleich der Trajektorien einer Tanzformation. Ziel dieser Arbeit ist es, ein Werkzeug zur visuellen Vergleichsanalyse von Tänzer-Trajektorien in Lateinformationschoreographien zu entwickeln. Damit sollen Trainerinnen und Trainer unterstützt werden, Abweichungen von definierten Positionen innerhalb der Formationsbilder und Asynchronität der getanzten Choreographie schnell zu erkennen, um die Leistung der Tänzerinnen und Tänzer gezielt zu verbessern. In Zusammenarbeit mit Formationstrainerinnen und -trainern wird ein dreistufiger Prozess zur Extraktion, Transformation und Visualisierung von Trajektorien in einem webbasierten Prototyp entwickelt. Die verwendeten Visualisierungen und die Benutzbarkeit des Prototyps wurden in einer Anwendungsfallanalyse untersucht und die Grenzen und Herausforderungen dieses Ansatzes diskutiert. Die Ergebnisse sollen nicht nur als Grundlage für weitere Forschung dienen, sondern auch die Wahrnehmung und Entwicklung des Lateinformationstanzes fördern.
  • Thumbnail Image
    ItemOpen Access
    Ego-Graph-basierte visuelle Exploration semantischer Wissensgraphen
    (2022) Gruhnert, Jan Robert
    Wissensgraphen erfreuen sich in der Forschung großer Beliebtheit, da sie Weltwissen repräsentieren. Um diese riesigen Strukturen für den Menschen verständlich aufzubereiten ist ein weit verbreiteter Ansatz, der des Knoten-Kanten Diagramms. Diese Diagramme werden häufig durch kräfte-basierte Layoutalgorithmen generiert. Ein Nachteil dabei, ist die zunehmende Unübersichtlichkeit des Diagramms, bei immer größer werdenden Graphen. Dabei gibt es durchaus Szenarien, in denen man nicht am gesamten Graphen interessiert ist, sondern nur an einzelnen Knoten und deren Nachbarn. In dieser Arbeit wird ein inkrementelles Verfahren vorgestellt, in welchem nicht der gesamte Graph visualisiert wird, sondern erst mal nur ein ausgewählter Startknoten. Ausgehend von diesem Startknoten ist es möglich, Nachbarknoten manuell zu expandieren und der Visualisierung hinzuzufügen. Die Auswahl der Knoten wird dabei den Nutzer*innen überlassen und findet mit Hilfe eines Knoten-basierten Menüs statt, in dem Nachbarknoten nach Kategorien ausgewählt werden können. Für die Umsetzung dieser Ego-Graph-basierten Exploration wurden mehrere verwandte Arbeiten untersucht, die eine ähnliche Herangehensweise vorgestellt haben. Daraus wurde dann experimentell ein eigener webbasierter Prototyp entworfen.
  • Thumbnail Image
    ItemOpen Access
    Interaktives Raytracing auf CPUs für hochauflösende Remote-Displays
    (2021) Wolf, Benjamin
    In dieser Arbeit wird untersucht, ob die detaillierte Visualisierung von wissenschaftlichen Datensätzen auf hochauflösenden, gekachelten Anzeigen in Echtzeit realisierbar ist. Dafür wird ein System zur Anzeige von großen Datensätzen, die mittels CPU-basiertem Raytracing gerendert wurden, implementiert und vorgestellt. Damit das vorliegende System auch auf großen, hochauflösenden Displays interaktiv genutzt werden kann, wird Foveated Rendering eingesetzt. Hierbei werden die nicht-uniformen Eigenschaften der menschlichen Netzhaut nachgeahmt, um die Anzahl der benötigten Strahlen für das Raytracing zu reduzieren und dadurch Rechenaufwand zu sparen. Häufig wird für das CPU-basierte Raytracing ein separates Cluster benötigt, welches sich nicht notwendigerweise am selben Ort wie das Display befindet. Aus diesem Grund werden gerenderte Frames über eine Netzwerkverbindung an den Remote-Standort übertragen. Um die benötigte Bandbreite möglichst gering zu halten, werden die Bilddaten vor der Übertragung mit geeigneten Methoden der Videocodierung encodiert. Im Vergleich zu vollständigem Raytracing kann die Bildfrequenz um etwa 50 \% gesteigert werden. Dadurch ist selbst auf hochauflösenden, gekachelten Anzeigen eine Darstellung nahezu in Echtzeit möglich.