05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Permanent URI for this collectionhttps://elib.uni-stuttgart.de/handle/11682/6

Browse

Search Results

Now showing 1 - 10 of 99
  • Thumbnail Image
    ItemOpen Access
    Interactive visualizations for multivariate weather data on smartwatches
    (2024) Rohwer, Jakob Moritz
    Der Markt für Smartwatches wächst schnell und birgt viel Potenzial. Doch der kleine Bildschirm der Geräte stellt Entwickler vor neue Herausforderungen, wenn es um Visualisierung geht. Das gilt insbesondere für komplexere Darstellungen. Für Wetterdaten gibt es viele komplexere Möglichkeiten der Visualisierung, sei es der Temperaturverlauf dargestellt als Diagramm oder die Luftfeuchtigkeit als Fortschrittsanzeige. In dieser Arbeit wird die neue Wetterapplikation WeDaVis vorgestellt, welche neue Arten der Visualisierung für Wetterdaten benutzt. Wie die Ergebnisse unserer Studie gezeigt haben, präferierten die Teilnehmer keine bestimmte Art der Datenrepräsentation, sondern stattdessen hingen die Präferenzen von der Art der Wetterinformation ab. Teilnehmer präferierten die Visualisierungen von WeDaVis bei eher ungewöhnlicheren Daten, wie zum Beispiel der Windstärke oder dem Luftdruck. Textbasierte Darstellungen wurden präferiert, wenn es um bekanntere Informationen, wie die Temperatur, ging. Weitere Ergebnisse der Studie zeigten, dass Möglichkeiten der Interaktion visualisiert werden sollten, denn sonst hatten die Teilnehmer Probleme, diese wahrzunehmen. Da sich die Interessen der Teilnehmer für verschiedene Wetterinformationen unterschieden, sollten Applikationen dementsprechend anpassbar sein, und sollten ungefähr sechs Datenrepräsentationen auf einem Bildschirm anzeigen. Da das Forschungsgebiet der Wetterinformationen relativ neu ist, strebte dieses Projekt an, zu dieser Forschung beizutragen, indem wir versucht haben, eine möglichst effiziente Wetterapplikation zu entwickeln, die auf die Benutzung auf der Smartwatch abgestimmt ist.
  • Thumbnail Image
    ItemOpen Access
    Visuelle Unterstützung bei der Planung der Bildentwicklung in Lateinformationschoreografien
    (2023) Schmierer, Fabian
    Das Gebiet der Visualisierung von Teamsportdaten wächst in den letzten Jahren stetig. Grund dafür sind die steigende Popularität und Kommerzialisierung von Sportarten wie Fußball. Für Randsportarten existieren indes jedoch kaum digitale Lösungen. Eine dieser Sportarten ist der Lateinformationstanz. In dieser Arbeit soll deswegen ein digitales Werkzeug entwickelt werden, mit dem Choreografien für Lateinformationen erstellt, analysiert und mit den Tänzern kommuniziert werden können. Der Fokus liegt hierbei insbesondere auf der Erstellung von Bildern einer Choreografie und der Bildentwicklung. Dieser Prozess wird bisher nur von einfachen Programmen unterstützt, mit welchen man die Positionen der Tänzer in einem Koordinatensystem einzeichnet und dies dann in einer 2D- oder 3D-Ansicht betrachtet. In Zusammenarbeit mit drei Formationstrainern wurden deshalb Anforderungen erhoben, die ein Programm zur Bildentwicklung erfüllen sollte. Anschließend wurden die Anforderungen in einem webbasierten Prototypen implementiert. Der Prototyp wurde daraufhin in einer qualitativen Studie mit vier Domänenexperten evaluiert. Hierbei stellte sich heraus, dass Choreografien mit dem Prototyp ohne großen Aufwand editiert und analysiert werden können. Als positive Merkmale wurden insbesondere die gewählten visuellen Kodierungen und die Möglichkeiten zur Analyse der Choreografie von den Teilnehmern hervorgehoben. Die Spezifikation von Bildübergängen, das visuelle Erkennen von Kollisionen und die Erstellung von Posen im 3D-Modus wurden ebenfalls gelobt. Jedoch brauchen diese Funktionen Überarbeitungen im Bereich des Interaktionsdesigns. Eine Zeitleiste, bestehend aus Takten mit jeweils acht Schlägen, in der die zeitliche Verordnung der Bilder eingetragen ist, wurde als zu vereinfacht bezeichnet. Basierend auf dem Feedback wurden abschließend neun Designrichtlinien herausgearbeitet, welche für digitale Werkzeuge zur Bildentwicklung angewandt werden können.
  • Thumbnail Image
    ItemOpen Access
    Stationary vehicle classification based on scene understanding
    (2024) Wang, Weitian
    Navigating through dense traffic situations like merging onto highways and making unprotected left turns remains a challenge for the existing autonomous driving system. Classifying vehicles into parked, stopped, and moving vehicles can benefit the decision-making system in this case because they play different roles during the vehicle-to-vehicle negotiation process. Existing works in vehicle classification focused on trivial cases and used methods that are not generalized enough. To fill this gap, after analyzing this problem and summarizing the necessary information needed for this problem, we propose a multi-modal model that can leverage information from lidar, radar, camera, and high-definition maps. To meet the complexity of our task and the needs of our model, we collect the dataset in real driving scenario and then preprocess and label it. By utilizing a pretrained vision encoder for fine-grained visual feature extraction and vision foundation model (CLIP) for scene understanding, our model achieves a 97.63% test accuracy on our dataset. Through visualization methods, experiments, and quantitative analyses, we investigate the effectiveness and importance of different encoders used in our model. We interpret and explain the successes and failures of our model to give a better understanding of how different latent features contribute to the final result. In the end, the limitations of our model and potential improvements are discussed.
  • Thumbnail Image
    ItemOpen Access
    VisRecall++: analysing and predicting visualisation recallability from gaze behaviour
    (2024) Wang, Yao; Jiang, Yue; Hu, Zhiming; Ruhdorfer, Constantin; Bâce, Mihai; Bulling, Andreas
    Question answering has recently been proposed as a promising means to assess the recallability of information visualisations. However, prior works are yet to study the link between visually encoding a visualisation in memory and recall performance. To fill this gap, we propose VisRecall++ - a novel 40-participant recallability dataset that contains gaze data on 200 visualisations and five question types, such as identifying the title, and finding extreme values.We measured recallability by asking participants questions after they observed the visualisation for 10 seconds.Our analyses reveal several insights, such as saccade amplitude, number of fixations, and fixation duration significantly differ between high and low recallability groups.Finally, we propose GazeRecallNet - a novel computational method to predict recallability from gaze behaviour that outperforms several baselines on this task.Taken together, our results shed light on assessing recallability from gaze behaviour and inform future work on recallability-based visualisation optimisation.
  • Thumbnail Image
    ItemOpen Access
    Leveraging large language models for latent intention recognition and next action prediction
    (2024) Ahmed, Mohamed
    Autonomous agents that operate within graphical user interfaces (GUIs) have a significant potential to improve user experience. To achieve this, such agents must be customized and proactive. Understanding user intentions through their interactions and engagements with GUIs enables these agents to better fulfill user needs. This work introduces a novel LLM-based framework, Mistral-Intention, that accurately recognizes latent user intentions from their interactions. A key innovation is the integration of a sub-goal generation step, using prompt engineering to decompose user tasks into actionable steps, enhancing the model's interpretative capabilities and extendability. Furthermore, the incorporation of a keyword extraction-based loss significantly refines the model's focus on critical information of user actions such as typed values, ensuring comprehensive and relevant intention recognition. We evaluate Mistral-Intention using a range of metrics, including manual metrics and automatic methods based on GPT-4o, against a modified version of the state-of-the-art task automation framework, namely SYNAPSE. Results from extensive testing on the MIND2WEB and MoTIF datasets highlight Mistral-Intention's superior performance in intention recognition across various GUI environments. Furthermore, we implement an LLM-based computer agent capable of predicting the user's next action. We have addressed the challenges faced while developing such agents, such as the limited context window, and understanding the current GUI environment. Our LLM-based agent exhibits an improvement of 15.30% in the element accuracy and 13.20% in operation F1 over the previous state-of-the-art method in MindAct on MIND2WEB. Our work not only pushes the boundaries of computational HCI but also opens new pathways for developing more intuitive and effective user-center interaction solutions.
  • Thumbnail Image
    ItemOpen Access
    Augmented reality to improve electroencephalography (EEG) cap preparation
    (2024) Bocksch, Yannik
    EEG (Electroencephalography) cap preparation requires a significant amount of time before actual measurements can be performed. It takes even longer for EEG caps that need some form of conductive gel or saltwater to decrease contact impedance between the electrodes and the scalp. In this thesis, several methods for detecting electrodes in a camera image and identifying detected electrodes are developed and evaluated for performance and reliability. Additionally, an application is developed that leverages augmented reality to visualize important values, like the impedance of electrodes, directly in the view of the operator. The proposed application runs on the Microsoft Hololens 2 that is used by the operator to overlay a visualization of impedance values of the electrodes over the electrodes themselves, which lets the operator see those values immediately. This reduces the time required to look at a separate device that shows impedance values and locate electrodes on the cap that require additional preparation. However, the identification of electrodes from the camera image does not work reliably enough with the proposed methods, and several ArUco markers, placed in predefined locations on the EEG cap, are used for aligning the virtual representation of the electrodes with the real electrodes.
  • Thumbnail Image
    ItemOpen Access
    Visueller Vergleich von Tänzer-Trajektorien in Lateinformationschoreographien
    (2023) Riedlinger, Alexander
    In der Welt des Sports hat die Visualisierung von Mannschaftssportdaten in den letzten Jahren zunehmend an Bedeutung gewonnen. Grund dafür ist die zunehmende Popularität und Kommerzialisierung des Sports. Fast 1,5 Milliarden fußballinteressierte verfolgten im vergangenen Winter das Finale der Fußballweltmeisterschaft in Katar 1. Sport erlebt eine nie dagewesene Relevanz. Sportvisualisierungen finden im Sport ein breites Publikum und werden in der privaten Analyse am Stammtisch ebenso eingesetzt wie im Training durch das Trainerteam. Im Lateinformationstanz ist diese Form der Analyse jedoch noch unterentwickelt und es gibt kaum Lösungen für den Vergleich der Trajektorien einer Tanzformation. Ziel dieser Arbeit ist es, ein Werkzeug zur visuellen Vergleichsanalyse von Tänzer-Trajektorien in Lateinformationschoreographien zu entwickeln. Damit sollen Trainerinnen und Trainer unterstützt werden, Abweichungen von definierten Positionen innerhalb der Formationsbilder und Asynchronität der getanzten Choreographie schnell zu erkennen, um die Leistung der Tänzerinnen und Tänzer gezielt zu verbessern. In Zusammenarbeit mit Formationstrainerinnen und -trainern wird ein dreistufiger Prozess zur Extraktion, Transformation und Visualisierung von Trajektorien in einem webbasierten Prototyp entwickelt. Die verwendeten Visualisierungen und die Benutzbarkeit des Prototyps wurden in einer Anwendungsfallanalyse untersucht und die Grenzen und Herausforderungen dieses Ansatzes diskutiert. Die Ergebnisse sollen nicht nur als Grundlage für weitere Forschung dienen, sondern auch die Wahrnehmung und Entwicklung des Lateinformationstanzes fördern.
  • Thumbnail Image
    ItemOpen Access
    Ego-Graph-basierte visuelle Exploration semantischer Wissensgraphen
    (2022) Gruhnert, Jan Robert
    Wissensgraphen erfreuen sich in der Forschung großer Beliebtheit, da sie Weltwissen repräsentieren. Um diese riesigen Strukturen für den Menschen verständlich aufzubereiten ist ein weit verbreiteter Ansatz, der des Knoten-Kanten Diagramms. Diese Diagramme werden häufig durch kräfte-basierte Layoutalgorithmen generiert. Ein Nachteil dabei, ist die zunehmende Unübersichtlichkeit des Diagramms, bei immer größer werdenden Graphen. Dabei gibt es durchaus Szenarien, in denen man nicht am gesamten Graphen interessiert ist, sondern nur an einzelnen Knoten und deren Nachbarn. In dieser Arbeit wird ein inkrementelles Verfahren vorgestellt, in welchem nicht der gesamte Graph visualisiert wird, sondern erst mal nur ein ausgewählter Startknoten. Ausgehend von diesem Startknoten ist es möglich, Nachbarknoten manuell zu expandieren und der Visualisierung hinzuzufügen. Die Auswahl der Knoten wird dabei den Nutzer*innen überlassen und findet mit Hilfe eines Knoten-basierten Menüs statt, in dem Nachbarknoten nach Kategorien ausgewählt werden können. Für die Umsetzung dieser Ego-Graph-basierten Exploration wurden mehrere verwandte Arbeiten untersucht, die eine ähnliche Herangehensweise vorgestellt haben. Daraus wurde dann experimentell ein eigener webbasierter Prototyp entworfen.
  • Thumbnail Image
    ItemOpen Access
    Disentangled face embeddings
    (2023) Linder, Michael
    Im Bereich der Gesichtserkennung werden in modernen Modellen zur Gesichtserkennung so genannte Embeddings verwendet. Diese Embeddings sind eine Abbildung eines Bildes eines Gesichts in einen Vektor. Diese Vektoren können durch eine Abstandsmessung leicht miteinander verglichen werden. Anstatt das gesamte Gesicht einzubetten, werden in dieser Arbeit die Möglichkeit untersucht, einzelne Gesichtsmerkmale separat einzubetten und mit ihnen neuronale Netze zu trainieren. Jedes ausgewählte Gesichtsmerkmal wird auf einem separaten neuronalen Netz trainiert und erhält somit ein seperates Embedding. Die Ergebnisse der Genauigkeit der Gesichtserkennung können verglichen werden und analysiert werden. Um Ähnlichkeiten in unterschiedlichen Gesichtern zu finden, wird eine Nutzerstudie durchgeführt, die die Leistungsfähigkeit des vorgeschlagenen Modells testet. Die Ergebnisse dieser Bachelorarbeit kann als Grundlage für zukünftige Arbeiten dienen und zeigt, was verbessert werden kann.
  • Thumbnail Image
    ItemOpen Access
    Gaze estimation error prediction of information visualizations
    (2024) Zeng, Sichun
    As eye-tracking technology gains prominent attention in Information Visualizations (InfoVis) research, the need for high accuracy and precision in eye-tracking data becomes increasingly critical. Gaze estimation error is a concept used in eye-tracking, that refers to the difference between the estimated and the true gaze position and direction. Unlike interactions involving physical contact, the visual focus can only be determined through estimation, making gaze estimation errors inevitable. To minimize these errors, calibration is typically performed, where users are asked to look at five or more points on the screen to establish baseline data for ground truth. All following eye-tracking experiments are then based on this calibration data. However, there are situations where calibration is not practical, such as in some remote or online studies or during dynamic activities, where the calibration process cannot be reliably controlled. To address this limitation, this paper proposes VisCaiNet, a deep-learning model that predicts gaze estimation error through post-hoc analysis, using duration, scanpath, scanpath length, and Hit Any AOI Rate (HAAR) as input features, with calibration error as the output. It can effectively discern between high and low-quality gaze data based on the predefined calibration criteria, offering a solution to the challenges posed by variable conditions and unfeasible calibration situations.