Spatiotemporal fusion of nonverbal voice & eye gaze for human-computer interactions

dc.contributor.advisorStaab, Steffen (Prof. Dr.)
dc.contributor.authorHedeshy, Ramin
dc.date.accessioned2025-11-03T14:38:35Z
dc.date.issued2025
dc.description.abstractThis dissertation explores the novel concept of hands-free interaction through nonverbal voice expressions (NVVEs) and eye gaze, with a particular focus on core aspects of human computer interaction, text entry and point-and-click. The benefits of this research are principally notable for individuals dealing with physical disabilities or challenges related to speech, offering them a more intuitive and inclusive way to interact with the digital world. Moreover, it could also be applicable in settings where dictation suffers from poor voice recognition or where spoken words and sentences jeopardize privacy or confidentiality. We introduce two innovative hands-free text entry methods by analyzing temporally constrained gaze paths accompanied by simple touch or auditory signals from nonverbal vocalizations such as humming. Experimental evaluations demonstrate that these methods outperform the traditional eye gaze typing techniques in terms of speed, accuracy, and overall user satisfaction. The dissertation further extends this approach to create an intuitive control mechanism for point-and-click systems within a gaming application using NVVEs synchronized with eye gaze. A representative interface "All Birds Must Fly" was developed to validate the technique among people without disabilities as well as those who are physically challenged; results indicate not only effective game environment control but also enhanced engagement level compared to conventional mouse and keyboard setup. To overcome the limitations of using NVVEs such as limited availability of suitable training data and computational methods for classifying such expressions in noisy environment that has constrained the exploration of this technique to a focus on simple binary inputs, a dataset was collected which has been made publicly accessible. We provide a Convolutional Neural Network (CNN) model with a test accuracy of 96.6% in a 5-fold cross-validation that can classify 6 type of expressions.en
dc.description.abstractDiese Dissertation beschäftigt sich mit dem neuartigen Konzept der freihändigen Interaktion durch nonverbale Sprachausdrücke (NVVEs) und Augenbewegungen, mit besonderem Augenmerk auf Kernaspekte der menschlichen Computerinteraktion, der Texteingabe und des Zeigen-und-Klicken. Die Erkenntnisse aus dieser Forschung sind vor allem für Menschen mit körperlichen Behinderungen oder Sprachproblemen von Vorteil, da sie ihnen eine intuitivere und integrativere Art der Interaktion mit der digitalen Welt bieten. Darüber hinaus ist der Ansatz auch in Umgebungen anwendbar, in denen die Spracherkennung eingeschränkt ist oder in denen gesprochene Wörter und Sätze die Privatsphäre oder Vertraulichkeit gefährden. Wir stellen zwei innovative freihändige Texteingabemethoden vor, die zeitabhängige Blickpfade analysieren, welche von Berührung oder auditiven Signalen aus nonverbalen Äußerungen wie Summen begleitet werden. Experimentelle Auswertungen zeigen, dass diese Methoden die traditionellen Blickeingabetechniken in Bezug auf Geschwindigkeit, Genauigkeit und allgemeine Benutzerzufriedenheit übertreffen. Die Dissertation erweitert diesen Ansatz, indem sie einen intuitiven Kontrollmechanismus für Zeigen-und-Klicken-Systeme innerhalb einer Spielanwendung unter Verwendung von NVVEs wie z.B. Brummen synchron zum Blick einführt. Eine repräsentative Benutzeroberfläche "All Birds Must Fly" wurde entwickelt, um die Technik sowohl bei Menschen ohne Behinderung als auch bei körperlich eingeschränkten Personen zu validieren; die Ergebnisse zeigen nicht nur eine effektive Steuerung der Spielumgebung, sondern auch ein höheres Maß an Engagement im Vergleich zu herkömmlichen Maus- und Tastatureinstellungen. Um die Einschränkungen bei der Verwendung von NVVEs zu überwinden, wie z. B. die begrenzte Verfügbarkeit geeigneter Trainingsdaten und Berechnungsmethoden für die Klassifizierung solcher Ausdrücke in einer störungsbehafteten Umgebung, die die Erforschung dieser Technik bisher auf einfache binäre Eingaben beschränkt hat, wurde ein Datensatz gesammelt, der öffentlich zugänglich gemacht wurde. Wir stellen ein CNN-Modell mit einer Testgenauigkeit von 96,6% in einer 5-fachen Kreuzvalidierung bereit, das 6 Arten von Ausdrücken klassifizieren kann.de
dc.identifier.other1940100518
dc.identifier.urihttp://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-170800de
dc.identifier.urihttps://elib.uni-stuttgart.de/handle/11682/17080
dc.identifier.urihttps://doi.org/10.18419/opus-17061
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/openAccess
dc.subject.ddc004
dc.titleSpatiotemporal fusion of nonverbal voice & eye gaze for human-computer interactionsen
dc.title.alternativeRaumzeitliche Fusion nonverbaler Stimme und Blickverhalten für Mensch-Computer-Interaktionende
dc.typedoctoralThesis
ubs.dateAccepted2025-03-21
ubs.fakultaetInformatik, Elektrotechnik und Informationstechnik
ubs.institutInstitut für Künstliche Intelligenz
ubs.publikation.seitenxvi, 151
ubs.publikation.typDissertation
ubs.thesis.grantorInformatik, Elektrotechnik und Informationstechnik
ubs.unilizenzOK

Files

Original bundle

Now showing 1 - 1 of 1
Thumbnail Image
Name:
Dissertation_Ramin_Hedeshy.pdf
Size:
5.49 MB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
3.3 KB
Format:
Item-specific license agreed upon to submission
Description: