Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-14082
Autor(en): Xu, Zhenhao
Titel: Contrastive representation learning for eye contact detection
Erscheinungsdatum: 2023
Dokumentart: Abschlussarbeit (Master)
Seiten: 72
URI: http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-141018
http://elib.uni-stuttgart.de/handle/11682/14101
http://dx.doi.org/10.18419/opus-14082
Zusammenfassung: Während der Blickschätzung, die zahlreiche Methoden und Datensätze umfasst, umfangreiche Forschung gewidmet wurde, erhält die Erkennung von Augenkontakt vergleichsweise weniger Aufmerksamkeit und leidet unter einem Mangel an spezifischen Datensätzen. Trotzdem hat sie bedeutende praktische Anwendungen. Zum Beispiel kann in Fernlernsituationen die Erkennung von Augenkontakt eingesetzt werden, um zu überprüfen, ob Schüler sich auf den Bildschirm konzentrieren. Diese Technologie kann entscheidend sein, um virtuelles Engagement und Bildungseffektivität zu verbessern. Darüber hinaus stellt die Herausforderung, zwischen den Datensätzen der Blickschätzung und Augenkontakterkennung zu verallgemeinern, ein bedeutendes Problem dar, vor allem wegen ihrer unterschiedlichen Kennzeichnungsmethoden. Als Reaktion auf diese Probleme führt diese Arbeit einen neuen Ansatz für die Modellerstellung zur Erkennung von Augenkontakt ein, indem sie eine unüberwachte kontrastive Lernmethode verwendet. Diese Methode wurde wegen ihrer Fähigkeit ausgewählt, große Mengen an unbeschrifteten Daten aus Datensätzen zur Blickschätzung zu nutzen, was besonders vorteilhaft ist, angesichts des Mangels an speziellen Datensätzen zur Erkennung von Augenkontakt. In unserer Studie verwendeten wir das SimCLR kontrastive Lernmodell, das speziell für die Erkennung von Augenkontakt optimiert wurde. Diese Optimierung führte zu einer deutlichen Verbesserung des Matthews Korrelationskoeffizienten (MCC) für die Erkennung von Augenkontakt. Im Rahmen des Feinabstimmungsprozesses unseres kontrastiven Lernmodells bestand zwar weiterhin die Anforderung an einen kleinen, mit Augenkontakt-Erkennungslabels versehenen Datensatz, doch zielten wir darauf ab, die Abhängigkeit von manuell annotierten Augenkontakt-Labels vollständig zu eliminieren. Dazu nutzten wir hochmoderne Modelle zur Blickschätzung, nicht als primäre Methode, sondern als Hilfsmittel zur automatischen Generierung von Pseudo-Labels für die Augenkontakterkennung. Diese Strategie nutzt effektiv die Ausgaben der Blickschätzungsmodelle, um zuverlässige Pseudo-Labels zu erzeugen, was es unserem Augenkontakterkennungsmodell ermöglicht, unabhängig von manueller Kennzeichnung zu operieren.
While extensive research has been dedicated to gaze estimation, featuring numerous methods and datasets, eye contact detection, despite receiving comparatively less attention and marked by a scarcity of datasets, still holds significant practical applications. For instance, in remote learning scenarios, eye contact detection can be employed to ascertain whether students are focusing their attention on the screen. This technology can be instrumental in enhancing virtual engagement and educational efficacy. Moreover, the challenge in generalizing between the datasets of gaze estimation and eye contact detection, mainly due to their differing labeling approaches, poses a significant challenge. These challenges, particularly the scarcity of dedicated datasets and the difficulty in direct application of gaze estimation methods to eye contact detection, necessitate a novel approach. In response to these issues, this thesis introduces a novel approach to model construction for eye contact detection, employing an unsupervised contrastive learning method. This method was chosen for its ability to utilize large amounts of unlabeled data from gaze estimation datasets, particularly advantageous given the scarcity of dedicated eye contact detection datasets. In our study, we employed the SimCLR contrastive learning model, optimized specifically for eye contact detection. This optimization led to a significant improvement in the Matthews Correlation Coefficient (MCC) for eye contact detection, elevating it from 0.46, as achieved by Zhang et al.’s method, to 0.63 with our approach. Notably, our method achieves this enhanced performance without the need for datasets manually labeled with gaze direction or eye contact labels. This marks the pioneering application of contrastive learning to the task of eye contact detection, showcasing its efficacy in improving key performance metrics. Additionally, in the fine-tuning process of our contrastive learning model, while there was still a requirement for a small dataset labeled with eye contact detection, we sought to completely eliminate the dependency on manually annotated eye contact labels. To achieve this, we utilized state-of-the-art gaze estimation models, not as the primary method, but as an auxiliary tool to automatically generate pseudo-labels for eye contact detection. This strategy effectively leverages the outputs of the gaze estimation models to produce reliable pseudo-labels, allowing our eye contact detection model to operate independently of manual labeling.
Enthalten in den Sammlungen:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
msc2023_ZhenhaoXu_final_paper.pdf2,61 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.