Please use this identifier to cite or link to this item: http://dx.doi.org/10.18419/opus-11197
Authors: Muschick, Peter
Title: Learn2Sign : sign language recognition and translation using human keypoint estimation and transformer model
Issue Date: 2020
metadata.ubs.publikation.typ: Abschlussarbeit (Master)
metadata.ubs.publikation.seiten: 85
URI: http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-112143
http://elib.uni-stuttgart.de/handle/11682/11214
http://dx.doi.org/10.18419/opus-11197
Abstract: Sign language recognition and translation has been an active research field in the recent years with most approaches using deep neural networks to extract information from sign language data. This work investigates the mostly disregarded approach of using human keypoint estimation from image and video data with OpenPose in combination with transformer network architecture. Firstly, it was shown that it is possible to recognize individual signs (4.5% word error rate (WER)). Continuous sign language recognition though was more error prone (77.3% WER) and sign language translation was not possible using the proposed methods, which might be due to low accuracy scores of human keypoint estimation by OpenPose and accompanying loss of information or insufficient capacities of the used transformer model. Results may improve with the use of datasets containing higher repetition rates of individual signs or focusing more precisely on keypoint extraction of hands.
Die Erkennung und Übersetzung von Gebärdensprachen war in den letzten Jahren ein aktives Forschungsfeld, wobei die meisten Ansätze Deep Neuronal Networks verwenden um Informationen aus Gebärdensprachendaten zu extrahieren. Diese Arbeit untersucht den meist unberücksichtigten Ansatz der Verwendung der Schätzung menschlicher Keypoints aus Bild- und Videodaten mit OpenPose in Kombination mit der Transformator-Netzwerkarchitektur. Zunächst wurde gezeigt, dass es möglich ist, einzelne Zeichen zu erkennen (4,5 % Wortfehlerrate). Die kontinuierliche Erkennung von Gebärdensprachen war jedoch fehleranfälliger (77,3% Wortfehlerrate) und die Übersetzung von Gebärdensprachen war mit den vorgeschlagenen Methoden nicht möglich. Dies könnte aufgrund von niedriger Genauigkeit der Schätzung der menschlichen Keypoints durch OpenPose und dem damit verbundenen Informationsverlust oder aufgrund von unzureichenden Kapazitäten des verwendeten Transformatormodells zurückzuführen sein. Die Ergebnisse könnten durch die Verwendung von Datensätzen mit einer höheren Wiederholungsrate einzelner Zeichen verbessert werden oder wenn Schlüsselpunktextraktionen der Hände genauer betrachten werden.
Appears in Collections:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Files in This Item:
File Description SizeFormat 
Muschick_Masterarbeit.pdf5,45 MBAdobe PDFView/Open


Items in OPUS are protected by copyright, with all rights reserved, unless otherwise indicated.