Please use this identifier to cite or link to this item: http://dx.doi.org/10.18419/opus-10464
Authors: Bao, Fang
Title: Improving speech emotion recognition via generative adversarial networks
Issue Date: 2019
metadata.ubs.publikation.typ: Abschlussarbeit (Master)
metadata.ubs.publikation.seiten: 53
URI: http://elib.uni-stuttgart.de/handle/11682/10481
http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-104813
http://dx.doi.org/10.18419/opus-10464
Abstract: Speech emotion recognition (SER) is a significant research topic in human-computer interaction. One of the major problems in SER is data scarcity. This master’s thesis aims to investigate a novel data augmentation method based on cycle consistent adversarial networks (CycleGANs). It transfers feature vectors extracted from a unlabeled speech corpus into the domains of target emotions. Furthermore, the CycleGAN framework is extended with a classification loss which improves the discriminability between the generated data. The quality of the synthetic data is evaluated on both within-corpus and cross-corpus experiments of SER. Both show an improvement of classification performance with augmented data. Additionally, two meaningful problems met in our training process are discussed and analyzed.
Sprachliche Emotionserkennung (SER) ist ein bedeutendes Forschungsthema in der Menschen-Computer-Interaktion. Eines der Hauptprobleme der SER ist der Mangel an Daten. Ziel dieser Masterarbeit ist es, eine neue Methode für Datenergänzung zu untersuchen, die auf CycleGANs (cycle consistent adversarial networks) beruht. Mit dieser Methode werden die Merkmalsvektoren, die vom unannotierten Sprachkorpus extrahiert sind, in die Domänen der Zielemotionen übertragen. Darüber hinaus wird das CycleGAN-Framework mit einem Klassifizierungsverlust erweitert, damit sich die generierten Daten leichter voneinander unterscheiden lassen. Die Qualität der synthetischen Daten wird durch Experimente innerhalb eines Korpus und korpusübergreifend evaluiert. Die beiden Experimente zeigen eine Verbesserung der Klassifizierungsergebnisse wenn die synthetischen Daten ergänzt werden. Zusätzlich werden zwei im Trainingsprozess auftretende Probleme diskutiert und analysiert.
Appears in Collections:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Files in This Item:
File Description SizeFormat 
master_thesis.pdf2,3 MBAdobe PDFView/Open


Items in OPUS are protected by copyright, with all rights reserved, unless otherwise indicated.