Improving speech emotion recognition via generative adversarial networks

Bao, Fang

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-10464

Autor(en):	Bao, Fang
Titel:	Improving speech emotion recognition via generative adversarial networks
Erscheinungsdatum:	2019
Dokumentart:	Abschlussarbeit (Master)
Seiten:	53
URI:	http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-104813 http://elib.uni-stuttgart.de/handle/11682/10481 http://dx.doi.org/10.18419/opus-10464
Zusammenfassung:	Speech emotion recognition (SER) is a significant research topic in human-computer interaction. One of the major problems in SER is data scarcity. This master’s thesis aims to investigate a novel data augmentation method based on cycle consistent adversarial networks (CycleGANs). It transfers feature vectors extracted from a unlabeled speech corpus into the domains of target emotions. Furthermore, the CycleGAN framework is extended with a classification loss which improves the discriminability between the generated data. The quality of the synthetic data is evaluated on both within-corpus and cross-corpus experiments of SER. Both show an improvement of classification performance with augmented data. Additionally, two meaningful problems met in our training process are discussed and analyzed. Sprachliche Emotionserkennung (SER) ist ein bedeutendes Forschungsthema in der Menschen-Computer-Interaktion. Eines der Hauptprobleme der SER ist der Mangel an Daten. Ziel dieser Masterarbeit ist es, eine neue Methode für Datenergänzung zu untersuchen, die auf CycleGANs (cycle consistent adversarial networks) beruht. Mit dieser Methode werden die Merkmalsvektoren, die vom unannotierten Sprachkorpus extrahiert sind, in die Domänen der Zielemotionen übertragen. Darüber hinaus wird das CycleGAN-Framework mit einem Klassifizierungsverlust erweitert, damit sich die generierten Daten leichter voneinander unterscheiden lassen. Die Qualität der synthetischen Daten wird durch Experimente innerhalb eines Korpus und korpusübergreifend evaluiert. Die beiden Experimente zeigen eine Verbesserung der Klassifizierungsergebnisse wenn die synthetischen Daten ergänzt werden. Zusätzlich werden zwei im Trainingsprozess auftretende Probleme diskutiert und analysiert.
Enthalten in den Sammlungen:	05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:

Datei	Beschreibung	Größe	Format
master_thesis.pdf		2,3 MB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige

Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.

Universität Stuttgart

OPUS - Online Publikationen der Universität Stuttgart