Please use this identifier to cite or link to this item: http://dx.doi.org/10.18419/opus-11702
Full metadata record
DC FieldValueLanguage
dc.contributor.authorReich, Kevin-
dc.date.accessioned2021-10-04T14:35:57Z-
dc.date.available2021-10-04T14:35:57Z-
dc.date.issued2021de
dc.identifier.other1772751057-
dc.identifier.urihttp://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-117196de
dc.identifier.urihttp://elib.uni-stuttgart.de/handle/11682/11719-
dc.identifier.urihttp://dx.doi.org/10.18419/opus-11702-
dc.description.abstractWith the technological advance in speech synthesis methods, it has become apparent that attackers can abuse this technology to launch fake speech attacks in a number of ways: faking the voice of a supervisor to order an employer to make money transfers, spreading fake news and propaganda or spoofing automatic speaker verification (ASV) systems. Thus, it has become important to detect whether speech is genuine or artificially created. A small scale study contained in this thesis indicates that humans do not solve this problem trivially and therefore will need the help of automatic counter measure (CM) systems. The most successful automatic approaches use neural networks to solve the problem. In our work, we analyzed the decision making process of neural CM systems and used that insight to improve the performance of the best network we observed. Our work was done on the ASVspoof 2019 dataset as it was the only popular fake speech dataset in use when we started our work. First, we showed that using spectrogram images as input is a legitimate way to solve the task of fake speech detection. This allowed us to use image classification models and the post hoc analysis method Score-CAM. Among the multiple image classification models we tested, EfficientNet-B3 achieved the best scores. Our post hoc analysis for the EfficientNet revealed that it uses background noise and features in the lower frequencies to distinguish between real and fake speech samples. We used that insight in two follow-up experiments to improve the models performance by 28.7% and 30.25% respectively. The model from the second follow up experiment is the fifth best non-ensemble model for the ASVspoof 2019 LA dataset up to date. This highlights the importance of understanding what neural networks are actually doing since it can be used to optimize their performance significantly.en
dc.description.abstractMit dem technologischen Fortschritt im Bereich der Sprachsynthese wurde offensichtlich, dass Angreifer diese Technologie auf verschiedenste Weise missbrauchen können. Mögliche Beispiele dafür sind Imitation der Stimme des Vorgesetzten, um Transaktionen anzuordnen, die Erzeugung von Fake News und Propaganda, oder Angriffe um Spracherkennungssysteme auszutricksen. Aus diesem Grund ist es wichtig erkennen zu können, ob Sprache echt oder künstlich erzeugt wurde. Als Teil dieser Masterarbeit haben wir in einer kleinen Studie festgestellt, dass Menschen dieses Problem nicht trivial lösen und desshalb die Hilfe von automatischen Erkennungssystemen benötigen. Die erfolgreichsten automatischen Erkennungssysteme nutzen neuronale Netze, um das Problem zu lösen. In unserer Arbeit haben wir uns dazu entschieden, den Entscheidungsprozess von neuronalen Erkennungssystem zu analysieren, und konnten die Erkenntnisse nutzen, um das beste betrachtete System zu verbessern. Wir haben unsere Experimente auf dem ASVspoof 2019 Datensatz durchgeführt, da es der populärste Datensatz zu Beginn unserer Arbeit war. Als erstes konnten wir zeigen, dass es ohne Verlust von Erkennungsleistung möglich ist, Spektrogrammkoeffizienten durch Spektrogrammbilder als Eingabe zu ersetzen, um das Problem der Erkennung von künstlicher Sprache zu lösen. Dadurch konnten wir Bildklassifizierungsnetzwerke und die Post-hoc-Analyse Methode Score-CAM nutzen. Beim Vergleichen mehrerer Bildklassifizierungsnetzwerke hat sich EfficientNet-B3 als das beste Model herausgestellt. Unsere Post-hoc-Analyse des EfficientNet brachte zu Tage, dass sowohl Hintergrundgeräusche als auch Features in den niedrigen Frequenzen relevant für die Unterscheidung zwischen echter und künstlicher Sprache sind. Diese Erkentniss konnten wir in zwei Follow-Up-Experimenten nutzen, um die Fehlerrate des EfficientNet um 28.7% und um 30.25% zu senken. Damit haben wir das momentan fünftbeste Model für den ASVspoof-2019-Datensatz trainiert, welches kein Ensemble aus mehreren Netzwerken ist.de
dc.language.isoende
dc.rightsinfo:eu-repo/semantics/openAccessde
dc.subject.ddc004de
dc.titleOptimizing neural fake speech detection using post hoc analysisen
dc.typemasterThesisde
ubs.fakultaetInformatik, Elektrotechnik und Informationstechnikde
ubs.institutInstitut für Maschinelle Sprachverarbeitungde
ubs.publikation.seiten76de
ubs.publikation.typAbschlussarbeit (Master)de
Appears in Collections:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Files in This Item:
File Description SizeFormat 
Reich_Master Thesis.pdf11,47 MBAdobe PDFView/Open


Items in OPUS are protected by copyright, with all rights reserved, unless otherwise indicated.