Deep reinforcement learning in dialog systems

Väth, Dirk

Deep reinforcement learning in dialog systems

Files

dirk_thesis.pdf (1006.57 KB)

Date

2018

Authors

Väth, Dirk

Abstract

This thesis explores advanced deep reinforcement learning methods for learning dialog policies. While many recent contributions in the area of reinforcement learning focus on learning how to play Atari games, this thesis applies them in a real-world scenario. When talking to a dialog system, the dialog policy is the component which chooses the response based on the history of the interaction between user and system. Nowadays, dialog policies may be learned automatically by training a reinforcement learning agent with a user simulator. In this thesis, a baseline method for dialog policy learning is implemented and extended by various state-of-the art deep reinforcement learning methods. An ablation study discusses the significance of each extension, highlighting beneficial and harmful additions. Each extended agent is shown to perform better than the baseline method with all agents outperforming policies from an existing benchmark. Two agents even prove to be on par with handcrafted dialog policies. Along with the quantitative evaluation, qualitative results are provided in the form of chats between a user and a trained agent.

Die vorliegende Masterarbeit untersucht fortgeschrittene Deep Reinforcement Learning Techniken zum Erlernen von Dialogstrategien. Während viele jüngst veröffentlichte Beiträge im Bereich Reinforcement Learning auf das Erlernen von Atari-Spielen fokussiert sind, werden sie hier auf ein realistisches Szenario angewendet. Spricht man mit einem Dialogsystem, ist die Dialogstrategie verantwortlich für die Auswahl der Antwort, basierend auf dem bisherigen Konversationsverlauf. Heutzutage können Dialogstrategien automatisiert erlernt werden, indem ein Reinforcement Learning Agent mit einem simulierten Nutzer trainiert wird. In dieser Arbeit wird eine Basismethode implementiert und mit verschiedenen aktuellen Reinforcement Learning Methoden erweitert. Durch das anschließende Entfernen einzelner Methoden wird deren individueller positiver oder negativer Einfluss diskutiert. Es wird gezeigt, dass jeder erweiterte Agent bessere Ergebnisse erzielt als die Basismethode und auch bereits existierende Benchmarks schlägt. Zwei Agenten erzielen sogar Ergebnisse, die manuell erzeugten Strategien ebenbürtig sind. Zusammen mit der quantitativen Evaluation werden auch qualitative Ergebnisse in Form von aufgezeichneten Dialogen zwischen einem echten Nutzer und trainierten Agenten vorgestellt.

URI

http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-102214
http://elib.uni-stuttgart.de/handle/11682/10221
http://dx.doi.org/10.18419/opus-10204

Collections

05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Full item page

Deep reinforcement learning in dialog systems

Files

Date

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Keywords

Citation

URI

Collections

Endorsement

Review

Supplemented By

Referenced By