Explainable question answering beyond F1: metrics, models and human evaluation

Schuff, Hendrik

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-11224

Autor(en):	Schuff, Hendrik
Titel:	Explainable question answering beyond F1: metrics, models and human evaluation
Erscheinungsdatum:	2020
Dokumentart:	Abschlussarbeit (Master)
Seiten:	vii, 109
URI:	http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-112416 http://elib.uni-stuttgart.de/handle/11682/11241 http://dx.doi.org/10.18419/opus-11224
Zusammenfassung:	Explainable question answering systems not only predict an answer, but also provide an explanation why it has been selected. Current work predominantly focuses on the evaluation and development of new models around established metrics such as F1. We argue that this constitutes a distorted incentive and limits the exploration of explainability methods as the ultimate measure of performance should not be F1 but the value that the system adds for a human. In this thesis, we analyze two baseline models trained on the HotpotQA data set, which provides explanations in the form of a selection of supporting facts from Wikipedia articles. We identify two weaknesses: (i) the models predict facts to be irrelevant but still include them into their answer and (ii) the models do not use facts for answering the question although they report them to be relevant. Based on these shortcomings, we propose two methods to quantify how strongly a system's answer is coupled to its explanation based on (i) how robust the system's answer prediction is against the removal of facts it predicts to be (ir)relevant and (ii) the location of the answer span. In order to address the identified weaknesses, we present (i) a novel neural network architecture that guarantees that no facts which are predicted to be irrelevant are used in the answer prediction, (ii) a post-hoc heuristic that reduces the number of unused facts and (iii) a regularization term that explicitly couples the prediction of answer and explanation. We show that our methods improve performance on our proposed metrics and assess them within an online study. Even though our methods only reach slight improvements on standard metrics, they all improve various human measures such as decision correctness and certainty, supporting our claim that F1 alone is not suited to evaluate explainability. The regularized model even surpasses the ground truth condition regarding helpfulness and certainty. We analyze how strongly different metrics are linked to human measures and find that our metrics outperform all evaluated standard metrics, suggesting they provide a valuable addition to automatized explainability evaluation. Erklärbare Systeme zur automatischen Beantwortung von Fragen bieten Nutzern über die Antwort hinaus auch eine Erklärung warum diese ausgewählt wurde. Die gegenwärtige Forschung fokussiert sich bei der Evaluation und der Entwicklung neuer Systeme hierbei vorwiegend auf etablierte Metriken wie F1. Wir behaupten, dass dies einen falschen Anreiz setzt und die Entdeckung neuer Methoden einschränkt, da ein System schlussendlich nicht mit einer Metrik wie F1, sondern nach seinem Mehrwert für dessen Nutzer bewertet werden sollte. In dieser Masterarbeit analysieren wir zwei auf dem HotpotQA Datensatz trainierte Modelle. Dieser Datensatz enthält zu jeder Antwort eine Erklärung in Form einer Auswahl an Sätzen aus Wikipedia. Wir identifizieren zwei Modellschwächen: (i) die Modelle markieren Sätze nicht als relevant und verwenden diese trotzdem für ihre Antwort und (ii) die Modelle verwenden Sätze, die sie als relevant markieren, nicht für ihre Antwort. Basierend auf dieser Beobachtung führen wir zwei Methoden zur Quantifizierung der Kopplung zwischen der Antwort und der Erklärung eines Systems ein. Diese basieren auf (i) der Robustheit der Antwortvorhersage gegenüber der Entfernung von als (ir)relevant markierten Sätzen und (ii) der Antwortposition. Bezüglich der festgestellten Modellschwächen präsentieren wir (i) eine neuronale Netzwerkarchitektur, die garantiert, dass als irrelevant gekennzeichtnete Sätze nicht in der Antwortvorhersage verwendet werden, (ii) eine Heuristik zur nachträglichen Entfernung nichtbenutzer Sätze aus der Erklärung und (iii) einen Regularisationsterm zur expliziten Kopplung von Antwort und Erklärung. Wir zeigen, dass unsere Ansätze die Leistung der Modelle bezüglich unserer Metriken verbessern und evaluieren die Modelle zusätzlich im Rahmen einer Onlinestudie. Obwohl alle unserer Methoden nur zu leichten Verbesserungen der Standardmetriken führen, stellen wir für alle unsere Modelle eine Verbesserung des Nutzerverhaltens bzgl. dem Anteil korrekter Modelleinschätzungen und der Entscheidungssicherheit fest. Eines unserer Modelle erreicht sogar höhere wahrgenommene Nützlichkeits- und Entscheidungssicherheitswerte als die im Datensatz als ideal annotierten Antworten und Erklärungen. Über dies hinaus analysieren wir wie stark die in der Studie gemessenen Werte mit verschiedenen Modellmetriken zusammenhängen und stellen einen stärkeren Zusammenhang zu unseren Metriken als zu allen anderen ausgewerteten Metriken fest. Dies legt nahe, dass unsere Metriken einen zusätzlichen Nutzen in der automatischen Evaluation von Erklärbarkeit bieten.
Enthalten in den Sammlungen:	05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:

Datei	Beschreibung	Größe	Format
Schuff_Masterarbeit.pdf		2,01 MB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige

Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.

Universität Stuttgart

OPUS - Online Publikationen der Universität Stuttgart