Effective active learning for complex natural language processing tasks

Laws, Florian

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-3009

Autor(en):	Laws, Florian
Titel:	Effective active learning for complex natural language processing tasks
Sonstige Titel:	Aktives Lernen für komplexe Aufgaben der Maschinellen Sprachverarbeitung
Erscheinungsdatum:	2013
Dokumentart:	Dissertation
URI:	http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-80769 http://elib.uni-stuttgart.de/handle/11682/3026 http://dx.doi.org/10.18419/opus-3009
Zusammenfassung:	Supervised machine learning is a widely used approach to natural language processing tasks. However, supervised learning needs large amounts of labeled training data, which needs to be annotated in a time-consuming and expensive process. Active learning is a strategy to reduce this annotation effort by setting up an interactive process in which the machine learning system iteratively selects data for annotation. By selecting only data that the system considers informative, this strategy promises a significant reduction of data that is needed for training. In this thesis, we investigate the application of active learning to key natural language processing tasks. We investigate selection strategies for “informative” training examples for two key NLP tasks: named entity recognition and coreference resolution. We show that active learning can deliver a large reduction in annotation effort for these NLP tasks. However, in cases of unfortunate initialization, active learning can suffer from slow learning progress on infrequent classes: the missed cluster effect. We show that active learning can be made resilient against this phenomenon by co-selecting examples that occur together in a natural context (e.g. a sentence). We also apply this strategy to selection of examples for coreference annotation and could demonstrate for the first time a successful active learning approach to coreference resolution. We also monitor training progress during data annotation. We investigate a method to estimate performance without additional labeled test data. While this method is not reliable for stopping at a performance threshold, we can use it to define effective criteria to stop when performance for a given system and given dataset is close to optimal. Finally, we investigate crowdsourcing as a complementary cost reduction approach that aims to reduce the per-example cost by outsourcing annotation over the web. We propose strategies to mitigate the higher mistake rates of crowdsourcing annotators and present a successful combination of active learning with crowdsourcing. Überwachtes machinelles Lernen ist ein weitverbreiteter und sehr erfolgreicher Ansatz für Aufgaben der maschinellen Sprachverarbeitung. Überwachtes Lernen erfordert jedoch große Mengen an annotierten Trainingsdaten, die in einem oftmals teuren und zeitaufwendigen Prozess erstellt werden müssen. Eine Strategie, diesen Annotationsaufwand zu reduzieren ist das aktive Lernen: Ein interaktiver Prozess zwischen lernendem System und Annotator, in dem das System schrittweise informative Daten zur Annotation auswählt. Durch den Fokus auf für das System informative Daten soll die erforderliche Menge an Trainingsdaten reduziert werden. In dieser Arbeit wird die Anwendung des aktiven Lernens auf zwei wichtige Aufgaben der maschinellen Sprachverarbeitung, Erkennung von Eigennamen und Koreferenzauflösung, untersucht. Es wird gezeigt, dass aktives Lernen eine erhebliche Reduktion der erforderlichen Datenmenge erzielen kann. Bei ungünstiger Initialisierung kann es jedoch zu einem verzögerten Lernen, speziell von wenig häufigen Klassen, kommen. Für Sprachdaten kann dieser “Missed-Cluster”-Effekt vermieden werden, indem mehrere Trainingsbeispiele aus einem natürlichen Kontext (z.B. einem Satz) gemeinsam ausgewählt werden. Mit dieser Strategie der Ko-Selektion kann erstmals auch die erfolgreiche Anwendung von aktivem Lernen auf die Annotation von Daten für die Koreferenzauflösung gezeigt werden. Weiter wird untersucht, wie der Trainingsfortschritt des Systems während des Lernverfahrens überwacht werden kann. Wir stellen Stoppkriterien vor, mit denen der Auswahlprozess beendet werden kann, wenn ein für das gegebene System und die gegebenen Daten nahezu optimales Ergebnis erreicht wird. Schließlich wird eine Kombination mit dem Crowdsourcing-Ansatz als komplementärer Strategie zur Senkung von Annotationskosten untersucht. Crowdsourcing verspricht durch Outsourcing der Datenannotation über das World Wide Web die Kosten pro annotiertem Trainingsbeispiel zu reduzieren, zieht jedoch oft fehlerbehaftete Annotationen nach sich. Es wird gezeigt, wie sich diese Fehler kompensieren lassen und dass sich somit Crowdsourcing und aktives Lernen erfolgreich verbinden lassen.
Enthalten in den Sammlungen:	05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:

Datei	Beschreibung	Größe	Format
thesis_florianlaws_publication_20130110.pdf		2,02 MB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige

Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.

Universität Stuttgart

OPUS - Online Publikationen der Universität Stuttgart