Supervised and semi-supervised statistical models for word-based sentiment analysis

Scheible, Christian

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-3404

Autor(en):	Scheible, Christian
Titel:	Supervised and semi-supervised statistical models for word-based sentiment analysis
Sonstige Titel:	Überwachte und halbüberwachte statistische Modelle zur wortbasierten Sentimentanalyse
Erscheinungsdatum:	2014
Dokumentart:	Dissertation
URI:	http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-95397 http://elib.uni-stuttgart.de/handle/11682/3421 http://dx.doi.org/10.18419/opus-3404
Zusammenfassung:	Ever since its inception, sentiment analysis has relied heavily on methods that use words as their basic unit. Even today, such methods deliver top performance. This way of representing data for sentiment analysis is known as the clue model. It offers practical advantages over more sophisticated approaches: It is easy to implement and statistical models can be trained efficiently even on large datasets. However, the clue model also has notable shortcomings. First, clues are highly redundant across examples, and thus training based on annotated data is potentially inefficient. Second, clues are treated context-insensitively, i.e., the sentiment expressed by a clue is assumed to be the same regardless of context. In this thesis, we address these shortcomings. We propose two approaches to reduce redundancy: First, we use active learning, a method for automatic data selection guided by the statistical model to be trained. We show that active learning can speed up the training process for document classification significantly, reducing clue redundancy. Second, we present a graph-based approach that uses annotated clue types rather than annotated documents which contain clue instances. We show that using a random-walk model, we can train a highly accurate document classifier. We next investigate the context-dependency of clues. We first introduce sentiment relevance, a novel concept that aims at identifying content that contributes to the overall sentiment of the review. We show that even when we have no annotated sentiment relevance data available, a high-accuracy sentiment relevance classifier can be trained using transfer learning and distant supervision. Second, we perform linguistically motivated analysis and simplification of a compositional sentiment analysis. We find that the model captures linguistic structures poorly. Further, it can be simplified without any loss of accuracy. Eine der frühesten Methoden zur automatischen Sentimentanalyse nutzt Merkmalsrepräsentationen, die auf Wortvorkommen beruhen. Dieser Ansatz zur Datenrepräsentation ist der unter dem Namen Clue-Modell bekannt, da die Terme in einer größeren Spracheinheit Schlüsselwörter (Clues) für deren Sentiment sind. Das Clue-Modell ist noch immer einer der beliebtesten und erfolgreichsten Ansätze, da es einige praktische Vorteile gegenüber anderen Verfahren bietet: Es ist einfach zu implementieren und statistische Modelle sind mit einer solchen Repräsentation auch auf großen Datensätzen effizient trainierbar. Allerdings hat das Modell auch Nachteile. Erstens treten Schlüsselwörter redundant auf und kommen in vielen Trainingsbeispielen vor, so dass überwachtes Lernen ineffizient sein kann. Zweitens werden Schlüsselwörter kontextunabhängig behandelt, d.h., das durch einen Begriff ausgedrückte Sentiment ist unabhängig vom Kontext immer gleich. In dieser Dissertation stellen wir Lösungsansätze für diese beiden Nachteile vor. Um Redundanz zu vermeiden, verwenden wir zunächst Active Learning, eine Methode des maschinellen Lernens, bei der das statistische Modell die Auswahl der Trainingsbeispiele vornimmt. Unsere Ergebnisse zeigen, dass wir durch Active Learning gleiche Klassifikationsgenauigkeit bei reduzierten Kosten erreichen, indem wir Redundanz zwischen Dokumenten vermeiden. Ein weiterer Ansatz zur Vermeidung von Redundanz beruht darauf, die Schlüsselwörter direkt zu annotieren. Annotierte Schlüsselwörter werden dann in einem graphbasierten Modell zur Dokumentenklassifikation verwendet. Wir zeigen, dass ein Random-Walk-Modell Dokumente mit hoher Genauigkeit klassifizieren kann. Um die Kontextabhängigkeit von Inhalten zu bestimmen, führen wir die Idee der Sentiment-Relevanz ein. Als sentiment-relevant bezeichnen wir Inhalt, der zum Gesamtsentiment eines Dokuments beiträgt. Wir zeigen, dass wir selbst ohne annotierte Sentiment-Relevanz-Daten mit hoher Genauigkeit sentiment-relevanten Inhalt erkennen können. Dazu nutzen wir zwei Techniken des maschinellen Lernens: Transfer Learning und Distant Supervision. Zum Schluss untersuchen wir ein kompositionelles Modell zur Sentimentanalyse auf seine linguistischen Eigenschaften. Wir zeigen, dass das Modell nur schlecht linguistische Struktur erkennt. Zudem kann das Modell ohne Genauigkeitsverlust stark vereinfacht werden.
Enthalten in den Sammlungen:	05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:

Datei	Beschreibung	Größe	Format
master.pdf		2,32 MB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige

Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.

Universität Stuttgart

OPUS - Online Publikationen der Universität Stuttgart