Please use this identifier to cite or link to this item: http://dx.doi.org/10.18419/opus-3643
Authors: Zarrieß, Sina
Title: Syntactic and referential choice in corpus-based generation : modeling source, context and interactions
Other Titles: Syntaktische und referentielle Realisierungsmöglichkeiten in der korpusbasierten Generierung : Repräsentationen, Kontext und Interaktionen
Issue Date: 2016
metadata.ubs.publikation.typ: Dissertation
URI: http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-105494
http://elib.uni-stuttgart.de/handle/11682/3660
http://dx.doi.org/10.18419/opus-3643
Abstract: Natürlich-sprachliche Sätze aus einer abstrakten Repräsentation einer kommunikativen Absicht zu generieren, ist ein Prozess, der einer gewissen Variabilität unterliegt, was bedeutet, dass typischerweise mehrere sprachliche Ausdrucksmöglichkeiten für einen nicht-sprachlichen Fakt verfügbar sind. Diese Variabilität liegt auf allen Ebenen der sprachlichen Realisierung vor, zum Beispiel in der Satzstruktur, in lexikalischen Entscheidungen oder der Wortstellung, und viele dieser Realisierungsmöglichkeiten interagieren. Aus der Perspektive des Sprachgebrauchs erfüllen Phänomene wie Wortstellungsvarianten eine Funktion: sie dienen dazu, eine sprachliche Äußerung an ihren Kontext anzupassen. Diese Doktorarbeit untersucht statistische Modelle, die ein Ranking zwischen verschiedenen Realisierungsmöglichkeiten einer Generierungseingabe im Hinblick auf ihre Adäquatheit im Diskurskontext vorhersagen. Wir übernehmen dazu bestimmte Annahmen und Methoden aus dem Paradigma der korpusbasierten Generierung: die Modelle benutzen tatsächlich vorkommende Korpussätze als Instanzen sprachlicher Realisierungsvarianten und die vorhergehenden Sätze als ihren Kontext. Wir setzen Analysewerkzeuge wie Grammatiken und Parser ein, um eine abstrakte Repräsentation eines Satzes zu bestimmen. Diese Repräsentation stellt den Ausgangspunkt für den Generierungsprozess dar. Das Generierungssystem bildet die Ausgangsrepräsentation auf eine Kandidatenmenge von Realisierungen ab und gewichtet diese mit Hilfe von Merkmalen, die aus dem Kontext berechnet werden. Die Ausgabe des Generierungssytems ist der am besten bewertete Satz, der gegen den originalen Korpussatz evaluiert werden kann.
The process of generating natural language sentences from an abstract representation of some communicative intent involves choice, meaning that there will usually be several linguistic means of expression to realize a non-linguistic fact. Choices exists on all levels of the linguistic realization, e.g. sentence structure, predicate-argument structure or word order, and many of these choices interact. From the perspective of language use, choice phenomena like word order variation fullfil a function: they serve to adapt linguistic utterances to their context. This thesis investigates statistical models that predict choice by ranking alternative realizations of a generation input according to their naturalness in a particular discourse context. We adopt some basic assumptions and methods from the corpus-based regeneration paradigm: the models are built using naturally occuring corpus sentences as instantiations of linguistic choices and surrounding sentences as their context. We exploit analysis tools such as parsers and grammars to derive an abstract representation of the sentence. This representation constitutes the underlying source of the generation process. The generator maps the source to a set of alternative surface realizations and ranks them based on a set of features computed from the context. The final generation output is the top ranked sentence that can be evaluated against the original corpus sentence.
Appears in Collections:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Files in This Item:
File Description SizeFormat 
diss_revised_januar2016.pdf1,16 MBAdobe PDFView/Open


Items in OPUS are protected by copyright, with all rights reserved, unless otherwise indicated.