05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Permanent URI for this collectionhttps://elib.uni-stuttgart.de/handle/11682/6

Browse

Search Results

Now showing 1 - 10 of 60
  • Thumbnail Image
    ItemOpen Access
    Event knowledge and models of logical metonymy interpretation
    (2014) Zarcone, Alessandra; Padó, Sebastian (Prof. Dr.)
    During language understanding, people do not only rely on what they read or hear, but they also exploit implicit information. For example, when they process the expression "begin the book", they understand it involves an event which is not explicitly mentioned (e.g. "begin reading the book). This thesis looks at these constructions, known as logical metonymies, which combine an event-selecting verb and entity-denoting object and involve covert events. Logical metonymies are an interesting challenge for theories of lexical semantics: they need to be reconciled with compositionality, they require the integration of context (writers typically write books, students typically read them), and they lie at the interface between lexicon and world knowledge (is the information that books are read stored in our mental lexicon or in our world knowledge?). I critically analyze previous hypotheses on logical metonymy with regard to the answer they provide to two core problems: the source problem (what events are retrieved? what type of event knowledge is assumed?) and the trigger problem (why do some constructions trigger a metonymic interpretation and others do not?). Lexicalist approaches claim that the metonymy arises from a type clash between the event-selecting verb and an entity-denoting object, and posit complex lexical items, encoding event information about artifacts (e.g. book: read), to explain the recovery of covert events. Pragmatic-based approaches argue against the idea that lexical items have an internal structure, suggesting that covert events arise from the underspecification of a logical metonymy and are inferred via non-lexical knowledge. I look with particular attention at the role of event knowledge, which lexicalist approaches place in our mental lexicon, while pragmatic-based approaches place it in our world knowledge. I propose a third hypothesis, based on thematic fit and generalized event knowledge of typical events and their participants, which have been shown to guide efficient incremental processing: I argue that contextual elements cue generalized event knowledge, which plays a key role in determining the covert event for a logical metonymy. I explore this hypothesis from an interdisciplinary perspective, employing both psycholinguistic experiments and computational models, in order to seek converging evidence and confront it with the theoretical investigation. The results from the psycholinguistic experiments and from the computational (distributional) models support the hypothesis that covert event retrieval is guided by generalized event knowledge. I also employ the computational models to analyze previous experimental results and to explore the hypothesis that thematic fit, informed by generalized event knowledge, is ultimately responsible for the trigger of the logical metonymy. I then report on more psycholinguistic evidence showing that a notion of type is indeed necessary to account for differences between metonymic and non-metonymic constructions, and that both type and thematic fit play a role in logical metonymy interpretation. Lastly, I argue for a context-sensitive model of logical metonymy interpretation that exploits an information-rich lexicon, but needs to rethink the notion of type and reconcile it with the notion of thematic fit.
  • Thumbnail Image
    ItemOpen Access
    Evaluation of complex typological universals with language vectors and real-valued logics
    (2020) Dönicke, Tillmann
    Language representations and typological universals have received increasing attention in computational linguistics over the past few years. Most approaches make use of binary language vectors from typological databases and/or focus on the correlation of only two typological variables at the same time. This thesis shows that real-valued logics can be used to evaluate even more complex formulae, as they are formulated by typologists, on continuous vectors from existing corpora. Syntactic language vectors are extracted from the Universal Dependencies treebanks (Nivre et al., 2016) and serve as the basis for the evaluation of word-order universals.
  • Thumbnail Image
    ItemOpen Access
    Modeling the position and inflection of verbs in English to German machine translation
    (2018) Ramm, Anita; Fraser, Alexander (Prof. Dr.)
  • Thumbnail Image
    ItemOpen Access
    A modular framework for coreference resolution
    (2012) Kobdani, Hamidreza; Schütze, Hinrich (Prof. Dr.)
    Coreference resolution is playing an increasingly important role in a wide range of disciplines such as theoretical, corpus and computational linguistics. It has been shown that it is beneficial in a number of natural language processing applications, including machine translation, automatic abstracting, information extraction and question answering. As a result, it has enjoyed increased interest in recent years. First, this thesis introduces a modular supervised system for coreference resolution. It is composed of separate, interchangeable components, between which there are clear well-defined logical boundaries that improve maintainability. This system has been used successfully in two international shared tasks on coreference resolution achieving good performance. The good performance of our system demonstrates the general validity of our design. In addition, a new framework for feature engineering of natural language processing will be presented that is based on a relational data model of text. It includes fast and flexible methods for implementing and extracting new features, thereby reducing the effort of creating an NLP system for a particular task. This thesis presents an instantiation and evaluation of the framework for the problem of coreference resolution in multiple languages. Competitive results were able to be obtained in a short implementation period. This demonstrates the potential power of this framework for feature engineering. An unsupervised framework will also be presented that bootstraps a complete coreference resolution system from word associations mined from a large unlabeled corpus. I will show that word associations are useful for coreference resolution - e.g., the strong association between Obama and President is an indicator of likely coreference. Association information has so far not been used in coreference resolution because it is sparse and difficult to learn from small labeled corpora. Since unlabeled text is readily available, the unsupervised approach proposed here addresses the sparseness problem. In a self-training framework, I train a decision tree on a corpus that is automatically labeled using word associations. I will show that this unsupervised system has better coreference resolution performance than other learning approaches that do not use manually labeled data.
  • Thumbnail Image
    ItemOpen Access
    Fehlerbehandlung in Mensch-Maschine-Dialogen
    (2007) Gieselmann, Petra; Rohrer, Christian (Prof.)
    Seit es Computer gibt, existiert auch der Wunsch des Menschen, mit ihnen reden zu können wie mit einem anderen Menschen. Eines der berühmtesten Beispiele dafür ist sicherlich Eliza, ein Computerprogramm, das einen Psychologen simuliert, mit dem der Benutzer ein Therapiegespräch führen kann. In vielen Science-Fiction-Filmen finden sich auch immer wieder Beispiele für solche sprechenden Maschinen, wie beispielsweise HAL in 2001: Odysee im Weltraum'' oder auch der Computer auf dem Raumschiff Enterprise''. So reichen erste Dialogsysteme bereits zurück bis in die Anfänge der künstlichen Intelligenz in den fünfziger Jahren. Dennoch hatten diese Dialogsysteme bis vor wenigen Jahren noch mit so vielen Problemen zu kämpfen, dass sie kaum für einen praktischen Einsatz geeignet waren. Erst in letzter Zeit ist es durch die stetigen Verbesserungen im Bereich von Spracherkennung und Sprachverstehen und das Aufkommen von immer schnelleren und mächtigeren Rechnern möglich geworden, solche Systeme für den realen Einsatz zu bauen. Nach wie vor gibt es aber noch eine ganze Reihe ungelöster Probleme, die zum einen auf die Komplexität natürlicher Sprache und zum anderen auf den immensen Fundus an vernetztem Weltwissen und Kontextbeziehungen, über den Menschen verfügen, zurückzuführen sind. Eine der bislang größten Herausforderungen liegt darin, ein solches Dialogsystem auch für den realen Einsatz unter Alltagsbedingungen zu entwerfen. Bisher fehlt den Systemen dafür noch die nötige Fehlerrobustheit, um in Situationen, in denen das System etwas falsch verstanden hat und es zu Problemen kommt, angemessen reagieren zu können. In dieser Arbeit geht es genau um solche Fehler im Dialog, wie sie vermieden und während des laufenden Dialogs wieder behoben werden können, wenn sie nicht vorher zu vermeiden waren. Der Gegenstand dieser Arbeit ist eine datengetriebene Analyse der Fehler, die in der Mensch-Roboter-Kommunikation auftreten mit dem Ziel, diese möglichst im Vorfeld zu vermeiden. Es wird eine Fehlerklassifikation aufgestellt und es werden Methoden für die Vermeidung der verschiedenen Fehlerklassen entwickelt und evaluiert. Darüberhinaus werden auch generische Methoden zur Fehlerbehebung für die Fälle implementiert, die nicht vorher vermieden werden konnten, ebenfalls mit Hilfe datengetriebener Analysen. Damit soll es ermöglicht werden, Dialogsysteme über die Laborumgebung hinaus in realen Situationen einsetzen zu können. Dies wird am Beispiel eines Haushaltsroboters diskutiert und evaluiert. Diese Ausarbeitung gliedert sich in vier Teile: Der erste Teil beschäftigt sich mit dem Stand der Forschung in den Bereichen, die hier eine Rolle spielen. Dazu werden verschiedene Ansätze für Mensch-Maschine-Dialogsysteme beleuchtet. Im Anschluss wird die menschliche Informationsverarbeitung im Dialogbereich erläutert. Dabei geht es auch um Fehlerdialoge in zwischenmenschlichen Dialogen, die hier als Vorbild für Mensch-Roboter-Dialoge dienen. Der zweite Teil beschäftigt sich mit den durchgeführten Benutzertests und Datensammlungen und der Klassifikation von Fehlern im Dialog, die die Grundlage für die folgenden Arbeiten zur Fehlervermeidung und -behebung bilden. Zunächst erfolgt eine detaillierte Analyse von Fehlern, die bei der Mensch-Roboter-Interaktion auftreten können. Dazu werden verschiedene aufeinander aufbauende Benutzerstudien und Datensammlungen, bei denen der Roboter dem Menschen im Haushalt zur Hand geht und einfache Tätigkeiten verrichtet, durchgeführt, um eine große Menge an möglichst realistischen Daten gewinnen zu können, die nicht nur unter Laborbedingungen entstanden sind. Im dritten Teil werden verschiedene Methoden zur Fehlervermeidung und -behebung vorgestellt. Zur Fehlervermeidung werden zusätzliche Wissensquellen in den Dialogmanager integriert. Außerdem werden Mechanismen zur Anaphernresolution, Kontextmodellierung, Auflösung von Ellipsen, multimodalen Fusion und zum Umgang mit komplexen, zusammengesetzten Äußerungen entwickelt und evaluiert. Zur Fehlerbehebung werden verschiedene Strategien für effektive Klärungsfragen untersucht. Metakommunikation, wie sie in den durchgeführten Benutzertests vorkommt, wird analysiert, um eine effektivere Kommunikation gewährleisten zu können. Außerdem wird ein Mechanismus entwickelt, der es dem Roboter erlaubt, problematische Situationen zu erkennen und diese selbst durch Metakommunikation aufzulösen. Im vierten Teil werden die entwickelten Methoden anhand eines abschließenden Benutzertests evaluiert. Dabei geht es darum, das System mit allen entwickelten Mechanismen zur Fehlerbehandlung zu testen und es mit dem Basissystem zu vergleichen. Das besondere Augenmerk liegt hier auf der Übertragbarkeit der entwickelten Mechanismen auf andere Domänen und Systeme. Danach folgt das Fazit der gesamten Arbeit und eine Diskussion der zukünftigen Arbeiten im Hinblick auf mögliche Erweiterungen dieses Systems.
  • Thumbnail Image
    ItemOpen Access
    Distributional measures of semantic abstraction
    (2022) Schulte im Walde, Sabine; Frassinelli, Diego
    This article provides an in-depth study of distributional measures for distinguishing between degrees of semantic abstraction. Abstraction is considered a “central construct in cognitive science” (Barsalou, 2003) and a “process of information reduction that allows for efficient storage and retrieval of central knowledge” (Burgoon et al., 2013). Relying on the distributional hypothesis, computational studies have successfully exploited measures of contextual co-occurrence and neighbourhood density to distinguish between conceptual semantic categorisations. So far, these studies have modeled semantic abstraction across lexical-semantic tasks such as ambiguity; diachronic meaning changes; abstractness vs. concreteness; and hypernymy. Yet, the distributional approaches target different conceptual types of semantic relatedness, and as to our knowledge not much attention has been paid to apply, compare or analyse the computational abstraction measures across conceptual tasks. The current article suggests a novel perspective that exploits variants of distributional measures to investigate semantic abstraction in English in terms of the abstract-concrete dichotomy (e.g., glory-banana) and in terms of the generality-specificity distinction (e.g., animal-fish), in order to compare the strengths and weaknesses of the measures regarding categorisations of abstraction, and to determine and investigate conceptual differences. In a series of experiments we identify reliable distributional measures for both instantiations of lexical-semantic abstraction and reach a precision higher than 0.7, but the measures clearly differ for the abstract-concrete vs. abstract-specific distinctions and for nouns vs. verbs. Overall, we identify two groups of measures, (i) frequency and word entropy when distinguishing between more and less abstract words in terms of the generality-specificity distinction, and (ii) neighbourhood density variants (especially target-context diversity) when distinguishing between more and less abstract words in terms of the abstract-concrete dichotomy. We conclude that more general words are used more often and are less surprising than more specific words, and that abstract words establish themselves empirically in semantically more diverse contexts than concrete words. Finally, our experiments once more point out that distributional models of conceptual categorisations need to take word classes and ambiguity into account: results for nouns vs. verbs differ in many respects, and ambiguity hinders fine-tuning empirical observations.
  • Thumbnail Image
    ItemOpen Access
    Using morpho-syntactic and semantic information to improve statistical machine translation
    (2018) Di Marco, Marion; Schulte im Walde, Sabine (PD Dr.)
    Statistische Maschinelle Übersetzungssystem werden von Wort-alignierten parallelen Corpora abgeleitet und benutzen üblicherweise keine expliziten linguistischen Informationen. Dies kann zu Generalisierungsproblemen führen, besonders wenn morphologisch komplexe Sprachen übersetzt werden. Diese Arbeit untersucht die Integration von linguistischen Informationen in ein Übersetzungssystem, das in eine morphologisch komplexe Sprache übersetzt: basierend auf einem Übersetzungssystem, das die Morphologie der Zielsprache modelliert, werden syntaktische und semantische Informationen in das System integriert, mit dem Ziel, die Modellierung von Subkategorisierung und Präpositionen zu verbessern.
  • Thumbnail Image
    ItemOpen Access
    Ps at the interfaces : on the syntax, semantics, and morphology of spatial prepositions in German
    (2017) Haselbach, Boris P.; Roßdeutscher, Antje (PD Dr.)
    This dissertation spells out the syntax, semantics, and morphology of spatial prepositions in German. I do this by using a parsimonious model of grammar with only one combinatorial engine that generates both phrases and words: syntax (Marantz 1997, Bruening 2016). I follow the tenets of the Minimalist Program (Chomsky 1995) with Bare Phrase Structure as its phrase structural module. I show that using Distributed Morphology (Halle and Marantz 1993, Embick 2015) to model Phonological Form and Discourse Representation Theory (Kamp and Reyle 1993, Kamp et al. 2011) to model Logical Form makes it possible to gain deeper and new insights into the system of German spatial prepositions. Spatial prepositions are classified along a widely accepted typology (Jackendoff 1983, Piñón 1993, Zwarts 2005, a.o.): (i) place prepositions denote static locations and (ii) path prepositions denote dynamic locations that can be directed, as in the case of goal and source prepositions, or undirected, as in the case of route prepositions. In addition, I propose a classification of spatial prepositions that is orthogonal to the above typology: (i) geometric prepositions express geometric locative relations, which I spell out in a parsimonious, perception-driven model of space (Kamp and Roßdeutscher 2005); (ii) pseudo-geometric prepositions look like geometric prepositions but express functional locative relations instead of geometric ones; and (iii) non-geometric prepositions express a special type of functional locative relations. The fine-grained syntacticosemantic analysis presented in this thesis not only makes it possible to spell out Phonological Form and Logical Form for spatial prepositions, but it also serves as input to a morphological case approach (Marantz 1991, McFadden 2004) that accounts for the case assignment of spatial prepositions.
  • Thumbnail Image
    ItemOpen Access
    Computational approaches for German particle verbs: compositionality, sense discrimination and non-literal language
    (2018) Köper, Maximilian; Schulte im Walde, Sabine (PD Dr.)
    Anfangen (to start) is a German particle verb. Consisting of two parts, a base verb ("fangen") and particle ("an"), with potentially many or no intervening words in a sentence, particle verbs are highly frequent constructions with special properties. It has been shown that this type of verb represents a serious problem for language technology, due to particle verbs' ambiguity, ability to occur separate and seemingly unpredictable behaviour in terms of meaning. This dissertation addresses the meaning of German particle verbs via large-scale computational approaches. The three central parts of the thesis are concerned with computational models for the following components: i) compositionality, ii) senses and iii) non-literal language. In the first part of this thesis, we shed light on the phenomena by providing information on the properties of particle verbs, as well as the related and prior literature. In addition, we present the first corpus-driven statistical analysis. We use two different approaches for addressing the modelling of compositionality. For both approaches, we rely on large amounts of textual data with an algebraic model for representation to approximate meaning. We put forward the existing methodology and show that the prediction of compositionality can be improved by considering visual information. We model the particle verb senses based only on huge amounts of texts, without access to other resources. Furthermore, we compare and introduce the methods to find and represent different verb senses. Our findings indicate the usefulness of such sense-specific models. We successfully present the first model for detecting the non-literal language of particle verbs in a running text. Our approach reaches high performance by combining the established techniques from metaphor detection with particle verb-specific information. In the last part of the thesis, we approach the regularities and the meaning shift patterns. Here, we introduce a novel data collection approach for accessing the meaning components, as well as a computational model of particle verb analogy. The experiments reveal typical patterns in domain changes. Our data collection indicates that coherent verbs with the same meaning shift represent rather scarce phenomena. In summary, we provide novel computational models to previously unaddressed problems, and we report incremental improvements in the existing approaches. Across the models, we observe that semantically similar or synonymous base verbs behave similarly when combined with a particle. In addition, our models demonstrate the difficulty of particle verbs. Finally, our experiments suggest the usefulness of external normative emotion and affect ratings.
  • Thumbnail Image
    ItemOpen Access
    Constructing syntax-based distributional semantic models for novel languages
    (2019) Utt, Jason; Padó, Sebastian (Prof. Dr.)
    Rechner-gestützte Modelle von Wortbedeutung bedürfen typischerweise umfangreiche Textdaten in der gewünschten Zielsprache. Heutzutage sorgt die ständig wachsende Anzahl von frei verfügbaren Webseiten dafür, dass die Erstellung solcher distributionellen semantischen Modellen (DSMs), welche robust und von hoher lexikalischen Abdeckung sind, in immer mehr Sprachen möglich wird. Zu den vielseitigsten DSMs gehören die strukturierten DSMs (SDSMs), welche den Kontextbegriff über einfache Nachbarworten auf syntaktische und andere Relationen ausdehnen. Dadurch erlauben sie Ähnlichkeitsvorhersagen, die über die thematischen Bedeutungsaspekte eines Wortes, oder gar einer syntaktischen Verknüpfung von Wörtern, hinaus auch die relationaler Natur einbeziehen. Textdaten alleine reichen jedoch nicht aus, um SDSMs zu konstruieren. Es werden zuverlässige und effiziente Parser in der Zielsprache benötigt, um die syntaktischen Analysen zu erhalten; was zur Folge hat, dass momentan leider nur wenige Sprachen von solchen Modellen profitieren können. Diese Dissertation untersucht Verfahren, die es erlauben, für neue Sprachen strukturierte distributionelle semantische Modelle zu erzeugen und testet diese auf einer Reihe von semantischen Aufgaben. Es wird zunächst ein monolinguales SDSM von einem zielsprachigen Textcorpus mittler Größe erzeugt; werden Methoden ermittelt, mit denen man ausschließlich mithilfe eines einfachen bilingualen Lexikons ein cross-linguales SDSM. Weiter wird aufgezeigt, wie diese zwei SDSM-Typen verknüpft werden können, um ein multilinguales Modell zu erhalten, welches die Vorteile beider Eingabemodelle behält und somit hohe Abdeckungsraten mit genauen Vorhersagen aufweist.