Direkt zu:

Opus-Logo
zur Startseite

Eingang zum Volltext in OPUS

Hinweis zum Urheberrecht

Dissertation zugänglich unter
URN: urn:nbn:de:bsz:93-opus-23714
URL: http://elib.uni-stuttgart.de/opus/volltexte/2005/2371/


The statistics of word cooccurrences : word pairs and collocations

Zur statistischen Analyse von Wortkombinationen: Wortpaare und Kollokationen

Evert, Stefan

pdf-Format:
Dokument 1.pdf (3.678 KB)

Bookmark bei del.icio.us
SWD-Schlagwörter: Kollokation , Assoziationsmaß , Polynomialverteilung , Korpus <Linguistik> , Linguistische Datenverarbeitung , Visualisierung
Freie Schlagwörter (Englisch): word cooccurrences , collocations , statistical association , evaluation , lexical statistics
Institut: Institut für Maschinelle Sprachverarbeitung
Fakultät: Philosophisch-historische Fakultät
DDC-Sachgruppe: Sprache, Linguistik
Dokumentart: Dissertation
Hauptberichter: Rohrer, Christian (Prof. Dr.)
Sprache: Englisch
Tag der mündlichen Prüfung: 30.08.2004
Erstellungsjahr: 2005
Publikationsdatum: 01.09.2005
Kurzfassung auf Englisch: "You shall know a word by the company it keeps!" With this slogan, J. R. Firth drew attention to a fact that language scholars had intuitively known for a long time: In natural language, words are not combined randomly into phrases and sentences, constrained only by the rules of syntax. They have a tendency to appear in certain recurrent combinations. As there are many possible reasons for words to go together, a broad range of linguistic and extra-linguistic phenomena can be found among the recurrent combinations, making them a goldmine of information for linguistics, natural language processing and related fields. There are compound nouns ("black box"), fixed and opaque idioms ("kick the bucket"), lexical selection ("a pride of lions", "heavy smoker") and formulaic expressions ("have a nice day"). They can often tell us something about the meaning of a word or even the concept behind the word (think of combinations like "dark night" and "bright day"), an idea that has inspired latent semantic analysis and similar vector space models of word meaning.
With modern computers it is easy to extract evidence for recurrent word pairs from huge text corpora, often aided by linguistic pre-processing and annotation (so that specific combinations, e.g. noun+verb can be targeted). However, the raw data - in the form of frequency counts for word pairs – are not always meaningful as a measure for the amount of "glue" between two words. Provided that both words are sufficiently frequent, their cooccurrences might be pure coincidence. Therefore, a statistical interpretation of the frequency data is necessary, which determines the degree of statistical association between the words and whether there is enough evidence to rule out chance as a factor. For this purpose, association measures are applied, which assign a score to each word pair based on the observed frequency data. The higher this score is, the stronger and more certain the association between the two words.
Even forty years ago, at the Symposium on Statistical Association Methods for Mechanized Documentation, there was a bewildering multitude of measures to choose from, but hardly any guidelines to help with the decision. This situation hasn't changed very much over the last forty years. We are still far away from a thorough understanding of association measures and there is not even a standard reference where one could look up precise definitions and related information. My thesis aims to fill this gap.
The first, encyclopedic part of the thesis begins with a description of the formal and statistical prerequisites. Intended primarily as a reference for students and researchers, it also addresses the limits of the statistical models. The following chapter presents a comprehensive repository of association measures, which are organised into thematic groups. An explicit equation is given for each measure, using a consistent notation in terms of observed and expected frequencies.
The second, methodological part suggests new approaches to the study of association measures, with an emphasis on empirical results and intuitive understanding. A cornerstone of this approach is a geometric interpretation of cooccurrence data and association measure. Measures are visualised as surfaces in a three-dimensional "coordinate space". The properties of each measure are determined by the geometric shapes of the respective surfaces.
Empirical results are obtained from evaluation studies, which test the performance of association measures in a collocation extraction task. In addition to its relevance for real-life applications, a carefully designed evaluation can reveal important properties of the association measures. Unfortunately, it is becoming clear the evaluation results cannot easily be generalised. For this reason it is desirable to carry out more evaluation experiments under different conditions. In order to reduce the necessary amount of manual work, evaluation can be performed on random samples from a set of candidates. Appropriate significance tests correct for the higher degree of uncertainty.
Finally, there is a third, computational aspect to the thesis. It is accompanied by an open-source software toolkit, which was used to perform experiments and produce graphs for the thesis. The unique feature of this software toolkit is that the current release includes all the data, scripts and explanations needed to replicate (almost) all the results found in the book.
Kurzfassung auf Deutsch: Das gemeinsame Vorkommen von Wörtern in natürlicher Sprache - sei es in unmittelbarer Nachbarschaft, innerhalb desselben Satzes oder in einer bestimmten syntaktischen Relation - stellt eine zentrale Wissensquelle für die maschinelle Sprachverarbeitung dar. Frequenzdaten für solche Kookkurrenzen können leicht aus Textkorpora gewonnen werden, wobei in den meisten Fällen zunächst eine linguistische Vorverarbeitung erfolgt. Eine mathematische Auswertung erlaubt dann, die Ergebnisse über das spezifische Extraktionskorpus hinaus zu verallgemeinern und auf statistische Assoziationen zwischen den Vorkommen der beteiligten Wörter in der Sprache insgesamt (oder zumindest in einer Teilsprache) zu schließen.
Das gebräuchlichste Verfahren hierfür sind sogenannte Assoziationsmaße, die ausgehend von der im Korpus ermittelten Frequenzinformation eine Bewertungszahl berechnen: je höher dieser Wert, desto stärker ist die mutmaßliche Assoziation. Dabei stützt sich das Maß lediglich auf die Kookkurrenzhäufigkeit und auf die Häufigkeiten der einzelnen Wörter.
Die so gewonnene Information läßt sich in vielfältiger Weise anwenden, unter anderem zur Desambiguierung von syntaktischen Analysen, zur Identifikation von Satz- und Phrasengrenzen, zur Verbesserung von stochastischen Sprachmodellen, zur Lesartendesambiguierung und anderen Klassifikationsaufgaben, sowie zur Bestimmung von semantischen Ähnlichkeiten zwischen Wörtern wie Synonymie und Hyponymie. Andererseits bieten statistische Assoziationen einen wichtigen Anhaltspunkt für die Identifikation lexikalisierter Wortverbindungen, sogenannter Kollokationen.
Bereits zur Zeit der ersten computerlinguistischen Arbeiten mit Kookkurrenzdaten und Kollokationen stand eine nahezu unüberschaubare Vielfalt von Assoziationsmaßen zur Verfügung: man bediente sich bei diversen Fachgebieten, allen voran natürlich der mathematischen Statistik. Gleichzeitig war man sich der Schwierigkeit bewußt, ein für die jeweilige Aufgabe geeignetes Maß zu finden, besonders da sich die in der mathematischen Statistik angeführten Argumente nicht ohne weiteres auf Wortkookkurrenzen übertragen lassen.
Vierzig Jahre später versucht die vorliegende Arbeit nun, diese Lücke zu schließen. In einem enzyklopädischen Teil werden zunächst die formalen und statistischen Grundlagen zusammengetragen, auf denen die Assoziationsmaße basieren. Diese Aufstellung soll als Referenz für weitere Untersuchungen und Anwendungen dienen, es werden jedoch auch die Grenzen der statistischen Modelle angesprochen. Im nächsten Kapitel folgt eine Auflistung aller dem Autor bekannten Assoziationsmaße. Für jedes Maß wird eine explizite Formel in einheitlicher Notation angegeben, um die Umsetzung in einem Computerprogramm zu erleichtern und Mißverständnisse zu vermeiden. Die Assoziationsmaße sind nach ihrem mathematischen Hintergrund in Gruppen eingeteilt, um so dem Leser einen besseren Überblick zu verschaffen. Zugleich werden feine Unterschiede und überraschende Ähnlichkeiten zwischen den Maßen hervorgehoben.
Der zweite, methodische Teil will neue Anstöße für die Forschung zur Theorie und Anwendung von Assoziationsmaßen geben, mit einem Schwerpunkt auf empirische Forschung und intuitives Verstehen. Eine zentrale Rolle spielt dabei eine geometrische Interpretation der Maße, die als Flächen in einem dreidimensionalen "Häufigkeitsraum" veranschaulicht werden. Die Eigenschaften eines Assoziationsmaßes werden dabei durch die geometrische Form der ihm entsprechenden Flächen bestimmt.
Neben diesem intuitiven Ansatz werden auch mathematische und empirische Methoden beschrieben. Die mathematische Diskussion liefert dabei eine theoretisch fundierte Begründung für den Einsatz von Häufigkeitsschwellwerten: aufgrund der besonderen Verteilung von Worthäufigkeiten (bekannt unter dem Namen Zipfsches Gesetz), sind statistische Inferenzen für Wörter oder Wortpaare, die weniger als 5 Vorkommen haben, prinzipiell unzuverlässig.
Schließlich stellen die empirischen Untersuchungen im letzten Kapitel eine Verbindung zu Anwendungen und zum linguistischen Kollokationsbegriff her. Hier werden die Assoziationsmaße zur Kollokationsextraktion eingesetzt und auf diese Weise evaluiert. Neben der praktischen Relevanz kann eine sorgfältige Evaluation einiges über die besonderen Eigenschaften eines Maßes verraten. Leider zeigt sich immer deutlicher, daß sich Evaluationsergebnisse nicht auf andere Situationen übertragen lassen. Um eine größere Anzahl von Evaluationsexperimenten unter verschiedenen Bedingungen durchführen zu können, wird eine Evaluationsmethode vorgeschlagen, die auf Stichproben basiert. Geeignete Signifikanztests stellen sicher, daß es sich bei den Ergebnissen solcher Evaluationen nicht um zufällige "Ausrutscher" handelt.