Direkt zu:

Opus-Logo
zur Startseite

Eingang zum Volltext in OPUS

Hinweis zum Urheberrecht

Dissertation zugänglich unter
URN: urn:nbn:de:bsz:93-opus-23714
URL: http://elib.uni-stuttgart.de/opus/volltexte/2005/2371/


The statistics of word cooccurrences : word pairs and collocations

Zur statistischen Analyse von Wortkombinationen: Wortpaare und Kollokationen

Evert, Stefan

pdf-Format:
Dokument 1.pdf (3.678 KB)

Bookmark bei Connotea Bookmark bei del.icio.us
SWD-Schlagwörter: Kollokation , Assoziationsmaß , Polynomialverteilung , Korpus <Linguistik> , Linguistische Datenverarbeitung , Visualisierung
Freie Schlagwörter (Englisch): word cooccurrences , collocations , statistical association , evaluation , lexical statistics
Institut: Institut für Maschinelle Sprachverarbeitung
Fakultät: Philosophisch-historische Fakultät
DDC-Sachgruppe: Sprache, Linguistik
Dokumentart: Dissertation
Hauptberichter: Rohrer, Christian (Prof. Dr.)
Sprache: Englisch
Tag der mündlichen Prüfung: 30.08.2004
Erstellungsjahr: 2005
Publikationsdatum: 01.09.2005
Kurzfassung auf Englisch: "You shall know a word by the company it keeps!" With this slogan,
J. R. Firth drew attention to a fact that language scholars had intuitively
known for a long time: In natural language, words are not combined randomly
into phrases and sentences, constrained only by the rules of syntax. They
have a tendency to appear in certain recurrent combinations. As there are many
possible reasons for words to go together, a broad range of linguistic and
extra-linguistic phenomena can be found among the recurrent combinations,
making them a goldmine of information for linguistics, natural language
processing and related fields. There are compound nouns ("black box"), fixed
and opaque idioms ("kick the bucket"), lexical selection ("a pride of lions",
"heavy smoker") and formulaic expressions ("have a nice day"). They can often
tell us something about the meaning of a word or even the concept behind the
word (think of combinations like "dark night" and "bright day"), an
idea that has inspired latent semantic analysis and similar vector space
models of word meaning.

With modern computers it is easy to extract evidence for recurrent word pairs
from huge text corpora, often aided by linguistic pre-processing and
annotation (so that specific combinations, e.g. noun+verb can be targeted).
However, the raw data - in the form of frequency counts for word pairs - are
not always meaningful as a measure for the amount of "glue" between two words.
Provided that both words are sufficiently frequent, their cooccurrences might
be pure coincidence. Therefore, a statistical interpretation of the frequency
data is necessary, which determines the degree of statistical association
between the words and whether there is enough evidence to rule out chance as a
factor. For this purpose, association measures are applied, which assign a
score to each word pair based on the observed frequency data. The higher this
score is, the stronger and more certain the association between the two words.

Even forty years ago, at the Symposium on Statistical Association Methods for
Mechanized Documentation, there was a bewildering multitude of measures to
choose from, but hardly any guidelines to help with the decision. This
situation hasn't changed very much over the last forty years. We are still
far away from a thorough understanding of association measures and there is
not even a standard reference where one could look up precise definitions and
related information. My thesis aims to fill this gap.

The first, encyclopedic part of the thesis begins with a description of the
formal and statistical prerequisites. Intended primarily as a reference for
students and researchers, it also addresses the limits of the statistical
models. The following chapter presents a comprehensive repository of
association measures, which are organised into thematic groups. An explicit
equation is given for each measure, using a consistent notation in terms of
observed and expected frequencies.

The second, methodological part suggests new approaches to the study of
association measures, with an emphasis on empirical results and intuitive
understanding. A cornerstone of this approach is a geometric interpretation
of cooccurrence data and association measure. Measures are visualised as
surfaces in a three-dimensional "coordinate space". The properties of each
measure are determined by the geometric shapes of the respective surfaces.

Empirical results are obtained from evaluation studies, which test the
performance of association measures in a collocation extraction task. In
addition to its relevance for real-life applications, a carefully designed
evaluation can reveal important properties of the association measures.
Unfortunately, it is becoming clear the evaluation results cannot easily be
generalised. For this reason it is desirable to carry out more evaluation
experiments under different conditions. In order to reduce the necessary
amount of manual work, evaluation can be performed on random samples from a
set of candidates. Appropriate significance tests correct for the higher
degree of uncertainty.

Finally, there is a third, computational aspect to the thesis. It is
accompanied by an open-source software toolkit, which was used to perform
experiments and produce graphs for the thesis. The unique feature of this
software toolkit is that the current release includes all the data, scripts
and explanations needed to replicate (almost) all the results found in the
book.
Kurzfassung auf Deutsch: Das gemeinsame Vorkommen von Wörtern in natürlicher Sprache - sei es in
unmittelbarer Nachbarschaft, innerhalb desselben Satzes oder in einer
bestimmten syntaktischen Relation - stellt eine zentrale Wissensquelle für
die maschinelle Sprachverarbeitung dar. Frequenzdaten für solche
Kookkurrenzen können leicht aus Textkorpora gewonnen werden,
wobei in den meisten Fällen zunächst eine linguistische Vorverarbeitung
erfolgt. Eine mathematische Auswertung erlaubt dann, die
Ergebnisse über das spezifische Extraktionskorpus hinaus zu verallgemeinern
und auf statistische Assoziationen zwischen den Vorkommen der beteiligten
Wörter in der Sprache insgesamt (oder zumindest in einer Teilsprache) zu
schließen.

Das gebräuchlichste Verfahren hierfür sind sogenannte Assoziationsmaße, die
ausgehend von der im Korpus ermittelten Frequenzinformation eine
Bewertungszahl berechnen: je höher dieser Wert, desto stärker ist die
mutmaßliche Assoziation. Dabei stützt sich das Maß lediglich auf die
Kookkurrenzhäufigkeit und auf die Häufigkeiten der einzelnen Wörter.

Die so gewonnene Information läßt sich in vielfältiger Weise anwenden, unter
anderem zur Desambiguierung von syntaktischen Analysen, zur Identifikation von
Satz- und Phrasengrenzen, zur Verbesserung von stochastischen Sprachmodellen,
zur Lesartendesambiguierung und anderen Klassifikationsaufgaben, sowie zur
Bestimmung von semantischen Ähnlichkeiten zwischen Wörtern wie Synonymie und
Hyponymie. Andererseits bieten statistische Assoziationen einen wichtigen
Anhaltspunkt für die Identifikation lexikalisierter Wortverbindungen,
sogenannter Kollokationen.

Bereits zur Zeit der ersten computerlinguistischen Arbeiten mit
Kookkurrenzdaten und Kollokationen stand eine nahezu unüberschaubare Vielfalt
von Assoziationsmaßen zur Verfügung: man bediente sich bei diversen
Fachgebieten, allen voran natürlich der mathematischen Statistik.
Gleichzeitig war man sich der Schwierigkeit bewußt, ein für die jeweilige
Aufgabe geeignetes Maß zu finden, besonders da sich die in der mathematischen
Statistik angeführten Argumente nicht ohne weiteres auf Wortkookkurrenzen
übertragen lassen.

Vierzig Jahre später versucht die vorliegende Arbeit nun, diese Lücke zu
schließen. In einem enzyklopädischen Teil werden zunächst die formalen und
statistischen Grundlagen zusammengetragen, auf denen die Assoziationsmaße
basieren. Diese Aufstellung soll als Referenz für weitere Untersuchungen und
Anwendungen dienen, es werden jedoch auch die Grenzen der statistischen
Modelle angesprochen. Im nächsten Kapitel folgt eine Auflistung aller dem
Autor bekannten Assoziationsmaße. Für jedes Maß wird eine explizite Formel in
einheitlicher Notation angegeben, um die Umsetzung in einem Computerprogramm
zu erleichtern und Mißverständnisse zu vermeiden. Die Assoziationsmaße sind
nach ihrem mathematischen Hintergrund in Gruppen eingeteilt, um so dem Leser
einen besseren Überblick zu verschaffen. Zugleich werden feine Unterschiede
und überraschende Ähnlichkeiten zwischen den Maßen hervorgehoben.

Der zweite, methodische Teil will neue Anstöße für die Forschung zur Theorie
und Anwendung von Assoziationsmaßen geben, mit einem Schwerpunkt auf
empirische Forschung und intuitives Verstehen. Eine zentrale Rolle spielt
dabei eine geometrische Interpretation der Maße, die als Flächen in einem
dreidimensionalen "Häufigkeitsraum" veranschaulicht werden. Die Eigenschaften
eines Assoziationsmaßes werden dabei durch die geometrische Form der ihm
entsprechenden Flächen bestimmt.

Neben diesem intuitiven Ansatz werden auch mathematische und empirische
Methoden beschrieben. Die mathematische Diskussion liefert dabei eine
theoretisch fundierte Begründung für den Einsatz von Häufigkeitsschwellwerten:
aufgrund der besonderen Verteilung von Worthäufigkeiten (bekannt unter dem
Namen Zipfsches Gesetz), sind statistische Inferenzen für Wörter oder
Wortpaare, die weniger als 5 Vorkommen haben, prinzipiell unzuverlässig.

Schließlich stellen die empirischen Untersuchungen im letzten Kapitel eine
Verbindung zu Anwendungen und zum linguistischen Kollokationsbegriff her.
Hier werden die Assoziationsmaße zur Kollokationsextraktion eingesetzt und auf
diese Weise evaluiert. Neben der praktischen Relevanz kann eine sorgfältige
Evaluation einiges über die besonderen Eigenschaften eines Maßes verraten.
Leider zeigt sich immer deutlicher, daß sich Evaluationsergebnisse nicht auf
andere Situationen übertragen lassen. Um eine größere Anzahl von
Evaluationsexperimenten unter verschiedenen Bedingungen durchführen zu können,
wird eine Evaluationsmethode vorgeschlagen, die auf Stichproben basiert.
Geeignete Signifikanztests stellen sicher, daß es sich bei den Ergebnissen
solcher Evaluationen nicht um zufällige "Ausrutscher" handelt.