Erkennung binärer lexikalisch-semantischer Veränderungen
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
In dieser Arbeit werden verschiedene Clustering-Methoden in Bezug auf ihre Performance in der Erkennung binärer Veränderung (BCD), der Erkennung abgestufter Veränderung (GCD) und der Qualität des Clusterings verglichen. Dazu wird mithilfe des neuronalen Sprachmodells XL-Lexeme ein kontextbasierter Vektor für jede Wortverwendung generiert. Die Ähnlichkeiten zwischen jeweils zwei Wortverwendungsvektoren modellieren die semantischen Ähnlichkeiten der entsprechenden Wortverwendungen und werden in einem Wortverwendungsgraphen (engl. Word Usage Graph (WUG)) dargestellt. Die Knoten eines WUGs repräsentieren einzelne Wortverwendungen, während eine Kante zwischen zwei Knoten die semantische Ähnlichkeit von zwei Wortverwendungen repräsentiert. Der resultierende WUG wird mit verschiedenen Strategien geclustert. Auf Grundlage der resultierenden geclusterten Graphen werden Vorhersagen zu BCD und GCD getroffen. Um die Qualität der Cluster zu erhöhen, welche aus den annotierten Daten erstellt wurden, werden außerdem verschiedene Strategien zur Bereinigung (Cleaning) von Graphen angewendet. Dabei wurde die beste Performance erzielt, indem Cluster entfernt wurden, welche unter einer festgelegten Größe liegen. Im Vergleich der Clustering-Methoden erzielte Correlation Clustering (CC) die besten Ergebnisse, gefolgt von Clustering durch ein Weighted Stochastic Block Model (WSBM).