Detection of non-recorded word senses

Thumbnail Image

Date

2023

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Wörterbücher enthalten die Bedeutungen von Wörtern zu einem bestimmten Zeitpunkt. Wenn ein Wort in einem Sprachgebrauch eine neue Bedeutung erhält oder eine alte verliert, kann sein Eintrag im Wörterbuch veraltet sein. In dieser Arbeit werden verschiedene Systeme zur Erkennung fehlender Wörterbucheinträge in modernen englischen und schwedischen Wörterbüchern untersucht. Hierfür werden Bedeutungseinträge mit Wortverwendungen aus modernen und historischen Korpora verglichen. Die grundlegende Aufgabe besteht darin zu entscheiden, ob eine Wortverwendung durch einen Eintrag im Wörterbuch abgedeckt ist. Hierfür nutzen wir einen vortrainierten Word-in-Context-Embedder, der es uns erlaubt, diese Aufgabe in einem 'few-shot'-Szenario zu modellieren. Zusätzlich verwenden wir menschliche Annotationen, um unsere Modelle anzupassen und zu evaluieren. Verglichen mit einer zufälligen Probe aus einem Korpus ist unser Modell dazu in der Lage, die Anzahl an nicht abgedeckten Wortverwendungen signifikant zu erhöhen.


Dictionaries cover the senses of words at a certain point in time. If a word gains a new sense or loses an old one in a speaker community, its dictionary entry may become outdated. The aim of the thesis will be to investigate systems that discover missing dictionary entries in modern English and Swedish dictionaries by comparing target word usages from reference corpora to the dictionary entries for the target word. The basic task is to decide whether a word usage is covered by any sense in the dictionary entry of the target word or not. For this, we use a pre-trained Word-in-Context embedder that allows us to model this task in a few-shot scenario. Additionally, we use human annotations to tune and evaluate our models. Compared to a random sample from a corpus, our model is able to significantly increase the number of uncovered word usages.

Description

Keywords

Citation

Endorsement

Review

Supplemented By

Referenced By