Automatic prioritization of dictionary update candidates
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
In order to stay relevant dictionaries have to be updated regularly with words and word senses that have emerged and changed over time. One of the most important dictionaries of the English language is the Oxford English Dictionary (OED). The OED keeps its dictionary updated by maintaining an internal watch list database called "LEMUR" where novel sense proposals are stored. Editors of the OED then manually score them based on research. The goal of the thesis "Automatic Prioritization of Dictionary Update Candidates" is to automate this process. To support this effort, we collaborated with Oxford University Press, the publisher of the Oxford English Dictionary, who provided several files such as LEMUR sense proposals and related dictionary entries. We developed a pipeline which extracts usages of words associated with the LEMUR sense proposals from the NOW corpus, filters out usages corresponding to senses that are already recorded in the dictionary and finally searches for evidence of the sense proposals among the remaining unrecorded usages. The number of evidence usages found for a sense proposal serves as prioritization score. The usage extraction from the NOW corpus is covered by another thesis. For the recorded usage filtering and searching for LEMUR evidence we built a wrapper for an existing method called Outlier2Cluster that is capable of assigning senses to usages and detecting novel senses, and has been proven to be effective for semantic change detection. We evaluate our pipeline based on gold prioritization scores provided to us along with some of the LEMUR sense proposals and based on annotations we conducted. The pipeline produces acceptable precision and recall for sense proposals of words that are not recorded in the dictionary yet and unreliable results for sense proposals where the associated word does already have sense entries in the dictionary. Moderate correlation between our prioritization scores and the gold scores exists. Overall results are acceptable but leave room for improvement.
Um relevant zu bleiben müssen Wörterbücher regelmäßig aktualisiert werden mit neuen Wörtern oder Wortbedeutungen, die im Laufe der Zeit entstehen und sich verändern. Eines der wichtigsten Wörterbücher der englischen Sprache ist das Oxford English Dictionary (OED). Um das Wörterbuch aktuell zu halten führt das OED eine interne Datenbank namens LEMUR, welche Vorschläge für neue Wortbedeutungen enthält. Diese Vorschläge werden manuell von Redakteuren des OED anhand von Recherchen bewertet. Das Ziel der Bachelorarbeit "Automatic Prioritization of Dictionary Update Candidates" ist es diesen Bewertungsprozess zu automatisieren. Hierfür haben wir mit dem OED zusammengearbeitet, die uns LEMUR Einträge und die damit verbundenen Wörterbucheinträge bereitgestellt haben. Hierfür haben wir eine Pipeline entwickelt welche zuerst aus dem NOW Korpus Textausschnitte extrahiert in denen die betroffenen Wörter der LEMUR Vorschläge vorkommen. Von diesen sogenannten Usages werden im nächsten Schritt diese herausgefiltert deren Wortbedeutung bereits im Wörterbuch enthalten sind. Hierfür wird jede Usage (Wort-Verwendung mit umliegendem Kontext) mit Einträgen des Wörterbuchs verglichen. In einem letzten Schritt werden die verbleibenden Usages mit den LEMUR Vorschlägen verglichen und Übereinstimmungen als Beleg für die jeweilige Relevanz gewertet. Die Anzahl der Usages die einem Vorschlag aus LEMUR zugewiesen wird, kann als "prioritization score" gesehen werden. Die Extraktion von relevanten Textausschnitten aus dem NOW Korpus wird nicht in dieser Arbeit behandelt. Für das Filtern von Usages deren Wortbedeutung bereits im Wörterbuch ist und das Suchen von Belegen für LEMUR Vorschläge in den verbleibenden Usages, verwenden wir einen Wrapper für eine bereits existierende Methode namens Outlier2Cluster. Diese Methode hat sich als effektiv erwiesen im Rahmen von "Semantic Change Detection" (dem Erkennen von Wandel in der Sprache). Wir haben die Pipeline Ergebnisse ausgewertet anhand von "prioritization scores" des OED, die manchen LEMUR Vorschlägen beigelegt waren und basierend auf einer Annotation von Daten die wir durchgeführt haben. Precision und Recall sind akzeptabel für LEMUR Vorschläge von Wörtern die noch keinen Eintrag im Wörterbuch haben und unzuverlässig für solche Wörter für die es bereits Einträge gibt. Zwischen den "Prioritization Scores" unserer Pipeline und den beigelegten des OED besteht eine moderate Korrelation. Insgesamt sind die Ergebnisse akzeptabel, lassen aber viel Raum für Verbesserungen.