Human and computational measurement of lexical semantic change

Schlechtweg, Dominik

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-12833

Autor(en):	Schlechtweg, Dominik
Titel:	Human and computational measurement of lexical semantic change
Erscheinungsdatum:	2023
Dokumentart:	Dissertation
Seiten:	xxiv, 202
URI:	http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-128520 http://elib.uni-stuttgart.de/handle/11682/12852 http://dx.doi.org/10.18419/opus-12833
Zusammenfassung:	Human language changes over time. This change occurs on several linguistic levels such as grammar, sound or meaning. The study of meaning changes on the word level is often called 'Lexical Semantic Change' (LSC) and is traditionally either approached from an onomasiological perspective asking by which words a meaning can be expressed, or a semasiological perspective asking which meanings a word can express over time. In recent years, the task of automatic detection of semasiological LSC from textual data has been established as a proper field of computational linguistics under the name of 'Lexical Semantic Change Detection' (LSCD). Two main factors have contributed to this development: (i) The 'digital turn' in the humanities has made large amounts of historical texts available in digital form. (ii) New computational models have been introduced efficiently learning semantic aspects of words solely from text. One of the main motivations behind the work on LSCD are their applications in historical semantics and historical lexicography, where researchers are concerned with the classification of words into categories of semantic change. Automatic methods have the advantage to produce semantic change predictions for large amounts of data in small amounts of time and could thus considerably decrease human efforts in the mentioned fields while being able to scan more data and thus to uncover more semantic changes, which are at the same time less biased towards ad hoc sampling criteria used by researchers. On the other hand, automatic methods may also be hurtful when their predictions are biased, i.e., they may miss numerous semantic changes or label words as changing which are not. Results produced in this way may then lead researchers to make empirically inadequate generalizations on semantic change. Hence, automatic change detection methods should not be trusted until they have been evaluated thoroughly and their predictions have been shown to reach an acceptable level of correctness. Despite the rapid growth of LSCD as a field, a solid evaluation of the wealth of proposed models was still missing at the onset of this thesis. The reasons were multiple, but most importantly there was no annotated benchmark test set available. This thesis is thus concerned with the process of providing such an evaluation for LSCD, including • the definition of the basic concepts and tasks, • the development and validation of data annotation schemes with humans, • the annotation of a multilingual benchmark test set, • the evaluation of computational models on the benchmark, their analysis and improvement, as well as • an application of the developed methods to showcase their usefulness in the targeted fields (historical semantics and lexicography). Die menschliche Sprache verändert sich im Laufe der Zeit. Dieser Wandel vollzieht sich auf verschiedenen sprachlichen Ebenen wie Grammatik, Laute oder Bedeutung. Die Untersuchung von Bedeutungsänderungen auf der Wortebene wird oft als 'lexikalischer Bedeutungswandel' bezeichnet und wird traditionell entweder aus einer onomasiologischen Perspektive mit der Frage angegangen, durch welche Wörter eine Bedeutung ausgedrückt werden kann, oder aus einer semasiologischen Perspektive mit der Frage, welche Bedeutungen ein Wort im Laufe der Zeit ausdrücken kann. In den letzten Jahren hat sich die Aufgabe der automatischen Erkennung von semasiologischem Bedeutungswandel aus Textdaten als ein eigenes Gebiet der Computerlinguistik unter dem Namen 'Bedeutungswandelerkennung' etabliert. Zwei Hauptfaktoren haben zu dieser Entwicklung beigetragen: (i) Der 'digital turn' in den Geisteswissenschaften hat große Mengen historischer Texte in digitaler Form verfügbar gemacht. (ii) Es wurden neue Computermodelle eingeführt, die semantische Aspekte von Wörtern allein aus Texten effizient erlernen. Eine der Hauptmotivationen für die Arbeit an der Bedeutungswandelerkennung sind ihre Anwendungen in der historischen Semantik und der historischen Lexikographie, wo sich Forscher unter anderem mit der Klassifizierung von Wörtern in Kategorien des Bedeutungswandels beschäftigen. Automatische Methoden haben den Vorteil, dass sie Bedeutungswandel für große Datenmengen in kurzer Zeit vorhersagen und so den menschlichen Aufwand in den genannten Bereichen erheblich verringern können, während sie in der Lage sind, mehr Daten zu scannen und somit mehr semantische Veränderungen aufzudecken, die gleichzeitig weniger durch die von Forschern verwendeten Ad-hoc-Stichprobenkriterien beeinflusst werden. Andererseits können automatische Methoden auch schädlich sein, wenn ihre Vorhersagen fehlerhaft sind, d. h. sie können zahlreiche semantische Veränderungen übersehen oder Bedeutungswandel bei Wörtern erkennen, die keinen durchlaufen. Die auf diese Weise gewonnenen Ergebnisse könnten dann Forscher dazu verleiten, empirisch fehlerhafte Verallgemeinerungen über Bedeutungswandel vorzunehmen. Daher sollte man automatischen Methoden zur Erkennung von Bedeutungswandel erst dann vertrauen, wenn sie gründlich evaluiert wurden und ihre Vorhersagen nachweislich einen akzeptablen Grad an Korrektheit erreicht haben. Trotz des rasanten Wachstums der Bedeutungswandelerkennung als Gebiet der Computerlinguistik fehlte zu Beginn dieser Arbeit noch eine solide Evaluierung der Fülle der vorgeschlagenen Modelle. Die Gründe dafür waren vielfältig, aber am wichtigsten war, dass kein annotierter Benchmark-Testdatensatz verfügbar war. Diese Arbeit befasst sich daher mit dem Prozess der Durchführung einer solchen Evaluierung für die Bedeutungswandelerkennung, einschließlich • der Definition der grundlegenden Konzepte und Tasks, • der Entwicklung und Validierung von Datenannotationsprozessen mit Menschen, • der Annotation eines mehrsprachigen Benchmark-Testdatensatzes, • der Evaluierung von Computermodellen auf dem Testdatensatz, deren Analyse und Verbesserung, sowie • der Anwendung der entwickelten Methoden, um ihre Nützlichkeit in den Zielbereichen (historische Semantik und Lexikographie) zu zeigen.
Enthalten in den Sammlungen:	05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:

Datei	Beschreibung	Größe	Format
schlechtweg_thesis.pdf		26,36 MB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige

Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.

Universität Stuttgart

OPUS - Online Publikationen der Universität Stuttgart