Dimensionality and noise in models of semantic change detection

Kaiser, Jens

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-11185

Autor(en):	Kaiser, Jens
Titel:	Dimensionality and noise in models of semantic change detection
Erscheinungsdatum:	2020
Dokumentart:	Abschlussarbeit (Bachelor)
Seiten:	28
URI:	http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-112022 http://elib.uni-stuttgart.de/handle/11682/11202 http://dx.doi.org/10.18419/opus-11185
Zusammenfassung:	This thesis analyses the topic of"Dimensionality and noise in models of Semantic Change Detection". Semantic Change Detection: Words change their meaning over time due to social and technological influences. This change can be recognised and quantified with special automated models. Automated models for Semantic Change Detection usually consist of three parts. 1) Create word embeddings on corpus t1 and corpus t2, 2) Align vector spaces of the embeddings, 3) Measure changes between vectors. The models must generate a ranking for a given set of so-called "target words", which lists the words according to measured change of meaning. Word embeddings are low (about 2 to 1000) dimensional vector representations of words. Word vectors can be generated in different ways and contain information about semantic relationships between words. In this thesis we use Skip-Gram Negative Sampling (SGNS) to create the embeddings. This is a much used model in Natural Language Processing, especially in the field of Semantic Change Detection. SGNS is based on a neural network that attempts to predict the context of a given word. A large text corpus is used for training. Important hyper-parameters of SGNS, which we investigate are dimensionality and training epochs. Dimensionality, as the name suggests, determines the dimensionality of word vectors. The number of training epochs determines how often SGNS iterates over the corpus. Multiple training runs are used to artificially increase the training data. Data sets for Semantic Change Detection consist of two or more corpora from different time periods. Since word embeddings are created on all corpora, it is important that the vector spaces are aligned. Without alignment they cannot be compared directly. If embeddings are created independently, it is possible that the columns in the vectors represent different axes. We investigate three modern models that address this problem in different ways. 1) Vector Initialisation (VI): Kim et al. (2014) In VI, SGNS is first trained on one of the corpora. Then the weights from the SGNS model are stored and used to initialise the weights in the second SGNS model. The second model then trains on the second corpora. The intuition for this method is that the vectors for the words are already learned when they are used for initialisation. This should only change the vectors of words that have changed their meaning or usage. 2) Orthogonal Procrustes (OP): Hamilton et al (2016) Here two SGNS models are trained independently on the two corpora. Then an orthogonally constrained rotation matrix is calculated, which approximates the vector spaces. 3) Word Injection (WI) Ferrari et al. (2017) Word Injection inserts a special symbol after all target words, which marks the time period they come from (t1 or t2). Afterwards the two corpora are mixed and a large corpus is created. The SGNS model which is trained on this corpus, now creates two vectors for each target word, one for t1 and one for t2. All remaining words get only one vector each. Because the embeddings are generated by the same model they are already aligned to each other. Based on our own observations during the seminar "Lexical Semantic Change Detection" about the behaviour of VI with extremely low dimensionality and the works of Dubossarsky et al. (2018) and Yin and Shan (2018), we developed the following four hypotheses: - The optimal dimensionality is different for all three models. - VI has a lower optimal dimensionality than OP, and OP has a lower one the an WI - VI captures more noise than OP and OP captures more noise than WI with equal dimensionality. - The optimal dimensionality for each model is a function of other parameters such as number of training epochs and corpus size. Noise is defined as information that describes non-semantic relationships between words. These hypotheses served as a guide for the first part of the experiments. We used data sets provided by Schlechtweg et. al. (2020). These consist of four different languages (German, English, Latin and Swedish), which have different corpus sizes and are from different time periods. The German and Swedish corpora, for example, are much larger than the English and Latin corpora. There is also a ranking list for each language, in which the target words are listed according to their true degree of meaning change. This ranking was created manually and is used to determine how well the models can detect semantic. In the first experiment we evaluate the results of the three alignment methods with different dimensions. In addition, a noise measurement with different dimensions is also performed. With the results of this experiment we try to answer the four hypotheses. The first hypothesis could not be definitely confirmed or disproved, because VI and WI often had similar optimal dimensionality. The second hypothesis could therefore not be definitively answered either. In addition, the optimal dimensionality of OP was partly above that of VI and WI, and partly below. The third hypothesis could be refuted by the procedure we used to measure noise in this experiment. It turned out that OP was often the method with the greatest amount of noise. VI and WI showed similar values again. The last of the four hypotheses could also not be answered definitively. How the number of training epochs influences the optimal dimensionality of VI will be investigated in the following experiments. For OP and WI, however, no correlation between the two values could be detected. How the corpus size influences the optimal dimensionality could not be answered, because the results on the two smaller corpora showed very large variances and furthermore no clear optimum of dimensionality could be identified. An interesting observation of the first experiment is that VI with higher dimensionality gets worse and worse results. However, it should be possible to explain the behaviour with higher levels of noise in high dimensions. It turns out that the approach of our noise measurement could not explain the deterioration. The next experiment investigates the relationship between word frequency and measured change for the corresponding word. Such a relationship can be described as a noise. Here, VI shows a correlation between frequency and the change ranking with. The correlation increases with increasing dimensionality. OP and WI show no significant correlation between the two values. With VI, it can be seen that as soon as this correlation exceeds a certain value, the results on the test data begin to deteriorate. We show that this frequency bias is the cause of the bad results. In the final experiment, two approaches are presented which strongly prevent frequency bias and thus improve results with high dimensionality. The first is to increase the epoch count and the second is to normalise the vectors used to initialise the second SGNS model. Why the respective procedures prevent frequency bias could not be identified. In dieser Thesis wird das Thema "Dimensionalität und Störungen in Modellen der Bedeutungswandel Erkennung" behandelt. Bedeutungswandel Erkennung: Auf Grund von sozialen und technologischen Einflüssen ändern Wörter ihre Bedeutung im Laufe der Zeit. Diesen Wandel kann man mit speziellen automatisierten Modellen erkennen und quantifizieren. Automatisierte Modelle zur Bedeutungswandel Erkennung bestehen in der Regel aus drei Teilen. 1) Word Embeddings auf Korpus t1 und Korpus t2 erzeugen, 2) Vektorräume der Embeddings angleichen 3) Änderungen zwischen Vektoren messen. Die Modelle müssen für ein bestimmtes Set an sogenannten "Ziel Wörtern" eine Rangliste erzeugen, welche die Wörter nach gemessenem Bedeutungswandel auflistet. Word Embeddings sind niedrig (ca. 2 bis 1000) dimensionale Vektor Repräsentationen von Wörtern. Wort Vektoren können auf unterschiedliche Weisen erzeugt werden und beinhalten Informationen bezüglich semantischer Beziehungen zwischen Wörtern. In dieser Arbeit verwenden wir Skip-Gram Negative Sampling (SGNS) zum Erzeugen der Embeddings. Dies ist ein viel genutztes Modell in der Maschinellen Sprachverarbeitung, besonders im Feld der Bedeutungswandel Erkennung. SGNS basiert auf einem Neuronalen Netzwerk, welches auf Eingabe eines Wortes versucht dessen Kontext vorauszusagen. Das Training erfolgt auf einem Textkorpus. Wichtige Hyper-Parameter von SGNS, die von uns untersucht werden sind Dimensionalität und Training Epochen Anzahl. Die Dimensionalität bestimmt wie der Name schon sagt, die Dimensionalität der Wort Vektoren. Mit der Training Epochen Anzahl kann man bestimmen wie oft SGNS über den Korpus iteriert. Mehrfache Trainings Durchläufe werden genutzt um die Trainingsdaten künstlich zu vergrößern. Datensätze zur Bedeutungswandel Erkennung bestehen aus zwei oder mehreren Korpora aus verschieden Zeitperioden. Da Word Embeddings auf allen Korpora erzeugt werden, muss darauf geachtet werden, dass die Vektorräume aneinander angeglichen sind. Ohne Angleichung können diese nicht direkt miteinander verglichen werden. Bei unabhängig voneinander erstellten Embeddings ist es möglich, dass die Zeilen in den Vektoren andere Achsen darstellen. Wir untersuchen drei moderne Modelle die dieses Problem auf unterschiedliche Weise angehen. 1) Vector Initialisation (VI): Kim et al. (2014) Bei VI wird zuerst SGNS auf einem der Korpora trainiert. Dann werden die Gewichte aus dem SGNS Modell gespeichert und genutzt um die Gewichte im zweite SGNS Modell zu initialisieren. Das zweite Modell trainiert dann auf dem zweiten Korpus. Die Intuition zu dieser Methode ist dass die Vektoren für die Wörter schon gelernt sind wenn sie zum Initialisieren genutzt werden. Dadurch sollten sich nur die Vektoren der Wörter ändern welche ihre Bedeutung oder Verwendung geändert haben. 2) Orthogonal Procrustes (OP): Hamilton et al. (2016) Hier werden zwei SGNS Modelle unabhängig voneinander auf den beiden Korpora trainiert. Dann wird eine orthogonal beschränkte rotations Matrix berechnet, welche die Vektorräume einander angleicht. 3) Word Injection (WI) Ferrari et al. (2017) Word Injection fügt hinter alle Ziel Wörter ein spezielles Symbol ein, welches markiert aus welcher Zeit Periode es stammt (t1 oder t2). Anschließend werden die beiden Korpora gemischt und wodurch ein großer Korpus entsteht. Das SGNS Modell welches auf diesem Korpus trainiert wird erzeugt nun für jedes Ziel Wort zwei Vektoren, einen für t1 und einen für t2. Alle restlichen Wörter erhalten jeweils nur einen Vektor. Dadurch dass die Embeddings von selbigen Modell erzeugt wurden sind diese bereits aneinander angeglichen. Auf Basis von eigenen Beobachtungen während dem Seminar "Lexical Semantic Change Detection" über das Verhalten von VI mit extrem niedriger Dimensionalität und den Werken von Dubossarsky et al. (2018) und Yin und Shan (2018), stellten wir folgende vier Hypothesen auf: - Die optimale Dimensionalität der drei Methoden ist unterschiedlich. - Die optimale Dimensionalität von VI ist niedriger als die von OP, und die von OP ist niedriger als die von WI. - item VI hat mehr Störungen als OP, und OP hat mehr als WI. - item Korpus größe und Epochen Anzahl beeinflussen die optimale Dimensionalität. Störungen sind definiert als Information, welche nicht semantische Beziehungen zwischen Wörtern beschreiben. Diese Hypothesen dienten als Leitfaden für den ersten Teil der Experimente. Wir haben die Datensätze von Schlechtweg et. al. (2020) genutzt. Diese bestehen aus vier verschieden Sprachen (Deutsch, Englisch, Latein und Schwedisch), welche unterschiedlichen Korpus Größen haben und aus verschiedenen Zeitperioden stammen. Die deutschen und schwedischen Korpora z.B. sind wesentlich größer als die englischen und lateinischen Korpora. Zu den jeweiligen Sprachen ist auch eine Rangliste gegeben, in der die Ziel Wörter nach ihrem wahren Grad an Bedeutungsänderung aufgelistet sind. Diese Rangliste wurde manuell erstellt und gilt als Referenz wie gut die Modelle Bedeutungswandel erkennen können. Im ersten Experiment beurteilen wir die Ergebnisse der drei Anpassungs-Methoden mit verschieden Dimensionen. Zusätzlich wird auch eine Strömungsmessung mit verschieden Dimensionen durchgeführt. Mit den Ergebnissen dieses Experimentes versuchen wir die vier Hypothesen zu beantworten. Die erste Hypothese konnte nicht definitiv bestätigt oder widerlegt werden, da VI und WI oft ähnliche optimale Dimensionalität aufwies. Auch die zweite Hypothese konnte deswegen nicht definitiv beantwortet werden. Dazu kam, dass die optimale Dimensionalität von OP teils über der von VI und WI lag, und teils darunter. Die dritte Hypothese konnte mit dem Vorgehen mit welchem wir in diesem Experiment Störungen gemessen haben, widerlegt werden. Es zeigte sich dass OP häufig die Methode mit den größten Störungen war. VI und WI zeigten wieder ähnliche Werte. Die letzte der vier Hypothesen konnte auch nicht endgültig Beantwortet werden. Wie die Anzahl der Trainings Epochen die optimale Dimensionalität von VI beeinflusst wird in den nachfolgenden Experimenten genauer untersucht. Für OP und WI ließ sich jedoch kein Zusammenhang der beiden Werte erkennen. Wie die Korpusgröße die optimale Dimensionalität beeinflusst konnten wir nicht beantworten, da die Ergebnisse auf den beiden kleineren Korpora sehr große Varianzen aufwiesen und zudem kein klares Optimum der Dimensionalität erkennbar war. Eine interessante Beobachtung des ersten Experiments ist, dass VI mit höherer Dimensionalität immer schlechtere Ergebnisse erzielt. Das Verhalten sollte jedoch mit größeren Störungen mit hohen Dimensionen erklärt werden können. Es zeigt sich dass, die Vorgehensweise unserer Strömungsmessung die Verschlechterung nicht erklären konnte. Das nächste Experiment untersucht den Zusammenhang zwischen Wort Frequenz und gemessener Änderung für das entsprechende Wort. Ein solcher Zusammenhang kann als Störung beschrieben werden. Hier zeigt sich bei VI eine Korrelation zwischen Frequenz und der Änderungs Rangliste mit. Die Korrelation wird größer mit zunehmender Dimensionalität. OP und WI zeigen keine signifikante Korrelation der beiden Werte. Bei VI ist zu sehen, dass sobald diese Korrelation einen gewissen Wert überschreitet, die Ergebnisse auf den Testdaten sich beginnen zu verschlechtern. Wir zeigen dass dieser Frequenz BIas die Ursache der schlechten Ergebnisse sind. Im finalen Experiment werden zwei Vorgehen präsentiert welche den Frequenz Bias stark verhindern und somit Ergebnisse mit hoher Dimensionalität verbessern. Das erste Vorgehen ist erhöhen der Epochen Anzahl und das zweite ist eine längere normalisierung der Vektoren welche benutzt werden um das zweite SGNS Modell zu initialisieren. Warum die jeweiligen Vorgehen den Frequenz Bias verhindern konnte nicht identifiziert werden.
Enthalten in den Sammlungen:	05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:

Datei	Beschreibung	Größe	Format
Kaiser_Bachelorarbeit.pdf		1,15 MB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige

Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.

Universität Stuttgart

OPUS - Online Publikationen der Universität Stuttgart