How well do language models understand grammar? : a case study on Japanese

Breul, Gerhard Christian

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-12784

Autor(en):	Breul, Gerhard Christian
Titel:	How well do language models understand grammar? : a case study on Japanese
Erscheinungsdatum:	2022
Dokumentart:	Abschlussarbeit (Master)
Seiten:	59
URI:	http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-128030 http://elib.uni-stuttgart.de/handle/11682/12803 http://dx.doi.org/10.18419/opus-12784
Zusammenfassung:	Modern attention-based language models such as BERT and GPT have been shown to outperform previous state-of-the-art models on many NLP tasks. This performance implies a level of understanding of grammatical structures. This work attempts to contribute to the growing body of research assessing this understanding, by exploring language models' ability to predict the transitivity of verbs in Japanese, which seems to be somewhat underrepresented in research compared to English. I consider a variety of language models with different architectures, tokenization approaches, training data, and training regimes. In doing so, I find that bidirectional models outperform unidirectional ones, that different types of perplexity calculation can be advantageous in certain situations and should be considered on a case-by-case basis, and that the tested models only gain a somewhat limited understanding of the grammar required for the Transitivity Prediction task. Moderne auf Aufmerksamkeitsmechanismen basierende Sprachmodelle wie BERT und GPT zeigen bessere Ergebnisse in vielen NLP-Aufgaben, als die Modelle, die bis dahin den Stand der Technik verkörpert hatten. Derartige Ergebnisse implizieren einen Grad von Verständnis von grammatikalischen Strukturen. Diese Arbeit erkundet die Fähigkeit von Sprachmodellen, Transitivität von Verben auf Japanisch vorherzusagen, und versucht so, einen Beitrag zu der wachsenden Menge an Forschung an solchem Sprachverständnis zu leisten. Ich vergleiche eine Vielzahl verschiedener Sprachmodelle mit unterschiedlichen Architekturen, Tokenisierungsansätzen, Trainingsregimenten und -datensätzen. Hierdurch finde ich, dass bidirektionale Modelle generell bessere Ergebnisse erzielen als Unidirektionale, und dass verschiedene Methoden der Perplexitätsberechnung situationsbedingt vorteilhaft sein können. Außerdem schließe ich, dass die getesteten Modelle ein nur lückenhaftes Verständnis für die Grammatik erlangt haben, die für Transitivitätsvorhersage notwendig ist.
Enthalten in den Sammlungen:	05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:

Datei	Beschreibung	Größe	Format
Masterarbeit Gerhard Breul.pdf		1,53 MB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige

Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.

Universität Stuttgart

OPUS - Online Publikationen der Universität Stuttgart