Low resource NLP for polysynthetic languages : morphological segmentation and machine translation
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
This thesis explores the application of Natural Language Processing (NLP) techniques to morphologically rich indigenous languages of the Americas, focusing on low-resource scenarios. The work addresses the challenges of modeling morphological segmentation and machine translation for these languages, often lacking large annotated datasets and facing issues like code-switching and orthographic normalization. Contributions include the development of new datasets, the adaptation of neural network models for specific tasks, and the investigation of the impact of morphological segmentation on machine translation performance. Additionally, the thesis delves into the ethical implications of applying NLP technologies to these languages, considering the perspectives of native speakers and community leaders.
Diese Dissertation untersucht die Anwendung von Techniken der Verarbeitung natürlicher Sprache (NLP) auf morphologisch reiche indigene Sprachen Amerikas, mit Fokus auf Szenarien mit begrenzten Ressourcen. Die Arbeit befasst sich mit den Herausforderungen der Modellierung morphologischer Segmentierung und maschineller Übersetzung für diese Sprachen, denen oft umfangreiche annotierte Datensätze fehlen und die mit Problemen wie Code-Switching und orthografischer Normalisierung konfrontiert sind. Zu den Beiträgen gehören die Entwicklung neuer Datensätze, die Anpassung neuronaler Netzwerkmodelle für spezifische Aufgaben und die Untersuchung der Auswirkungen morphologischer Segmentierung auf die Leistung maschineller Übersetzung. Darüber hinaus geht die Dissertation auf die ethischen Implikationen der Anwendung von NLP-Technologien auf diese Sprachen ein und berücksichtigt dabei die Perspektiven von Muttersprachlern und Gemeindeführern.