Effects of paraphrasing and demographic metadata on NLI classification performance

dc.contributor.authorMarx Larre, Miguel
dc.date.accessioned2023-10-20T07:09:39Z
dc.date.available2023-10-20T07:09:39Z
dc.date.issued2023de
dc.description.abstractNative language identification (NLI) refers to the task of automatically deducing the native language (L1) of a document's author, when the document is written in a second language (L2). Documents stem from different sources, but recently more documents are altered before publication through paraphrasing methods. This alteration changes the content, grammar, and style of the document, which inherently obfuscates the L1 of the author. In addition, the demographic metadata of the author, such as age and gender, may influence the performance with which an author's L1 may be detected. In this thesis, two corpora which provide necessary demographic metadata, the International Corpus of Learner English (ICLE) and the \textsc{Trustpilot} corpus, are used to analyze the impact of paraphrasing and demographic factors in the context of NLI tasks. To analyze the effect of paraphrasing on a document, new versions of both corpora are created, which contain paraphrased versions of the documents contained. The effect is inspected using two state-of-the-art NLI systems to perform the task, while the results were analyzed using a regression analysis in combination with dominance analysis (DA). Paraphrasing was found to have a substantial influence in performance of NLI tasks, regardless of corpus, classifier, or paraphrasing method. The usual influence of demographic factors on NLI tasks could not be confirmed in this thesis. Regression analysis and DA allowed for a more profound analysis of the results, which allowed for findings regarding the influence of specific L1s on performance of NLI tasks.en
dc.description.abstractDie Identifizierung der Muttersprache (NLI) bezieht sich auf die automatische Bestimmung der Erstsprache (L1) eines Autors anhand eines Dokuments, das in einer zweiten Sprache (L2) verfasst ist. Dokumente stammen aus verschiedenen Quellen, aber in letzter Zeit werden mehr Dokumente vor der Veröffentlichung durch Paraphrasierungstechniken verändert. Diese Änderungen beeinflussen den Inhalt, die Grammatik und den Stil des Dokuments und erschweren dadurch die Feststellung der L1 des Autors. Zusätzlich können demografische Metadaten des Autors wie Alter und Geschlecht die Genauigkeit der L1-Erkennung beeinflussen. In dieser Arbeit werden zwei Korpora, das International Corpus of Learner English (ICLE) und der Trustpilot-Korpus, verwendet, um den Einfluss von Umschreibungen und demografischen Faktoren im Zusammenhang mit NLI-Aufgaben zu analysieren. Um den Effekt von Umschreibungen auf ein Dokument zu untersuchen, werden neue Versionen beider Korpora erstellt, die paraphrasierte Varianten der enthaltenen Dokumente enthalten. Der Effekt wird mithilfe von zwei modernen NLI-Systemen analysiert, und die Ergebnisse werden durch Regression- und Dominanzanalyse (DA) untersucht. Es wurde festgestellt, dass Paraphrasierungen einen signifikanten Einfluss auf die Leistung von NLI-Aufgaben haben, unabhängig vom Korpus, Klassifizierer oder der verwendeten Paraphrasierungsmethode. Die übliche Auswirkung demografischer Faktoren auf NLI-Aufgaben konnte in dieser Arbeit nicht bestätigt werden. Die Regressionsanalyse und DA ermöglichten eine detaillierte Analyse der Ergebnisse und lieferten Erkenntnisse über den Einfluss bestimmter Muttersprachen auf die Leistung von NLI-Aufgaben.de
dc.identifier.other1867298163
dc.identifier.urihttp://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-136743de
dc.identifier.urihttp://elib.uni-stuttgart.de/handle/11682/13674
dc.identifier.urihttp://dx.doi.org/10.18419/opus-13655
dc.language.isoende
dc.rightsinfo:eu-repo/semantics/openAccessde
dc.subject.ddc004de
dc.titleEffects of paraphrasing and demographic metadata on NLI classification performanceen
dc.typebachelorThesisde
ubs.fakultaetInformatik, Elektrotechnik und Informationstechnikde
ubs.institutInstitut für Maschinelle Sprachverarbeitungde
ubs.publikation.seiten82de
ubs.publikation.typAbschlussarbeit (Bachelor)de

Files

Original bundle

Now showing 1 - 1 of 1
Thumbnail Image
Name:
Thesis_MiguelMarxLarre.pdf
Size:
2.07 MB
Format:
Adobe Portable Document Format
Description:

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
3.3 KB
Format:
Item-specific license agreed upon to submission
Description: