05 Fakultät Informatik, Elektrotechnik und Informationstechnik
Permanent URI for this collectionhttps://elib.uni-stuttgart.de/handle/11682/6
Browse
6 results
Search Results
Item Open Access Modeling the evaluative nature of German personal name compounds(2023) Deeg, TanaGerman personal name compounds such as Villen-Spahn (’villa-Spahn’), Gold-Rosi (’gold-Rosi’) and Folter-Bush (’torture-Bush’) are a rather infrequent phenomenon in the German language. They have the structure of determinative compounds and serve as a nickname for a usually well-known person. According to Belosevic (2022), personal name compounds are mostly evaluative, i.e. they evaluate the person behind the name in a positive or negative way. Further research on an evaluation across different groups of compounds (politics, showbusiness, sports) is proposed. This work will investigate the evaluative nature of 413 German personal name compounds that mostly have the structure of noun as modifier and last name as head. The 131 corresponding full names will be considered as well, e.g. Jens Spahn would correspond to Villen-Spahn. The context data of compounds and names was collected from Twitter and the Leipzig Corpora Collection. The valence value of these context words, based on a valence database of Köper and Schulte im Walde (2016), will be used to investigate the evaluative nature of compounds in comparison to their names. Furthermore, the relation to and function of the modifier will be examined. The valence values will then be used to verify whether there are noticeable differences between the groups of compounds. Afterwards, a linear regression will be implemented to predict a ’delta’ value: the difference between name valence and compound valence. Several predictor variables such as name valence, compound valence, modifier valence, age, gender, political party and nationality will be used. The results reveal that compounds are both positively and negatively evaluative in comparison to their full name while highlighting the reason why they were created. Compound valence and modifier valence are only partially correlated due to modifiers being involved rather accidentally or interpreted ironically. Lastly, noticable differences between the groups can be observed with politicians being the most negative group regarding their valence values. Conducting the linear regression with different combinations of predictor variables shows that compound valence is a highly significant predictor. Also, other variables such as modifier valence, age or political party are able to compose models that predict the delta value very well.Item Open Access Automatic classification of abstractness in English rigid nouns(2023) Saponaro, AlbertoThe main difference between (i) Mass-Count Languages (such as English) and (ii)Classifiers Languages (such as Chinese) is that (i) encode the information about nouns’ countability in their grammar and (ii) employ a classification system of classifiers to distinguish between individuals or substance. If the mass-count distinction is a characteristic of mass-count language, the substance-individuals denotation seems to be a concept universally available for all humans. Another concept that appears to be universally accessible and linked to the countability status of English nouns is the notion of abstractness. Then, mass nouns usually refer to an abstract object, and this is confirmed from the distribution of abstractness in the dataset. This thesis’ objective is to provide a model for the classification of rigid nouns (count or mass only) that is capable to generalize on the degree of abstractness. Additionally, it tests if a model trained with the same set of features is capable of rating the abstractness of those nouns. To accomplish these tasks, several sets of features are being identified based on syntactic and semantic properties of nouns that describe the mass-count distinction. The results indicate that the first model M1, a mass-count classifier that predicts the countability class of a rigid noun, provides reliable predictions and can generalize on the degree of abstractness of the targets. The second model M2, an abstractness rate predictor that assigns an abstractness rate from 1 to 5 to a rigid noun, is incapable of providing reliable ratings and cannot generalize on the countability status of the targets. A third model M3, an abstract-concrete (binary) classifier that predicts the abstractness class of a rigid noun, provides reliable predictions and can generalize on the countability status of the targets. Given that those results concerns rigid nouns only, further research can be conducted by examining the abstractness of elastic nouns. However, there is the need of an annotation that rates abstractness of nouns senses.Item Open Access Kategorisierung der Zustandsveränderungen bei CoS-Verben auf Basis von Bild- und/oder Textdaten(2023) Godbersen, JuleSowohl textliche als auch visuelle Informationen können für das Verständnis einer Aktion relevant sein. In dieser Bachelorarbeit werden Aktionen betrachtet, die zu einer Veränderung im Zustand des beteiligten Objekts führen. Ziel dabei ist die Beantwortung der Forschungsfrage, welchen Beitrag die Modalitäten bei der Vorhersage von solchen Zustandsveränderungen haben. Die Vorhersage erfolgt mithilfe von Kategorien wie beispielsweise Farbe, Größe und Quantität. Ein wesentlicher Bestandteil dieser Bachelorarbeit ist die Erstellung eines Datensatzes, der Beispielvorkommen von Aktionen mit Zustandsveränderungen enthält. Eine weitere Aufgabe besteht darin, einiger dieser Datenpunkte mit Kategorien von Zustandsveränderungen annotieren zu lassen. Darüber hinaus wird ausgehend von einem visiolinguistischen Modell eine Ablationsstudie durchgeführt. Diese erlaubt mithilfe verschiedener Klassifikatoren, den Einfluss der verschiedenen Modalitäten auf die Leistungsfähigkeit eines Modells im Hinblick auf die Vorhersage von Zustandsveränderungen zu testen. Diese Bachelorarbeit veranschaulicht unter anderem Schwierigkeiten im Rahmen der Annotationen. Die Leistungsfähigkeit bezüglich der Vorhersage von Kategorien, gemessen mit der Akkuratheit, ist bei den Klassifikatoren ähnlich hoch wie bei einem Baseline Modell. Die verschiedenen Klassifikatoren treffen Vorhersagen mit ähnlicher Akkuratheit, sodass die Forschungsfrage mit den Ergebnissen dieser Bachelorarbeit nicht hinreichend beantwortet werden kann. Die Hypothese, dass die Kombination aus textlicher und visueller Modalität komplementäre Informationen liefert und dementsprechend die Kombination beider Modalitäten relevant ist, wird durch die Ergebnisse nicht bestätigt. Ergänzend wird durch diese Bachelorarbeit gezeigt, dass die trainierten Klassifikatoren es ermöglichen, in gewissem Maße auf ungesehene Datenpunkte, ungesehene Verben und ungesehene Domänen zu generalisieren.Item Open Access CAPTCHA mechanisms using semantic NLU tasks(2024) Wolkober, MarcelIn 2019, one-fourth of all internet traffic was made of malicious bots. CAPTCHAs are a main countermeasure used as a test to detect non-human users. With the advancement of computational attackers using artificial intelligence, their success in these CAPTCHAs rises continuously. This bachelor’s thesis aims to provide new CAPTCHA mechanisms using semantic natural language understanding (NLU) tasks, which are generally considered hard to solve for advanced computational attackers. The task used for the NLU CAPTCHA challenges involves rating the semantic similarity of a word in two different contexts. A study with 275 participants was conducted to evaluate human usability. The study results show a high human difficulty for these challenges. Further, these challenges provide insufficient resistance against an advanced attacker. This leads to the conclusion that, in the current state, the semantic NLU CAPTCHA provides no benefit to existing CAPTCHAs. However, some challenge results indicate that with further adjustments, NLU tasks may still be relevant in use for CAPTCHA challenges.Item Open Access Automatic discrimination between abstract and concrete word classes(2024) Takamatsu, MomoAbstraktion in Kontrast zu Konkretheit ist ein grundlegendes Thema in der Computerlinguistik und Psycholinguistik, insbesondere bei der Textmodellierung für die computationeller Semantik. Mehrere Studien befassten sich mit der Analyse der Konkretheit auf Wortebene, indem sie verschiedene Maße auf englische Nomen, Adjektive und Verben anwenden (Naumann et al., 2018). In dieser Studie wurden bestehende Maße (Naumann et al., 2018) sowohl auf einzelne Zielwörter (Nomen, Adjektive und Verben), als auch auf semantischen WordNet-Klassen (Nomen) angewendet. Die erste Analyse untersucht die Verteilung von Kontextwörtern in Bezug auf ihre Konkretheit, basierend auf von Menschen bewerteten Konkretheitswerten, die von 1,0 (sehr abstrakt) bis 5,0 (sehr konkret) reichen. Mit Hilfe der Kosinus-Ähnlichkeit werden dann die am häufigsten vorkommenden Kontextwörter untersucht. Die Ergebnisse zeigen, dass abstrakte Wörter tendenziell mit abstrakten Adjektiv- und Verbkontexten auftreten, während Nomenkontexte für abstrakte Wörter eher gleichmäßig über die Konkretheitskategorien verteilt sind. Umgekehrt ist bei konkreten Zielwörtern der Anteil sehr konkreter Nomenkontexte recht hoch, was auf einen überwiegend konkreten Nomenkontext schließen lässt. Außerdem, kookkurieren abstrakte Zielwörter meist mit eher allgemeinen und abstrakten Wörtern (life), während konkrete Wörter mit einer Mischung aus ein paar eng verwandten konkreten Kontextwörtern (toothpaste) und allgemeinen Verben (make, take) gesehen werden. Dies und die Gesamtdichten der Kosinus-Ähnlichkeiten deuten auf eine hohe Diversität sowohl für konkrete, als auch für abstrakte Nomen-, Adjektiv- und Verbzielwörtern hin. Der Vergleich zwischen den Wortklassen und den einzelnen Wörtern zeigt je nach Wortklasse entweder unähnliche oder ähnliche Ergebnisse, was darauf hindeutet, dass die Wahl der Wortklasse wichtig ist. Die Größe scheint sowohl für abstrakte, als auch für konkrete Wortklassen irrelevant zu sein, da die Ergebnisse auch bei Wortklassen gleicher Größe unterschiedlich ausfielen. Es ist jedoch zu beachten, dass zu kleine oder zu konkrete Wortklassen tendenziell zu spärlichen Daten führen. Um zuverlässige und aussagekräftige Ergebnisse zu erhalten, sind daher größere Wortklassen vorzuziehen.Item Open Access Komputationelle Analyse der Bedeutungsaspekte von „nur“(2024) Wetzel, Julia Jolanda JasminDer deutsche Partikel „nur“ kann unterschiedliche semantische Bedeutungen haben, wie verschiedene linguistische Untersuchungen zeigen. Aus diesen kann die These abgeleitet werden, dass wahrheitskonditionale Bedeutung, evaluative Bedeutung und Konnektorbedeutung als drei zu unterscheidende Bedeutungen von „nur“ auftreten. Die evaluative Bedeutung kann zudem in Stärke und Art variieren. Ausgedrückt werden kann, dass das durch „nur“ Eingeschlossene als zu wenig empfunden wird und, dass diese Wenigkeit als schlecht empfunden wird. Die wahrheitskonditionale Bedeutung ist entweder vorhanden oder nicht relevant. Welche syntaktischen und semantischen Gegebenheiten die unterschiedlichen Bedeutungen hevorrufen, verstärken oder begünstigen, wird in dieser Arbeit untersucht. Durch die Analyse der Embeddings von „nur“- sowie CLS-Tokens bezüglich ihrer Verteilung im Vektorraum können hier unterschiedliche Bedeutungen nachgewiesen werden. Die Token-Embeddings zweier großer Sprachmodelle, GBert Large und GElectra Large, aus jeweils unterschiedlichen Schichten, wurden hier erstellt und mit PCA auf zwei Dimensionen reduziert, grafisch dargestellt und verglichen. In diesem Vergleich, verbunden mit einer menschlichen Annotation der Bedeutungsdimensionen der jeweiligen Sätze und Teilsätze, zeigen sich Zusammenhänge zwischen der Bedeutung von „nur“ und anderen Satzmerkmalen: So zeigt meine Arbeit, dass die Position von „nur“ innerhalb des Satzes Auswirkung auf die Bedeutung hat. Zudem hängt die Skalarität mit Vorkommen und Art der evaluativen Bedeutung zusammen. Evaluative Bedeutung kann wertend die Wenigkeit („little-/so-wenig-Bedeutung“) oder auch die Schlechtigkeit/den geringen Wert („bad-/so-schlecht-Bedeutung“) tragen. Die negativierte Verwendung von „nur“ führt zu einer nicht-evaluativen Bedeutung. Auch wird mit meiner Untersuchung belegt, dass beide verwendeten Modelle die Konnektorbedeutung erkennen und klar von den anderen Bedeutungen unterscheiden. Meine Erkenntnisse können als Grundlage zur Verbesserung der Vorhersage einer evaluative Bedeutung von „nur“ dienen und tragen zum besseren Verständnis der Semantik und Pragmatik von Sätzen mit „nur“ bei.