Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-14427
Autor(en): Takamatsu, Momo
Titel: Automatic discrimination between abstract and concrete word classes
Erscheinungsdatum: 2024
Dokumentart: Abschlussarbeit (Bachelor)
Seiten: iv, 44
URI: http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-144468
http://elib.uni-stuttgart.de/handle/11682/14446
http://dx.doi.org/10.18419/opus-14427
Zusammenfassung: Abstraktion in Kontrast zu Konkretheit ist ein grundlegendes Thema in der Computerlinguistik und Psycholinguistik, insbesondere bei der Textmodellierung für die computationeller Semantik. Mehrere Studien befassten sich mit der Analyse der Konkretheit auf Wortebene, indem sie verschiedene Maße auf englische Nomen, Adjektive und Verben anwenden (Naumann et al., 2018). In dieser Studie wurden bestehende Maße (Naumann et al., 2018) sowohl auf einzelne Zielwörter (Nomen, Adjektive und Verben), als auch auf semantischen WordNet-Klassen (Nomen) angewendet. Die erste Analyse untersucht die Verteilung von Kontextwörtern in Bezug auf ihre Konkretheit, basierend auf von Menschen bewerteten Konkretheitswerten, die von 1,0 (sehr abstrakt) bis 5,0 (sehr konkret) reichen. Mit Hilfe der Kosinus-Ähnlichkeit werden dann die am häufigsten vorkommenden Kontextwörter untersucht. Die Ergebnisse zeigen, dass abstrakte Wörter tendenziell mit abstrakten Adjektiv- und Verbkontexten auftreten, während Nomenkontexte für abstrakte Wörter eher gleichmäßig über die Konkretheitskategorien verteilt sind. Umgekehrt ist bei konkreten Zielwörtern der Anteil sehr konkreter Nomenkontexte recht hoch, was auf einen überwiegend konkreten Nomenkontext schließen lässt. Außerdem, kookkurieren abstrakte Zielwörter meist mit eher allgemeinen und abstrakten Wörtern (life), während konkrete Wörter mit einer Mischung aus ein paar eng verwandten konkreten Kontextwörtern (toothpaste) und allgemeinen Verben (make, take) gesehen werden. Dies und die Gesamtdichten der Kosinus-Ähnlichkeiten deuten auf eine hohe Diversität sowohl für konkrete, als auch für abstrakte Nomen-, Adjektiv- und Verbzielwörtern hin. Der Vergleich zwischen den Wortklassen und den einzelnen Wörtern zeigt je nach Wortklasse entweder unähnliche oder ähnliche Ergebnisse, was darauf hindeutet, dass die Wahl der Wortklasse wichtig ist. Die Größe scheint sowohl für abstrakte, als auch für konkrete Wortklassen irrelevant zu sein, da die Ergebnisse auch bei Wortklassen gleicher Größe unterschiedlich ausfielen. Es ist jedoch zu beachten, dass zu kleine oder zu konkrete Wortklassen tendenziell zu spärlichen Daten führen. Um zuverlässige und aussagekräftige Ergebnisse zu erhalten, sind daher größere Wortklassen vorzuziehen.
Abstraction in contrast to concreteness is a fundamental topic in the fields of Computational Linguistics and Psycholinguistics, particularly in text modeling for computational semantics. Several studies dealt with the analysis of the concreteness on a word level, applying different measures on English nouns, adjectives and verbs (Naumann, 2018). In this study, existing measures (Naumann, 2018) were applied on single target words (nouns, adjectives and verbs) as well as semantic WordNet classes (nouns). The first analysis examines the distribution of context words with respect to their concreteness based on human-rated concreteness scores ranging from 1.0 (very abstract) to 5.0 (very concrete). Cosine similarity is then used to explore the most frequently co-occurring context words. Results show that abstract words tend to co-occur with abstract adjective and verb contexts, while noun contexts for abstract targets are rather equally distributed across concreteness categories. Conversely, for concrete targets the proportion of very concrete noun contexts is quite high, suggesting a predominantly concrete noun context. Furthermore, abstract targets mostly co-occur with rather general and abstract words (e.g. "life"), whereas concrete targets are seen with a mixture of few closely related concrete context words (e.g., "toothpaste") and general verbs (e.g., "make," "take"). This and the overall cosine similarity densities suggest a high diversity for both concrete and abstract noun, adjective, and verb targets. Comparison between word classes and the single words show either dissimilar or mirroring results depending on the word class, suggesting that the choice of the word class is important. The size seems irrelevant for both abstract and concrete word classes since the results differed even with word classes of the same size. However, it is noteworthy that too small or too concrete word classes tend to have sparse data. Consequently, for reliable and informative results, larger word classes are more preferable.
Enthalten in den Sammlungen:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
Bachelor_thesis_Takamatsu.pdf695,54 kBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.