Image-based compositionality prediction for English noun compounds
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Predicting the compositionality of English noun-noun compounds, such as lion tooth and climate change, has traditionally relied on text-based approaches. This thesis explores the potential of using a purely image-based approach instead. The proposed image-based approach encodes images of both the compounds and their constituents into vector representations using a Vision Transformer and assesses their similarity through cosine similarity. The effectiveness of this approach is evaluated against human compositionality ratings from a widely-used dataset and compared with a conventional text-based approach to highlight their respective strengths and weaknesses. Additionally, various image acquisition techniques are explored to determine the most effective way to obtain images that accurately represent the meanings of the corresponding words, as this greatly impacts performance My results reveal that, with sufficiently representative images, the image-based approach achieves promising results but still falls slightly short overall compared to the baseline text-based approach. Notably, for specific categories of compounds, namely concrete and literal ones, the image-based approach can even outperform the baseline. However, considerable challenges in image acquisition impact overall performance, as obtaining high-quality and contextually accurate images remains difficult. Moreover, the image-based approach encounters limitations in cases where visual similarity does not align well with semantic relatedness, suggesting that image-only methods may struggle with accurate predictions for these compounds. This thesis offers a viable alternative to traditional text-based compositionality prediction approaches and provides insights that could drive the development of multi-modal approaches, potentially enhancing prediction accuracy in this domain.
Traditionell wird die Kompositionalität englischer Nomen-Nomen-Komposita wie lion tooth (‘Löwenzahn‘) und climate change (‘Klimawandel‘) durch textbasierte Ansätze vorhergesagt. Diese Arbeit untersucht das Potenzial eines rein bildbasierten Ansatzes als Alternative zu diesen herkömmlichen Methoden. Der bildbasierte Ansatz verwendet einen Vision Transformer, um Bilder der Komposita und ihrer Bestandteile in Vektorrepräsentationen umzuwandeln, die anschließend mittels Kosinusähnlichkeit miteinander verglichen werden. Die Effektivität dieses Ansatzes wird anhand von menschlichen Kompositionalitätsbewertungen aus einem weit verbreiteten Datensatz bewertet und mit einem konventionellen textbasierten Ansatz verglichen, um deren jeweilige Stärken und Schwächen aufzuzeigen. Zusätzlich werden verschiedene Methoden zur Bildgewinnung getestet, um herauszufinden, welche am besten geeignet ist, Bilder zu erhalten, die die Bedeutung der Wörter möglichst genau widerspiegeln, da dies einen erheblichen Einfluss auf die Leistung hat. Meine Ergebnisse zeigen, dass der bildbasierte Ansatz mit ausreichend repräsentativen Bildern vielversprechende Resultate liefert, jedoch insgesamt noch etwas hinter dem textbasierten Ansatz zurückbleibt. Besonders hervorzuheben ist, dass der bildbasierte Ansatz bei bestimmten Kategorien von Komposita, wie konkreten und wörtlichen, sogar bessere Ergebnisse liefern kann als der textbasierte Ansatz. Dennoch wird die Gesamtleistung durch erhebliche Schwierigkeiten bei der Bildgewinnung beeinträchtigt, da es weiterhin schwierig ist, qualitativ hochwertige und repräsentative Bilder zu erhalten. Darüber hinaus stößt der bildbasierte Ansatz an seine Grenzen, wenn visuelle Ähnlichkeiten nicht mit der semantischen Verwandtschaft übereinstimmen. Dies deutet darauf hin, dass bildbasierte Ansätze Schwierigkeiten haben könnten, präzise Vorhersagen für diese Komposita zu treffen. Insgesamt stellt diese Arbeit eine vielversprechende Alternative zu traditionellen textbasierten Ansätzen zur Kompositionalitätsvorhersage dar und liefert außerdem wertvolle Erkenntnisse, die zur Weiterentwicklung multimodaler Ansätze beitragen könnten.