Kategorisierung der Zustandsveränderungen bei CoS-Verben auf Basis von Bild- und/oder Textdaten
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Sowohl textliche als auch visuelle Informationen können für das Verständnis einer Aktion relevant sein. In dieser Bachelorarbeit werden Aktionen betrachtet, die zu einer Veränderung im Zustand des beteiligten Objekts führen. Ziel dabei ist die Beantwortung der Forschungsfrage, welchen Beitrag die Modalitäten bei der Vorhersage von solchen Zustandsveränderungen haben. Die Vorhersage erfolgt mithilfe von Kategorien wie beispielsweise Farbe, Größe und Quantität. Ein wesentlicher Bestandteil dieser Bachelorarbeit ist die Erstellung eines Datensatzes, der Beispielvorkommen von Aktionen mit Zustandsveränderungen enthält. Eine weitere Aufgabe besteht darin, einiger dieser Datenpunkte mit Kategorien von Zustandsveränderungen annotieren zu lassen. Darüber hinaus wird ausgehend von einem visiolinguistischen Modell eine Ablationsstudie durchgeführt. Diese erlaubt mithilfe verschiedener Klassifikatoren, den Einfluss der verschiedenen Modalitäten auf die Leistungsfähigkeit eines Modells im Hinblick auf die Vorhersage von Zustandsveränderungen zu testen. Diese Bachelorarbeit veranschaulicht unter anderem Schwierigkeiten im Rahmen der Annotationen. Die Leistungsfähigkeit bezüglich der Vorhersage von Kategorien, gemessen mit der Akkuratheit, ist bei den Klassifikatoren ähnlich hoch wie bei einem Baseline Modell. Die verschiedenen Klassifikatoren treffen Vorhersagen mit ähnlicher Akkuratheit, sodass die Forschungsfrage mit den Ergebnissen dieser Bachelorarbeit nicht hinreichend beantwortet werden kann. Die Hypothese, dass die Kombination aus textlicher und visueller Modalität komplementäre Informationen liefert und dementsprechend die Kombination beider Modalitäten relevant ist, wird durch die Ergebnisse nicht bestätigt. Ergänzend wird durch diese Bachelorarbeit gezeigt, dass die trainierten Klassifikatoren es ermöglichen, in gewissem Maße auf ungesehene Datenpunkte, ungesehene Verben und ungesehene Domänen zu generalisieren.
Both textual and visual information can be relevant to understand an action. In this bachelor thesis, I focus on actions that lead to a change in the state of the object involved. The goal is to answer the research question, how much the modalities contribute for predicting such state changes. The prediction is made with help of categories, such as color, size and quantity. An essential part of this bachelor thesis is the creation of a dataset of example occurrences of actions that lead to state changes. Some of its data points are getting annotated with categories of state changes. Furthermore, starting from a visiolinguistic model, an ablation study is conducted. This study allows by using different classifiers to test the influence of the modalities on the model performance in terms of predicting state changes. This bachelor thesis illustrates difficulties in the annotation. The performance in terms of category prediction, measured with accuracy, is similar for the classifiers as for a baseline model. The different classifiers make predictions with similar accuracy, thus the research question cannot be adequately answered with the results of this bachelor thesis. The hypothesis that the combination of the textual and visual modality provides complementary information and accordingly the combination of both modalities is relevant is not confirmed by the results. Furthermore, this bachelor thesis shows that the trained classifiers allow to generalize to unseen data points, unseen verbs and unseen domains to a certain extent.