Benchmarking pre-trained language models for schema-agnostic entity resolution
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Data integration is a process in which data from different sources are brought together to create a unified picture of the data. A vital aspect of this integration is Entity Resolution, which tries to identify elements that correspond to the same entity across multiple datasets. The complexity of ER tasks can vary significantly, as data exhibits different characteristics and levels of structuredness, which can influence the difficulty of the task. In this thesis, we evaluate how current state-of-the-art Entity Resolution systems perform when dealing with semi-structured data. To do this, several semi-structured ER benchmarks covering data from various domains were created for evaluation. Additionally, to explore how different data characteristics or other influencing factors impact the performance of matching systems, we developed the Benchmark Creator. This tool allows us and other users to generate benchmarks where data exhibits specific characteristics that may influence the complexity of the ER task. We used Ditto, Sudowoodo and the GPT4o-mini model to evaluate performance on the newly created benchmarks. Our evaluation reveals that Ditto and the GPT4o-mini model can effectively perform schema-agnostic ER on semi-structured data.
Datenintegration ist ein wichtiger Prozess, beim dem Daten aus verschiedenen Quellen zusammengeführt werden, um ein einheitliches Bild der Daten zu schaffen. Ein wesentlicher Schritt in diesem Prozess ist Entity Resolution. Entity resolution versucht Elemente zu identifizieren, die dieselbe Entität repräsentieren. Die Komplexität von Entity Resolution Aufgaben kann stark variieren, da Daten unterschiedliche Eigenschaften und Strukturierungsgrade aufweisen, die die Aufgabe entweder erschweren oder vereinfachen können. In dieser Arbeit liegt der Fokus auf der Evaluierung von Entity Resolution Systemen hinsichtlich semi-strukturierter Daten. Aus diesem Grund wurden mehrere semi-strukturierte Entity Resolution Benchmarks erstellt, die Daten von verschiedenen Domänen benutzen und zur Bewertung benutzt werden. Um auch zu untersuchen, wie verschiedene Datenmerkmale oder andere Einflussfaktoren die Leistung von Entitiy Resolution Systemen beeinflussen, haben wir den Benchmark Creator entwickelt. Dieser ermöglicht es uns und anderen Nutzern, Benchmarks zu erstellen, bei denen die Daten spezifische Merkmale aufweisen, die die Performance von Entitiy Resolution Systemen beeinflussen können. Die Entity Resolution Systeme Ditto, Sudowoodo und das GPT4o-mini Modell wurden zur Evaluierung herangezogen. Es wurde gezeigt, dass sowohl Ditto und das GPT4o-mini Modell in der Lage sind, schema-agnostische Entity Resolution auf semi-strukturierten Daten effektiv durchzuführen.