Byte-pair-encoding for knowledge graph embeddings
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
In the field of knowledge representation, Knowledge Graphs~(KGs) play a crucial role in organizing and representing vast amounts of information. However, they are inherently incomplete, as links can be missing from the graph. The task of predicting such missing links is known as \textit{link prediction}. Link prediction is performed in different settings, namely transductive, where all entities and relation types are observed during training; inductive, where some entities are unseen; and fully-inductive, where some entities and relation types are unseen. A considerable amount of effort has been devoted to improving link prediction in the transductive setting, with Knowledge Graph Embedding~(KGE) emerging as a prominent approach. While research on inductive and fully-inductive link prediction has been conducted, existing methods rely on additional information beyond the set of training edges. To leverage the rich transductive literature for the two inductive settings, recent work in the form of BytE proposed using a BPE tokenizer to adapt transductive KGE to the inductive settings. However, it relies on a pre-constructed token vocabulary that may not be suitable for all knowledge graphs, and its evaluation is limited to benchmarks that contain only a few test edges with unseen elements. This thesis builds upon BytE by introducing purpose-built token vocabularies, modifying the process of transforming token embeddings into entity and relation embeddings, and subsequently performing a systematic evaluation on standard inductive benchmarks.
Wissensgraphen (Knowledge Graphs, KGs) sind ein zentrales Mittel zur strukturierten Repräsentation großer Informationsmengen. Sie sind jedoch von Natur aus unvollständig, da Verbindungen jederzeit fehlen können.Deswegen ist die Vorhersage fehlender Verbindungen – bekannt als Link-Prediction – eine zentrale Aufgabe. Link-Prediction wird in verschiedenen Kontexten durchgeführt, nämlich transduktiv, wo alle Entitäten und Beziehungstypen während des Trainings beobachtet werden; induktiv, wo einige Entitäten nicht sichtbar sind; und vollständig induktiv, wo einige Entitäten und Beziehungstypen nicht sichtbar sind. Es wurden erhebliche Anstrengungen unternommen, um Link-Prediction im transduktiven Umfeld zu verbessern, wobei sich Knowledge Graph Embedding (KGE) als ein prominenter Ansatz herauskristallisiert hat. Während transduktive Methoden gut erforscht sind, benötigen bestehende Ansätze für induktive Szenarien oft zusätzliche Informationen über die Trainingsdaten hinaus. Um den vielerforschten Bereich der transduktiven Link-Prediction auszunutzen, wurde kürzlich BytE als Ansatz vorgeschlagen. Dieser passt transduktive Embedding-Modelle mithilfe eines BPE-Tokenizers an induktive Aufgaben an. Allerdings basiert diese Methode auf einem vordefinierten Token-Vokabular und wurde nur auf Benchmarks mit wenigen Verbindungen mit unbekannten Entitäten evaluiert. Diese Arbeit baut auf BytE auf, indem sie speziell entwickelte Token-Vokabulare einführt, den Prozess der Umwandlung von Token-Embeddings in Entitäts- und Beziehungs-Embeddings modifiziert und anschließend eine systematische Bewertung anhand von Standard-Induktionsbenchmarks durchführt.