Task-oriented specialization techniques for entity retrieval

Glaser, Andrea

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-11353

Autor(en):	Glaser, Andrea
Titel:	Task-oriented specialization techniques for entity retrieval
Erscheinungsdatum:	2020
Dokumentart:	Dissertation
Seiten:	xviii, 227
URI:	http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-113705 http://elib.uni-stuttgart.de/handle/11682/11370 http://dx.doi.org/10.18419/opus-11353
Zusammenfassung:	Finding information on the internet has become very important nowadays, and online encyclopedias or websites specialized in certain topics offer users a great amount of information. Search engines support users when trying to find information. However, the vast amount of information makes it difficult to separate relevant from irrelevant facts for a specific information need. In this thesis we explore two areas of natural language processing in the context of retrieving information about entities: named entity disambiguation and sentiment analysis. The goal of this thesis is to use methods from these areas to develop task-oriented specialization techniques for entity retrieval. Named entity disambiguation is concerned with linking referring expressions (e.g., proper names) in text to their corresponding real world or fictional entity. Identifying the correct entity is an important factor in finding information on the internet as many proper names are ambiguous and need to be disambiguated to find relevant information. To that end, we introduce the notion of r-context, a new type of structurally informed context. This r-context consists of sentences that are relevant to the entity only to capture all important context clues and to avoid noise. We then show the usefulness of this r-context by performing a systematic study on a pseudo-ambiguity dataset. Identifying less known named entities is a challenge in named entity disambiguation because usually there is not much data available from which a machine learning algorithm can learn. We propose an approach that uses an aggregate of textual data about other entities which share certain properties with the target entity, and learn information from it by using topic modelling, which is then used to disambiguate the less known target entity. We use a dataset that is created automatically by exploiting the link structure in Wikipedia, and show that our approach is helpful for disambiguating entities without training material and with little surrounding context. Retrieving the relevant entities and information can produce many search results. Thus, it is important to effectively present the information to a user. We regard this step beyond the entity retrieval and employ sentiment analysis, which is used to analyze opinions expressed in text, in the context of effectively displaying information about product reviews to a user. We present a system that extracts a supporting sentence, a single sentence that captures both the sentiment of the author as well as a supportingfact. This supporting sentence can be used to provide users with an easy way to assess information in order to make informed choices quickly. We evaluate our approach by using the crowdsourcing service Amazon Mechanical Turk. Das Auffinden von Informationen im Internet ist heutzutage sehr wichtig geworden, und Online-Enzyklopädien und auf bestimmte Themen spezialisierte Webseiten bieten Nutzern eine große Fülle an Informationen. Suchmaschinen unterstützen Benutzer beim Auffinden von Informationen. Allerdings macht die enorme Menge an Informationen es schwieriger, relevante von irrelevanten Fakten für ein spezifisches Infomationsbedürfnis zu unterscheiden. In dieser Dissertation untersuchen wir zwei Bereiche der Maschinellen Sprachverarbeitung im Kontext der Auffindung von Informationen zu Entitäten: Named Entity Disambiguation und Sentimentanalyse. Das Ziel ist es, mit Methoden aus diesen zwei Bereichen anwendungsorientierte Spezialtechniken für das Auffinden von Entitäten zu entwickeln. Named Entity Disambiguation beschäftigt sich damit, referierende Ausdrücke (z.B. Eigennamen) im Text auf ihre entsprechende Entität in der realen oder fiktiven Welt zu verlinken. Die korrekte Entität zu bestimmen ist ein entscheidender Faktor, um Informationen im Internet zu finden, da viele Eigennamen mehrdeutig sind und desambiguiert werden müssen, um relevante Informationen zu finden. Hierzu führen wir den Begriff r-context ein, eine neue Art von strukturell informiertem Kontext. Dieser r-context besteht nur aus den Sätzen, die für die Entität relevant sind, um alle wichtigen Kontexthinweise zu erfassen und ein Rauschen in den Daten zu vermeiden. Danach demonstrieren wir die Nützlichkeit dieses r-contexts, indem wir eine systematische Studie auf einem Pseudoambiguitäten-Datenset durchführen. Weniger bekannte Entitäten zu identifizieren ist eine Herausforderung, da oft nicht genug Daten vorhanden sind, von denen ein Machine Learning Algorithmus lernen kann. Wir stellen einen Ansatz vor, der ein Aggregat von textuellen Daten verwendet, die bestimmte Eigenschaften mit der Zielentität teilen, und lernen davon Informationen mit Hilfe von Topic Modelling, welches dann dazu verwendet wird, weniger bekannte Zielentitäten zu desambiguieren. Wir verwenden ein Datenset, welches automatisch mit Hilfe der Linkstruktur in Wikipedia erstellt wird, und zeigen, dass unser Ansatz hilfreich ist, um Entitäten ohne Trainingsmaterial und mit wenig umgebenden Kontext zu desambiguieren. Das Auffinden von relevanten Entitäten und Informationen kann sehr viele Suchergebnisse produzieren. Deshalb ist es wichtig, die Informationen dem Benutzer effektiv zu präsentieren. Wir betrachten diesen Schritt nach dem Auffinden der Entitäten und verwenden Sentimentanalyse, was zum Analysieren von Meinungen im Text genutzt wird, im Kontext von Produktrezensionen und wie Informationen dazu einem Benutzer effektiv angezeigt werden können. Wir präsentieren ein System, das einen Supporting Sentence extrahiert, einen einzigen Satz, der sowohl das Sentiment des Autors als auch einen unterstützenden Fakt beinhaltet. Dieser Satz kann verwendet werden, um Benutzern eine einfache Möglichkeit zu geben, auf Informationen zuzugreifen, um schnell informierte Entscheidungen zu treffen. Wir evaluieren unseren Ansatz durch den Crowdsourcing-Service Amazon Mechanical Turk.
Enthalten in den Sammlungen:	05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:

Datei	Beschreibung	Größe	Format
Dissertation_Glaser.pdf		2,5 MB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige

Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.

Universität Stuttgart

OPUS - Online Publikationen der Universität Stuttgart