Natural language processing and information retrieval methods for intellectual property analysis

Jochim, Charles

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-3472

Autor(en):	Jochim, Charles
Titel:	Natural language processing and information retrieval methods for intellectual property analysis
Sonstige Titel:	Methoden der automatischen Sprachverarbeitung und des Information Retrieval für die Analyse des geistigen Eigentums
Erscheinungsdatum:	2014
Dokumentart:	Dissertation
URI:	http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-96346 http://elib.uni-stuttgart.de/handle/11682/3489 http://dx.doi.org/10.18419/opus-3472
Zusammenfassung:	More intellectual property information is generated now than ever before. The accumulation of intellectual property data, further complicated by this continued increase in production, makes it imperative to develop better methods for archiving and more importantly for accessing this information. Information retrieval (IR) is a standard technique used for efficiently accessing information in such large collections. The most prominent example comprising a vast amount of data is the World Wide Web, where current search engines already satisfy user queries by immediately providing an accurate list of relevant documents. However, IR for intellectual property is neither as fast nor as accurate as what we expect from an Internet search engine. In this thesis, we explore how to improve information access in intellectual property collections by combining previously mentioned IR techniques with advanced natural language processing (NLP) techniques. The information in intellectual property is encoded in text (i.e., language), and we expect that by adding better language processing to IR we can better understand and access the data. NLP is a quite varied field encompassing a number of solutions for improving the understanding of language input. We concentrate more specifically on the NLP tasks of statistical machine translation, information extraction, named entity recognition (NER), sentiment analysis, relation extraction, and text classification. Searching for intellectual property, specifically patents, is a difficult retrieval task where standard IR techniques have had only moderate success. The difficulty of this task only increases when presented with multilingual collections as is the case with patents. We present an approach for improving retrieval performance on a multilingual patent collection by using machine translation (an active research area in NLP) to translate patent queries before concatenating these parallel translations into a multilingual query. Even after retrieving an intellectual property document however, we still face the problem of extracting the relevant information needed. We would like to improve our understanding of the complex intellectual property data by uncovering latent information in the text. We do this by identifying citations in a collection of scientific literature and classifying them by their citation function. This classification is successfully carried out by exploiting some characteristics of the citation text, including features extracted via sentiment analysis, NER, and relation extraction. By assigning labels to citations we can better understand the relationships between intellectual property documents, which can be valuable information for IR or other applications. Die Menge an Texten, die geistiges Eigentum beschreiben, wächst stetig. Um diese Masse an Informationen überschaubar zu machen, ist es notwendig, bessere Methoden zu entwickeln, um den Zugriff darauf zu vereinfachen. Information Retrieval (IR) ist eine Standardtechnik, um effizient Informationen aus großen Datenbanken abzurufen. Die wohl bekannteste Informationsquelle, deren Größe die effiziente Verarbeitung erschwert, ist das World Wide Web (WWW). Hierfür wurden Suchmaschinen entwickelt, die für von Benutzern gestellte Suchanfragen Listen relevanter Dokumente erstellen. IR für geistiges Eigentum ist jedoch im Vergleich langsamer und ungenauer als wir es von Suchmaschinen im WWW gewohnt sind. Diese Dissertation befasst sich damit, wie mit einer Kombination von Methoden aus dem Information Retrieval und der natürlichen Sprachverarbeitung (Natural Language Processing, kurz NLP) der Zugang zu Textsammlungen geistigen Eigentums verbessert werden kann. Diese Kombination ist vielversprechend, da Informationen über geistiges Eigentum wie bereits erwähnt in Texten festgehalten werden (d.h., es handelt sich um natürliche Sprache). NLP ist ein komplexer Forschungsbereich, der ein breites Spektrum an Ansätzen bietet, um die Bedeutung sprachlicher Daten automatisch zu analysieren. Die in dieser Dissertation beschriebene Arbeit befasst sich mit statistischer maschineller Übersetzung, Informationsextraktion (genauer mit Named Entity Recognition (NER), Sentiment-Analyse und Relationsextraktion) und Textklassifikation. Automatisches Suchen in Textsammlungen geistigen Eigentums, insbesondere Patentsuche, stellt eine besondere Herausforderung dar. Bisherige Ansätze unter Verwendung von IR-Standardtechniken waren daher nur wenig erfolgreich. Zusätzliche Schwierigkeiten treten auf, wenn mehrsprachige Textsammlungen durchsucht werden sollen, wie es in der Patentsuche oft der Fall ist. In dieser Arbeit wird ein Verfahren vorgestellt, um die Suche in einer mehrsprachigen Textsammlung von Patenten zu verbessern. Dies wird durch die Verwendung von maschineller Übersetzung erzielt, die auf die Suchanfragen angewendet wird, indem aus mehreren übersetzten Suchanfragen eine mehrsprachige Suchanfrage erstellt wird. Die Extraktion von relevanten Informationen aus einem Dokument ist ein weiteres Problem, das dem Suchvorgang folgt. Um dieses Problem zu lösen, ist es notwendig, implizite Informationen in den Daten zu erkennen, um komplexe Zusammenhänge besser verstehen zu können. In dieser Arbeit wird dies durch die automatische Identifikation und Klassifikation von Zitaten in einer Textsammlung wissenschaftlicher Fachliteratur erreicht. Der vorgestellte Ansatz kombiniert dazu verschiedene Merkmale der Texte, die unter Anderem durch Sentiment-Analyse, NER und Relationsextraktion automatisch erkannt werden. Durch die Klassifikation von Zitaten werden Zusammenhänge zwischen den Dokumenten ersichtlich, die für die Verbesserung von IR-Systeme und andere Anwendungen genutzt werden können können.
Enthalten in den Sammlungen:	05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:

Datei	Beschreibung	Größe	Format
master.pdf		1,93 MB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige

Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.

Universität Stuttgart

OPUS - Online Publikationen der Universität Stuttgart