Please use this identifier to cite or link to this item: http://dx.doi.org/10.18419/opus-3090
Authors: Koch, Steffen
Title: Visual search and analysis of documents in the intellectual property domain
Other Titles: Visuelle Dokumentsuche und -analyse im Anwendungsbereich geistiges Eigentum
Issue Date: 2012
metadata.ubs.publikation.typ: Dissertation
URI: http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-85784
http://elib.uni-stuttgart.de/handle/11682/3107
http://dx.doi.org/10.18419/opus-3090
Abstract: Today’s society generates and stores digital information in enormous amounts and at rapidly increasing rates. This trend affects all parts of modern society, such as commerce and economy, politics and governments, health and medicine, science in general, media and entertainment, the private sector, etc. The stored information comprises text documents, images, audio files, videos, structured data from a variety of sources, as well as multimodal combinations of them, and is available in a multitude of electronic formats and flavors. As a consequence, the need for automated and interactive tools supporting tasks, such as searching, exploring, monitoring, sorting, and making sense of this information at different levels of abstraction and within different but steadily converging domains, increases at the same pace as the data is generated and represents one of the biggest challenges for current computer science. A relatively young approach to tackle these tasks by exploiting human analytic power in synergetic combination with advanced computerized techniques has emerged with the research field of visual analytics. Visual analytics aims at combining automated methods, visualization techniques, and approaches from the field of human computer interaction in order to equip analysts with more powerful tools, tailored to domains, where large amounts of data must be analyzed. In this work, visual analytics methods and concepts play a central role. They are used to search and analyze texts or multimodal documents containing a considerable amount of textual content. The presented approaches are primarily employed for analyzing a very special type of document from the intellectual property domain, namely patents. Since the retrieval and analysis tasks carried out in the patent domain differ greatly from standard search and analysis tasks regarding rigorous requirements, high costs, and the involved risks, new, more effective, efficient, and more reliable methods need to be developed. Accordingly, this thesis focuses on researching the combination of automatic methods and information visualization by using advanced interaction techniques in order to improve upon the state of the art in patent literature retrieval. Such integration is achieved and exemplified through different visual analytics prototypes, aiming at creating support for real-world tasks and processes. The main contributions presented in this thesis encompass enhancements for all stages of patent literature analysis processes. This includes improving patent search by presenting techniques for interactive visual query building, which helps analysts to formulate complex information needs, the development of a technique that allows users to build their own precise search mechanism in the form of binary classifiers, and advanced approaches for making sense of a retrieved result set through visual analysis. The latter builds the base to let users generate insights needed for judging and improving previous query formulations. Interaction methods facilitating forward analysis as well as feedback loops, which constitute a critical part of visual analytics approaches, are discussed afterwards. These methods are the key to integrating all stages of the patent analysis process in a seamless visual manner. Another contribution is the discussion of scalability issues in context of the described visual analytics approaches. Especially interaction scalability, the recording of analytic provenance, insight management, the visualization of analytic reporting, and collaborative approaches are addressed. Although the described approaches are exemplified by applying them to the field of intellectual property analysis, the developments regarding search and analysis have the potential to be adapted to complicated text document retrieval and analysis tasks in various domains. The general ideas regarding the facilitation of low-level feedback loops, user-steered machine classification, and technical solutions for diminishing negative scalability effects can be directly transferred to other visual analytics scenarios.
Unsere heutige Gesellschaft erzeugt ernorme Mengen digitaler Informationen, und das in rasant steigender Geschwindigkeit. Dieser Trend zeichnet sich in allen Bereichen der modernen Gesellschaft ab, sei es in Handel und Wirtschaft, in der Politik und der öffentlichen Hand, im Gesundheitswesen und der Medizin, in der Wissenschaft, den Medien, der Unterhaltungsbranche oder im privaten Umfeld. Die gespeicherten Informationen umfassen unter anderem Textdokumente, digitale Bilder, Tonaufnahmen, Videos, strukturierte Daten aus unterschiedlichen Quellen, sowie multimodale Kombinationen aus den verschiedenen Sparten. Sie alle liegen in einer Fülle unterschiedlicher elektronischer Formate und Varianten vor. Entsprechend wächst der Bedarf an automatisierten und interaktiven Werkzeugen, die Unterstützung für eine ganze Reihe von Aufgaben bieten - wie z.B. der Suche, der Exploration, der Überwachung, der Einordnung, und der Analyse gespeicherter digitaler Informationen, auf unterschiedlichen Abstraktionsebenen und in unterschiedlichen aber stetig konvergierenden Fachgebieten. Die Entwicklung von Werkzeugen um diese Aufgaben unter Berücksichtigung ständig wachsender Datenmengen zu bewältigen stellt dabei eine der größten Herausforderungen für die heutige Informatik dar. Ein vergleichsweise neuer Ansatz zur Lösung dieser Probleme wurde mit dem Forschungsgebiet "Visual Analytics" geschaffen, der Synergieeffekte aus der Verbindung von analytischen Fähigkeiten des Menschen mit fortschrittlichen Informationsverar beitungstechniken nutzt. Visual Analytics kombiniert dabei automatische Verfahren, Visualisierungstechniken und Ansätze aus der Mensch-Computer-Interaktion, um Analysten mit mächtigeren Werkzeugen für die Analyse großer Datensätze auszurüsten. In dieser Arbeit spielen Visual-Analytics-Ansätze eine tragende Rolle. Sie werden für die Suche nach und die Analyse von Texten und multimodalen Dokumenten, die einen großen Textanteil aufweisen eingesetzt. Die vorgestellten Ansätze, werden hauptsächlich auf die Analyse von Patenten als eine besondere Art von Textdokumenten angewandt. Da sich die Such- und Analyseaufgaben innerhalb des Patentumfelds deutlich von Standardsuche und klassischen Analysen unterscheiden, was die strengen Anforderungen, hohen Aufwand und Kosten und die damit verbundenen Risiken betrifft, müssen neue, effektivere, effizientere und verlässliche Methoden entwickelt werden. Die vorliegende Arbeit beschäftigt sich deshalb mit der Kombination von automatischen Methoden und Methoden der Informationsvisualisierung unter Nutzung moderner Interaktionstechniken, um die Patentsuche über den aktuellen Stand der Technik hinaus zu verbessern. Die Integration dieser Methoden wird mittels einer Reihe von Visual-Analytics-Prototypen, welche Unterstützung für reale Prozesse und Aufgaben bieten, erreicht und exemplarisch aufgezeigt. Die vorgestellten Neuerungen umfassen Verbesserungen für sämtliche Schritte des Patentanalyseprozesses. Dazu gehört die Optimierung der Patentsuche durch die vorgestellten Techniken zur interaktiven visuellen Anfrageerstellung, die Analysten dabei helfen einen komplexen Informationsbedarf zu formulieren. Des Weiteren wird ein Verfahren erläutert, das es Benutzern erlaubt, ihre eigenen, präzisen Suchmechanismen in der Form binärer Klassifikatoren zu erstellen. Außerdem werden moderne Ansätze präsentiert, wie Ergebnismengen mit Unterstützung von visueller Analyse interpretiert und verstanden werden können. Daraus wiederum können Benutzer sodann Erkenntnisse gewinnen, die für die Bewertung und Verbesserung vorhergehender Anfrageformulierungen notwendig sind. Im Anschluss folgt die Auseinandersetzung mit interaktiven Methoden, die sowohl eine Vorwärtsanalyse als auch Feedback Loops ermöglichen, die einen wesentlich Bestandteil von Visual-Analytics-Ansätze darstellen. Diese Methoden bilden die Grundlage, auf deren Basis alle Phasen des Patentanalyseprozesses auf nahtlose Weise visuell miteinander verknüpft werden können. Ein weiterer Forschungsbeitrag besteht in der Untersuchung von Skalierbarkeitsaspekten im Zusammenhang mit den verwendeten Visual-Analytics-Ansätzen. Eine wesentliche Rolle spielen hier vor allem die Skalierbarkeit von Interaktionstechniken, die Aufzeichnung analytischer Prozesse, die Kombination und weitere Nutzung von gewonnenen Erkenntnissen, die Erzeugung von Analyseberichten, sowie kooperative Ansätze. Auch wenn die hier vorgestellten Ansätze anhand konkreter Beispiele für spezielle Fachgebiete beschrieben werden, verfügen einige der Entwicklungen über das Potential, auf andere komplexe Textdokumentsuch- und Analyseaufgaben übertragen werden zu können. Insbesondere die Ideen zur Optimierung von Feedback Loops und benutzergesteuerter Klassifikation, sowie technische Lösungen zur Verbesserung der Skalierbarkeit lassen sich direkt auf andere Visual-Analytics-Szenarien übertragen.
Appears in Collections:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Files in This Item:
File Description SizeFormat 
diss_electronic_final.pdf8,34 MBAdobe PDFView/Open


Items in OPUS are protected by copyright, with all rights reserved, unless otherwise indicated.