Information extraction for the geospatial domain

Blessing, André

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-3389

Autor(en):	Blessing, André
Titel:	Information extraction for the geospatial domain
Sonstige Titel:	Informationsextraktion für georäumliche Entitäten und Relationen
Erscheinungsdatum:	2014
Dokumentart:	Dissertation
URI:	http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-95229 http://elib.uni-stuttgart.de/handle/11682/3406 http://dx.doi.org/10.18419/opus-3389
Zusammenfassung:	Geospatial knowledge is increasingly becoming an essential part of software applications. This is primarily due to the importance of mobile devices and of location-based queries on the World Wide Web. Context models are one way to disseminate geospatial data in a digital and machine-readable representation. One key challenge involves acquiring and updating such data, since physical sensors cannot be used to collect such data on a large scale. Doing the required manual work is very time-consuming and expensive. Alternatively, a lot of geospatial data already exists in a textual representation, and this can instead be used. The question is how to extract such information from texts in order to integrate it into context models. In this thesis we tackle this issue and provide new approaches which were implemented as prototypes and evaluated. The first challenge in analyzing geospatial data in texts is identifying geospatial entities, which are also called toponyms. Such an approach can be divided into several steps. The first step marks possible candidates in the text, which is called spotting. Gazetteers are the key component for that task but they have to be augmented by linguistically motivated methods to enable the spotting of inflected names. A second step is needed, since the spotting process cannot resolve ambiguous entities. For instance, London can be a city or a surname; we call this a geo/non-geo ambiguity. There are also geo/geo ambiguities, e.g. Fulda (city) vs. Fulda (river). For our experiments, we prepared a new dataset that contains mentions of street names. Each mention was manually annotated and one part of the data was used to develop methods for toponym recognition and the remaining part was used to evaluate performance. The results showed that machine learning based classifiers perform well for resolving the geo/non-geo ambiguity. To tackle the geo/geo ambiguity we have to ground toponyms by finding the corresponding real world objects. In this work we present such approaches in a formal description and in a (partial) prototypical implementation, e.g., the recognition of vernacular named regions (like old town or financial district). The lack of annotated data in the geospatial domain is a major obstacle for the development of supervised extraction approaches. The second part of this thesis thus focuses on approaches that enable the automatic annotation of textual data, which we call unstructured data, by using machine-readable data from a knowledge base, which we call structured data. This approach is an instance of distant supervision (DS). It is well established for the English language. We apply this approach to German data which is more challenging than English, since German provides a richer morphology and its word order is more variable than that of English. Our approach takes these requirements into account. We evaluated our approach in several scenarios, which involve of the extraction of relations between geospatial entities (e.g., between cities and their suburbs or between towns and their corresponding rivers). For our evaluation, we developed two different relation extraction systems. One is a DS-based system, which uses the automatically annotated training set and the other one is a standard system, which uses the manually annotated training set. The comparison of the systems showed that both reach the same quality, which is evidence that DS can replace manual annotations. One drawback of current DS approaches is that both structured data and unstructured data must be represented in the same language. However, most knowledge bases are represented in the English language, which prevents the development of DS for other languages. We developed an approach called Crosslingual Distant Supervision (CDS) that eliminates this restriction. Our experiments showed that structured data from a German knowledge base can successfully be transferred by CDS into other languages (English, French, and Chinese). Geographisches Wissen ist ein zunehmend wichtiger Bestandteil in Anwendungssoftware. Gründe dafür sind zum Beispiel die weite Verbreitung von mobilen Endgeräten und die Wichtigkeit ortsbasierter Suche im World Wide Web. Umgebungsmodelle helfen, geographisches Wissen digital abzubilden und verfügbar zu machen. Georäumliche Objekte lassen sich nicht in beliebiger Skalierbarkeit mit physikalischen Sensoren erfassen, daher ist das Erfassen und Nachführen von Daten eines Umgebungsmodells kostspielig. Textuelle Daten sind eine alternative Quelle für georäumliches Wissen, da sehr viele ortsbasierte Informationen sprachlich beschrieben sind. Diese Dissertation beschäftigt sich mit der Fragestellung, wie georäumliches Wissen aus Texten mittels computerlinguistischer Verfahren extrahiert werden kann. Dazu wurden Ansätze entwickelt, die als Prototypen implementiert und evaluiert wurden. Eine erste Herausforderung ergibt sich bereits bei der Erkennung von georäumlichen Entitäten (sog. Toponymen) in natürlichsprachigen Texten. Im ersten Schritt werden mögliche Kandidaten im Text markiert. Ortslexika (Gazetteers) bieten eine Grundlage für diesen Prozess, müssen aber durch Methoden aus der maschinellen Sprachverarbeitung erweitert werden, damit flektierte Vorkommen ebenfalls gefunden werden (z.B. Stuttgarts zum Lexikoneintrag Stuttgart). Diese Markierung ist nicht hinreichend, da viele Einträge in solchen Lexika mehrdeutig sind: London kann zum Beispiel eine Stadt oder ein Nachname sein. Diese Mehrdeutigkeit wir als geo/non-geo bezeichnet. Darüber hinaus gibt es ebenfalls geo/geo-Mehrdeutigkeiten wie zum Beispiel Fulda (Stadt) im Gegensatz zu Fulda (Fluss). In den vorgestellten Experimenten haben wir das Problem von Mehrdeutigkeiten mit Hilfe eines eigens erstellten Datensatzes adressiert. Dazu wurden Nennungen von Straßennamen manuell annotiert. Der Datensatz wurde aufgeteilt in Trainings- und Testdaten, um überwachte Lernverfahren zur Toponym-Erkennung zu entwickeln und zu evaluieren. Die Ergebnisse unserer Methoden zeigen, dass geo/non-geo-Mehrdeutigkeiten erfolgreich aufgelöst werden. Für die Auflösung von Mehrdeutigkeiten im geo/geo-Bereich wird eine Erweiterung des Ansatzes benötigt, der die Toponyme mit den zugehörigen Realwelt-Objekten verlinkt. In dieser Arbeit werden die hierfür nötigen Erweiterungen sowohl formal als auch in prototypischen Anwendungen, z.B. beim Erkennen von umgangssprachlich benannten Regionen (z.B. Altstadt, Bankenviertel), präsentiert. Da Trainingsdaten eine notwendige Voraussetzung für die verwendeten überwachten Ansätze sind, erschwert das Fehlen annotierter Trainingsdaten die Entwicklung erheblich. Im zweiten Teil der Arbeit wird gezeigt, wie das zeitintensive und teure Verfahren der manuellen Annotation durch ein automatisches Verfahren ersetzt werden kann. Dazu werden bereits vorhandene maschinenlesbare Datensätze (z.B. aus Wikipedia-Infoboxen) verwendet, um Text zu annotieren. Dieses Verfahren wird Distant Supervision (DS) genannt und ist bereits für englische Daten etabliert. In dieser Arbeit werden in erster Linie DS-Ansätze an der deutschen Sprache erforscht, welche im Bezug auf Distant Supervision noch Neuland ist. Das Deutsche verfügt im Gegensatz zum Englischen über eine reichhaltigere Morphologie und freiere Wortstellung, was Distant Supervision erschwert. Unser angepasster DS-Ansatz wurde implementiert und in verschiedenen Szenarien evaluiert. Diese fokusieren sich auf die Extraktion von binären Relationen zwischen georäumlichen Entitäten. Beispiele hierfür sind Relationen zwischen Orstteilen und den Gemeinden, zu denen sie gehören (Bad Cannstatt - Stuttgart) oder zwischen Städten und Flüssen, die durch sie hindurchfließen (Stuttgart - Neckar). Zur Evaluation wurden jeweils zwei unterschiedliche Relationsextraktionssysteme gegenüber gestellt. Ein System wurde mit DS-annotierten Trainingsdaten trainiert und das andere mit manuell annotierten Trainingsdaten. Die Ergebnisse zeigen, dass durch den DS-Ansatz eine gleichwertige Qualität bei der Extraktion mit deutlich weniger manuellem Aufwand erreicht werden kann. Eine Einschränkung für Distant Supervision ist in bisherigen Ansätzen, dass sowohl die strukturierten Daten (Wissensdatenbank) als auch die textlichen Daten in der gleichen Sprache vorliegen müssen. Dies ist für Sprachen mit geringerer Verbreitung als dem Englischen nicht gewährleistet. Daher haben wir einen Ansatz entwickelt, den wir Crosslingual Distant Supervision nennen, und der ohne diese Einschränkung auskommt. In unseren Experimenten konnten wir belegen, dass strukturierte deutsche Daten auf englische, französische und chinesische Texte erfolgreich angewendet werden können. Ein weiterer Vergleich zu einem üblichen Standardverfahren, das auf maschineller Übersetzung aufbaut, zeigt, dass das neue Verfahren deutlich bessere Ergebnisse liefert.
Enthalten in den Sammlungen:	05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:

Datei	Beschreibung	Größe	Format
diss_blessing_camera_ready.pdf		3,28 MB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige

Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.

Universität Stuttgart

OPUS - Online Publikationen der Universität Stuttgart