Please use this identifier to cite or link to this item: http://dx.doi.org/10.18419/opus-3540
Authors: Thom, Dennis
Title: Visual analytics of social media for situation awareness
Other Titles: Visuelle Analyse von Social Media Daten für die Situationseinschätzung
Issue Date: 2015
metadata.ubs.publikation.typ: Dissertation
URI: http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-100025
http://elib.uni-stuttgart.de/handle/11682/3557
http://dx.doi.org/10.18419/opus-3540
Abstract: With the emergence of social media services and other user-centered web platforms the nature of the modern internet changed substantially. While it has since been a vast source of information and news on all kinds of topics, it recently grew into a continuous stream of knowledge, observations, thoughts, and situation reports. They are provided in real-time by millions of people from all over the world. This change also offers completely new possibilities for domains that rely on good situation awareness, such as disaster management, emergency response, disease control, and several forms of command and control environments. Analysts can find eyewitness videos of ongoing critical events in Youtube, they can observe the movement and communication behavior of Facebook users during evacuation measures, and they are enabled to trace the outspread of an epidemic disease just by highlighting symptom related keyword usage in Twitter. However, the data sizes that need to be processed in order to identify relevant entries, produce comprehensible overviews, and detect anomalous patterns pose one of the most challenging analytics problems of our time. Not only the volume of data generated on a daily basis is larger than any other single database from the pre-internet era. The data is furthermore streamed in real-time at substantial velocity; it comes in a great variety, including text snippets, images, videos and network information; and it contains inaccuracies, misleading information, rumors, and fake meta-data, leading to uncertain veracity. In contrast to most other computer science challenges, social media analytics thus fully covers all characteristics that have been commonly referred to as the "four V's" of big data. By tightly integrating approaches from the areas of data mining, information retrieval, natural language processing, human computer interaction, and data visualization the emerging field of visual analytics has been devised to tackle these challenges. As a descendant of the more general field of information visualization, visual analytics strives to merge the strengths of highly interactive visual interfaces with the computational power of automatic statistical algorithms. The goal of this combination is to advance problem solving in areas where a human analyst alone would be overwhelmed by the data volumes, while, at the same time, sheer processing power alone would not enable analysts to identify underlying patterns and relate information to semantic knowledge. This thesis identifies four visual analytics requirements that have to be addressed to allow comprehensive situation awareness based on social media: Access to data, visualization of context, coping with semantic complexity, and scalable processing. Based on core ideas of visual analytics, this work contributes three distinct techniques that allow to tackle access, context, and complexity, as well as a prototypical implementation that integrates all of them and allows scalable processing of the data. Means of iterative query optimization and hierarchical exploration of data samples are presented that allow to cope with the problem of rate limited web data collection. The challenge of relating information to space, time, and context is solved by a novel technique that automatically detects and visually highlights possibly relevant events. Here, a sophisticated language model based on large volumes of data is employed to separate meaningful and related information from signal noise. Finally, the possibility to drill-down into complex topics and to enable ongoing situation monitoring is achieved by means of interactive classifier training and orchestration. The thesis furthermore presents an overarching analytics model, which integrates all solutions and relates their distinct capabilities. %All of the presented methods combine the analytical power of data mining and information retrieval algorithms with the capabilities of human cognition by means of highly interactive visual interfaces. The techniques, their prototypical implementation, as well as the overarching analytics model are thoroughly evaluated, and they are compared with other approaches in context of the relatively young scientific discourse. Along these lines, it is demonstrated how the aspects of user-driven detection and data-driven discovery distinctly align with supervised and unsupervised methods in machine learning. From the lessons learned, it is conclusively shown that visual configuration and steering of supervised classification on one hand, and the enhancement of visual interfaces through unsupervised clustering on the other hand, are two complementary concepts embedded at the very heart of visual analytics. The presented overarching analytics model might help to further enhance previous definition approaches and ostensive conceptions existing in the field.
Mit dem Aufkommen sozialer Medien und anderer nutzer-zentrierter Web-Plattformen hat sich die Natur des Internets entscheidend verändert. Obschon es seit jeher eine gewaltige Quelle von Informationen und Neuigkeiten zu verschiedensten Themen war, ist es in jüngster Zeit zu einem unaufhörlichen Strom von Wissen, Beobachtungen, Gedanken, und persönlichen Statusberichten angewachsen. Diese Informationen werden in Echtzeit von Millionen von Nutzern aus der ganzen Welt bereitgestellt. Gleichzeitig bedeutet die Veränderung auch völlig neue Möglichkeiten für Anwendungsdomänen, in denen Situationsbewusstsein eine entscheidende Rolle spielt, sowie etwa dem Katastropheschutz, der Notfallrettung, der Seuchenkontrolle und anderen Umgebungen mit Leit- und Kommandoständen. Datenanalysten können zeitnah Augenzeugen-Videos in Youtube finden, sie können das Bewegungs- und Kommunikationsverhalten von Facebooknutzern während Evakuierungsmaßnahmen beobachten oder sie können die Verbreitung einer Infektionskrankheit nachzeichnen, Symptom-Erwähnungen in Twitter aufgezeigt werden. Die Datenmengen die verarbeitet werden müssen, um relevante Einträge zu finden, umfassende Übersichten zu erzeugen und abnormale Muster zu erkennen, bedeuten jedoch einige der größten informatischen Herausforderungen unserer Zeit. Nicht nur ist der Umfang (volume) der täglich erzeugten Inhalte größer als jede einzelne Datenbank, welche vor dem Internet-Zeitalter entstanden ist. Die Daten werden darüber hinaus mit gewaltigen Durchsätzen (velocity) in Echtzeit übertragen; sie weisen eine erhebliche inhaltliche und strukturelle Vielfalt (variety) auf; und sie sind oft mit Ungenauigkeiten, irreführenden Hinweisen, Gerüchten und gefälschten Informationen versehen, was zu Problemen mit unklarer Vertrauenswürdigkeit (veracity) führt. Auf Daten aus sozialen Medien treffen daher alle charakteristischen Eigenschaften zu, welche als die "vier V's" von Big Data bezeichnet werden. Das Forschungsfeld Visual Analytics wurde geschaffen, um solche Probleme zu lösen. Dazu werden Ansätze aus den Bereichen Data Mining, Information Retrieval, Computerlinguistik, Mensch-Maschine-Interaktion und Datenvisualisierung miteinander verbunden. Visual Analytics versucht die Stärken von hochinteraktiven visuellen Schnittstellen mit den Möglichkeiten statistischer Verfahren zu vereinen. Das Ziel dieser Verbindung sind Lösungen für Probleme, in denen ein menschlicher Analyst von der Datenfülle überwältigt wäre, während reine Rechenkraft nicht ausreichen würde, um subtile Muster zu identifizieren und Informationen mit Kontextwissen in Bezug zu setzen. Diese Arbeit berücksichtigt vier Anforderungen, um eine umfassende Situationseinschätzung basierend auf Daten aus sozialen Medien zu ermöglichen. Diese umfassen die Erfassung der Daten, die visuelle Kontextualisierung, die Bewältigung semantischer Komplexität der Inhalte und ihre skalierbare Verarbeitung. Basierend auf zentralen Ansätzen der Visual Analytics stellt die Arbeit drei Methoden bereit, welche es erlauben die Probleme der Erfassung, Kontextualisierung und Komplexität zu bewältigen. Darüber hinaus wird eine prototypische Implementierung vorgestellt, welche die Lösungen integriert und eine skalierbare Datenverarbeitung sicherstellt. Zur Anforderung der Datenerfassung wird ein Verfahren erläutert, welches die Erstellung und iterative Verbesserung von Suchanfragen basierend auf hierarchischer Exploration ermöglicht. Auf diese Weise kann dem Problem von Anfrage- und Volumen-limitierten Web-Schnittstellen begegnet werden. Die Anforderung, Informationen in einen zeitlichen, räumlichen und inhaltlichen Kontext zu setzen, wird von einer neuartigen Technik erfüllt, welche automatisch Ereignisse erkennt und übersichtlich visualisiert. Zu diesem Zweck kommt weiterhin ein hochentwickeltes statistisches Sprachmodell zum Einsatz, welches es erlaubt, aussagekräftige und zusammengehörige Information von Hintergrundrauschen zu trennen. Die Fähigkeit zu tiefergehender Untersuchung komplexer Inhalts- und Verweisstrukturen wird schließlich durch Verfahren interaktiver maschineller Lernverfahren und der visuellen Orchestrierung der daraus entstehenden Modelle ermöglicht. Um die Verfahren miteinander zu verbinden, wird ein übergreifendes analytisches Modell vorgestellt, welches ihre komplementären Eigenschaften zueinander in Bezug setzt. Die vorgestellten Methoden, ihre prototypische Implementierung sowie das übergreifende analytische Modell wurden im Rahmen der Arbeit umfassend evaluiert und werden mit anderen Ansätzen im Kontext des noch jungen wissenschaftlichen Diskurses verglichen. Im Rahmen der Arbeit wird weiterhin erörtert, dass die Aspekte benutzergesteuerter Erkennung zum einen und datengetriebener Entdeckung zum anderen in der Informationsvisualisierung eine naheliegende Verwandschaft zu überwachten und unüberwachten Verfahren im Bereich maschinellen Lernens aufweisen. Basierend auf den Erfahrungen dieser Arbeit wird veranschaulicht, dass die visuelle Konfiguration und Steuerung überwachter Klassifikationsverfahren und die Erweiterung visueller Schnittstellen durch unüberwachte Clusteringverfahren zwei komplementäre Konzepte sind, welche bereits in der Natur des Visual Analytics Ansatzes zu finden sind. Das Schema des übergreifenden, analytischen Modells könnte daher helfen, bestehende Auffassungen und ostensive Definitionsansätze des Forschungsfeldes zu erweitern.
Appears in Collections:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Files in This Item:
File Description SizeFormat 
Dissertation_Opus_Thom_22_04_2015.pdf16,03 MBAdobe PDFView/Open


Items in OPUS are protected by copyright, with all rights reserved, unless otherwise indicated.