Please use this identifier to cite or link to this item: http://elib.uni-stuttgart.de/handle/11682/15499
Authors: Franke, Max
Title: Visual analysis of spatio-temporal patterns in digital humanities data with reproducible and confidence-aware workflows
Issue Date: 2024
metadata.ubs.publikation.typ: Dissertation
metadata.ubs.publikation.seiten: xxv, 217
URI: http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-154997
http://elib.uni-stuttgart.de/handle/11682/15499
Abstract: Recent decades have seen a consistent increase of the availability of digitized data, as well as an increase in dataset volumes. The digital humanities (DH) emerged as a consequence of this development and brought digital storage, automated analysis methods, and digital presentation to humanities research fields such as literary research and history. In DH data in particular, interpretation and human judgment are essential to contextualize the data, which is produced and relayed by humans, not sensors or simulations. Hence, the provenance and trustworthiness of the data is essential information for an objective analysis. This is especially true for historical data, where pieces of information can contradict each other, sources may exaggerate or lie, and the data is generally inhomogeneous and incomplete. The analysis of such data adds another level of human interpretation and judgment, which need to be recorded to become part of later sense-making and reproducibility efforts. The human capabilities to make sense of data, and to recognize patterns and structure in it, declines with increasing complexity and size of the dataset. By transforming the data and representing it by visual structures, the powerful human visual apparatus can be harnessed to alleviate these shortcomings. Even so, the complexity and dataset size are limited. Hence, the correct choice of data transformations, visual mappings, and aggregation of details is essential to support human sense-making. Besides the general visualization design, good support of domain experts' workflows is essential to encourage adoption of digital tools in their day-to-day work. Further, finding good solutions for the digital and visual representation of uncertain information and provenance data, as well as the recording thereof, improves general data quality as well as trust in the data and findings. Previous work within and outside of visualization research has already studied the analysis of incomplete or uncertain data. In the DH, however, data often has a unique combination of small dataset size and high data complexity. This fact, in combination with the presence of contradictory statements in the data, still require novel approaches for faithful representation to support objective analyses. Especially with this data nature in mind, analyses in the DH are seldom linear. The use of incremental loops of data foraging, knowledge mining, and sense-making have been explored in detail both inside and outside of visualization research. Research in the humanities usually moves more carefully and on a longer timescale. The established methods and workflows applied here need to work long-term, and the introduction of new methods from the fast-paced developments of the digital world still poses open challenges. In particular, provenance and reproducibility both of data and of analyses need to be guaranteed on a longer timescale to promote open science. The high complexity of DH data also makes it more difficult to find interesting insights about patterns and relationships in the data. Such patterns can translate to visual patterns that can easily be recognized. Recent works have explored the nature of DH data and tasks, but the nature of the data patterns is very specific to the concrete domain and research questions. The complexity of the data poses a challenge to the designs of visual representations that reveal these patterns visually. Suitable visual transformations are particularly challenging for geographical and geo-temporal data, where an inherent placement given by the data precludes many layout techniques. Projection of the geographical space into less complex spaces may offer ways to enhance the data layout and to reveal patterns. Much research on map projections and dimensionality reduction already exists. However, both the elicitation of patterns from the data and the communication of spatial relations, direction, and distance to analysts in an intuitive manner in projected representations are still under-explored. This thesis presents strategies for the visual analysis of complex, incomplete, and heterogeneous data often present in the DH. Here, the entire data lifecycle, from data collection over visual analysis to the publication of results, is considered. In addition, the support of the backwards path through that lifecycle is considered as part of visualization approaches to provide data and analysis provenance, foster trust in the results, and promote reproducible and open science. To further aid more objective analyses, this work explores the use of qualitative confidence measures to record the quality and trustworthiness as a coequal part of the collected DH data, which can subsequently be used as part of the analysis. This thesis also explores the visualization and visual analysis of data with spatio-temporal components, which are often found in the DH. Here, this work proposes novel visualization techniques, as well as novel combinations of existing techniques, to elicit hidden patterns of interest from the data to support domain research questions. The use of separated and integrated representations of space and time are examined. For the integrated representations, the use of data transformations and projections that reduce the complexity and restriction of geographical data on the layout of the visualization. To this end, non-contiguous maps and the use of map insets to solve challenges with the level of detail in heterogeneous geographical distributions are employed. In addition, different geographical projections are compared regarding their suitability to communicate the spatial relationships between data items. Further, this thesis explores projections of geographical space to various one-dimensional, discrete orderings to elicit relationships between space and other attributes in a less complex layout, as well as the reduction of the temporal component of event data to a space of period length and phase to elicit hidden patterns of periodically recurring events. The methods presented in this thesis were developed largely to support DH researchers in their domains' research questions, with the characteristics and volumes of data typical in that field in mind. Still, these methods can be - and in some cases have been - extended and adapted for different research fields. The principles applied in the approaches presented within this thesis are, in general, extensible and domain agnostic, given certain preconditions in the data.
Größe und Verfügbarkeit digitaler Datensätze haben aufgrund der sinkenden Kosten von Speicherplatz und steigender Rechenleistung in Computern in den letzten Jahrzehnten rasant zugenommen. Der technischen Fortschritt führte auch zur Entstehung der digitalen Geisteswissenschaften (DH, von engl. „digital humanities“) und spornte die Digitalisierung geisteswissenschaftlicher Inhalte an. Die DH kombinieren Forschung in den Geisteswissenschaften mit digitalen Speichermöglichkeiten und Analysemethoden, wodurch Geisteswissenschaftler*innen viel größere Datensammlungen auf einmal analysieren können. Die Erfassung der Herkunft und der Vertrauenswürdigkeit von Daten kann in allen Fachgebieten, insbesondere aber in den DH, einen Mehrwert für unvoreingenommene Analysen liefern: Hier wurden die Daten von Menschen erzeugt und enthalten Informationen über menschliches Schaffen oder gesellschaftliche Aspekte, und werden im Laufe ihrer Entstehung oft mehrmals von Menschen analysiert, interpretiert und bewertet. In historischen Daten, die ohnehin sehr inhomogen und unvollständig sein können, sind einzelne Datenpunkte außerdem gelegentlich widersprüchlich, oder die Realität wurde aus verschiedenen Gründen verzerrt oder vorurteilsbehaftet dargestellt, bis hin zu bewusst falschen Aussagen in Quellen. Hier ist die Erfassung von Herkunft und Vertrauenswürdigkeit der Daten, und deren Interpretation bei der Dateneintragung, besonders wichtig, um ein objektives Gesamtbild zu erhalten. Die Visualisierung und Analyse der Daten sind ein weiterer Arbeitsschritt, in dem menschliche Interpretation ins Spiel kommt. Um die Schlussfolgerungen aus solchen Analysen nachvollziehen und reproduzieren zu können, ist es also auch für diesen Prozess wichtig, Kernaspekte wie Datenfilter und visuelle Parameter zu erfassen und abzuspeichern. Ohne geeignete Repräsentation ist es schwierig, Muster und Zusammenhänge in größeren oder komplexeren Datensätzen zu erkennen und zu verstehen. Das visuelle System des Menschen hat sich allerdings über Jahrmillionen dahin entwickelt, Regelmäßigkeiten und Ausreißer in statischen und bewegten Bildern unterbewusst entdecken zu können. Automatisierte Visualisierung übersetzt Daten in visuelle Strukturen, in denen Charakteristiken der Daten visuell erkennbar sind. Damit können auch deutlich größere und komplexere Datensätze noch analysiert und verstanden werden. Eine geeignete Wahl der Datentransformationen, der Abbildung auf visuelle Primitive und der Aggregation von Details ist jedoch wichtig, da die Skalierbarkeit begrenzt ist. Um den Domänenexpert*innen die Aufnahme von digitalen Methoden in ihren Arbeitsalltag zu erleichtern, ist es auch wichtig, ihre Anforderungen und bestehenden Arbeitsabläufe zu verstehen und zu ergänzen, anstatt sie ersetzen zu wollen. Insbesondere in den DH ist eine geeignete digitale und visuelle Darstellung der Vertrauenswürdigkeit der Daten und ihrer Herkunft - von ihrer Entstehung bis zur Interpretation und digitalen Eintragung durch die Domänenexpert*innen - essenziell. Ein Arbeitsablauf, in dem die Herkunft und Vertrauenswürdigkeit der Daten konsequent miterfasst wird, erhöht langfristig die Qualität des Datenbestands, und dadurch auch das Vertrauen in die Daten und die daraus gewonnenen Erkenntnisse. Forschungsarbeiten haben sowohl innerhalb als auch außerhalb der Visualisierung die Analyse von unvollständigen oder unsicheren Datenbeständen untersucht. Bestehende Lösungen lassen sich allerdings schwer auf DH-Daten anwenden, da die Datensätze zwar vergleichsweise klein, dafür aber sehr komplex und - gerade bei historischen Daten - teils widersprüchlich und inhomogen sind. Für möglichst unvoreingenommene Analysen sind hier neuartige Ansätze vonnöten, um diese Unzulänglichkeiten der Daten angemessen wiederzugeben. Aufgrund der zuvor genannten Eigenschaften von DH-Daten sind Analysen hier selten linear. Die Nutzung von aufeinander aufbauenden Zyklen von Datensuche, Wissensanreicherung und Erkenntnisgewinn wurde sowohl innerhalb als auch außerhalb der Visualisierung detailliert erforscht. Die Forschung in den Geisteswissenschaften hat oft einen langen Zeithorizont mit etablierten Arbeitsabläufen, die langfristig funktionieren müssen. Neue Arbeitsmethoden aus der rasant fortschreitenden digitalen Welt führen hier immer noch zu Herausforderungen, insbesondere, wenn man bestehende Arbeitsabläufe ergänzen und nicht ersetzen will. Für langfristig freie und zugängliche Forschung sind hier die Herkunft, Nachverfolgbarkeit und Reproduzierbarkeit von Daten und Analysen essenziell. Die visuelle Darstellung der Daten erleichtert zwar die Erkennung von Mustern in den Daten durch den Menschen, allerdings wird dies durch die hohe Komplexität von DH-Daten wieder erschwert. Die Charakteristik der Daten und die zu lösenden Problemstellungen in den DH wurden bereits gründlich erforscht. Allerdings gibt es kaum generelle Lösungsansätze, da die DH ein sehr breites Forschungsfeld sind und die Daten und Forschungsfragen sehr vom jeweiligen Forschungsfeld abhängig sind. Visuelle Transformationen, die Muster in den Daten aufdecken, sind insbesondere in geografischen und geografisch-zeitlichen Daten schwer umzusetzen, da die intrinsische geografische Positionierung der Daten das Layout der Visualisierung sehr einschränkt. Durch eine Projektion des geografischen Raums in einen weniger komplexen Raum kann das Layout der visualisierten Daten verbessert werden, wodurch Muster besser sichtbar werden. Karten- und Datenprojektion sind gut erforschte Felder. Bezüglich der Sichtbarkeit von Mustern und der intuitiv verständlichen Darstellung von räumlichen Bezügen, Richtung und Distanz gibt es aber noch Potenzial für weitere Forschung. Diese Arbeit präsentiert Strategien zur visuellen Analyse von komplexen, unvollständigen und heterogenen Daten, wie sie oft in den DH vorkommen. Dabei wird der gesamte Lebenszyklus der Daten von der Dateneintragung über deren visuelle Analyse bis zur Veröffentlichung der Analyseergebnisse berücksichtigt. Außerdem wird die Rückrichtung durch die Provenienz der Daten als Teil des Visualisierungsansatzes gesehen. Dadurch können Herkunft und Entwicklung von Daten und Analysen nachvollzogen und reproduziert werden, um das Vertrauen in die Analyseergebnisse zu stärken und reproduzierbare und freie Forschung zu fördern. Diese Arbeit untersucht zur Unterstützung objektiverer Analysen auch qualitative Konfidenzwerte, um die Qualität und Vertrauenswürdigkeit von den gesammelten DH-Daten als gleichberechtigte Datenattribute zu berücksichtigen. Solche Attribute können somit in der Analyse mitverwendet werden. Diese Arbeit untersucht auch die Visualisierung und visuelle Analyse von Daten mit räumlich-zeitlichen Bezügen, welche häufig eine wichtige Rolle in DH-Daten spielen. In diesem Kontext schlägt diese Arbeit neuartige Visualisierungsansätze und Kombinationen bestehender Ansätze vor, um versteckte, interessante Muster und Zusammenhänge in den Daten sichtbar zu machen und Domänenexpert*innen in der Beantwortung von Forschungsfragen zu unterstützen. Es werden separierte und integrierte Darstellungen von Raum und Zeit untersucht. Bei den integrierten Darstellungen werden Datentransformationen und Projektionen eingesetzt, die die Komplexität und Layout-Einschränkungen in der Visualisierung geografischer Daten reduzieren. Dafür werden fragmentierte Karten und eingebettete Kartenausschnitte mit größerem Detailgrad genutzt, um Probleme bei der Darstellung von Details in Daten mit heterogener geografischer Verteilung zu lösen. Außerdem werden verschiedene geografische Projektionen daraufhin verglichen, wie gut sie die räumlichen Verhältnisse zwischen Datenpunkten kommunizieren können. Zusätzlich präsentiert diese Arbeit Projektionen geografischer Daten in verschiedene eindimensionale Anordnungen, um Zusammenhänge zwischen dem räumlichen und anderen Datenattributen in einem einfacheren Layout besser sichtbar zu machen. Um versteckte periodische Wiederholungsmuster von Events zu finden, wird auch die Reduktion der zeitlichen Komponente von Event-Daten in einen Periodendauer-Phasen-Raum untersucht. Die in dieser Arbeit präsentierten Methoden wurden hauptsächlich für die Anwendung in den DH und für Forschungsfragen der DH entwickelt. Dadurch sind sie auf die in den DH typischen Datensatzgrößen und -charakteristiken ausgelegt. Sie können allerdings auch auf Forschungsfragen aus anderen Gebieten erweitert und angepasst werden, was zum Teil bereits umgesetzt wurde. Die Prinzipien, die in den in dieser Arbeit präsentierten Ansätzen verwendet werden, sind auf weitere Anwendungsgebiete übertragbar, sofern deren Anforderungen hinsichtlich Zielsetzung sowie Datenmenge und -komplexität vergleichbar sind.
Appears in Collections:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Files in This Item:
File Description SizeFormat 
dissertation_max_franke_druck_300dpi.pdf18,5 MBAdobe PDFView/Open


Items in OPUS are protected by copyright, with all rights reserved, unless otherwise indicated.