Universität Stuttgart
Permanent URI for this communityhttps://elib.uni-stuttgart.de/handle/11682/1
Browse
5 results
Search Results
Item Open Access Ein PoS-Tagger für "das" Mittelhochdeutsche(2017) Echelmeyer, Nora; Reiter, Nils; Schulz, SarahMit diesem Beitrag möchten wir einen PoS-Tagger für das Mittelhochdeutsche vorstellen, der auf einem thematisch breiten und diachronen Korpus trainiert wurde. Als Tagset verwenden wir ein Inventar aus 17 universellen Wortart-Kategorien (Universal Dependency-Tagset, Nivre et al. 2016). Mit den annotierten Daten entwickeln wir ein Modell für den TreeTagger (Schmid 1995), das frei zugänglich gemacht wird. Dabei vergleichen wir drei verschiedene Möglichkeiten, den PoS-Tagger zu trainieren. Zunächst verwenden wir ein kleines, manuell annotiertes Trainingsset, vergleichen dessen Ergebnisse dann mit einem kleinen, automatisch disambiguierten Trainingsset und schließlich mit den maximal verfügbaren Daten. Mit dem Tagger möchten wir nicht nur eine „Marktlücke“ schließen (denn bisher gibt es keinen frei verwendbaren PoS-Tagger für das Mittelhochdeutsche), sondern auch eine größtmögliche Anwendbarkeit auf mittelhochdeutsche Texte verschiedener Gattungen, Jahrhunderte und regionaler Varietäten erreichen und weiteren Arbeiten mit mittelhochdeutschen Texten den Weg ebnen.Item Open Access CUTE - CRETA Un-/Shared Task zu Entitätenreferenzen(2017) Reiter, Nils; Blessing, André; Echelmeyer, Nora; Kremer, Gerhard; Koch, Steffen; Murr, Sandra; Overbeck, Maximilian; Pichler, AxelDies ist die Veröffentlichung eines shared/unshared Task Workshops (entwickelt in CRETA: Center for Reflected Text Analytics), der im Rahmen der DHd 2017 in Bern (CH) stattfand. Im Gegensatz zu shared tasks, bei denen die Performanz verschiedener Systeme/Ansätze/Methoden direkt anhand einer klar definierten und quantitativ evaluierten Aufgabe verglichen wird, sind unshared tasks offen für verschiedenartige Beiträge, die auf einer gemeinsamen Datensammlung basieren. Shared und Unshared Tasks in den Digital Humanities sind ein vielversprechender Weg, Kollaboration und Interaktion zwischen Geistes-, Sozial- und ComputerwissenschaftlerInnen zu fördern und zu pflegen. Konkret riefen wir dazu auf, gemeinsam an einem heterogenen Korpus zu arbeiten, in dem Entitätenreferenzen annotiert wurden. Das Korpus besteht aus Parlamentsdebatten des Deutschen Bundestags, Briefen aus Goethes Die Leiden des jungen Werther, einem Abschnitt aus Adornos Ästhetischer Theorie und den Büchern von Wolframs von Eschenbach Parzival (mittelhochdeutsch). Auch wenn jede Textsorte ihre eigenen Besonderheiten hat, wurden alle nach einheitlichen Annotationsrichtlinien annotiert, die wir auch zur Diskussion stellten. Wir veröffentlichen hier den Aufruf zu Workshop-Beiträgen, die Annotationsrichtlinien, die Korpusdaten samt Beschreibung und die einführenden Vortragsfolien des Workshops.Item Open Access Detecting protagonists in German plays around 1800 as a classification task(2018) Reiter, Nils; Krautter, Benjamin; Pagel, Janis; Willand, MarcusIn this paper, we aim at identifying protagonists in plays automatically. To this end, we train a classifier using various features and investigate the importance of each feature. A challenging aspect here is that the number of spoken words for a character is a very strong baseline. We can show, however, that a) the stage presence of characters and b) topics used in their speech can help to detect protagonists even above the baseline.Item Open Access Enhancing character type detection using coreference information : experiments on dramatic texts(2024) Pagel, Janis; Kuhn, Jonas (Prof. Dr.)This thesis describes experiments on enhancing machine-learning based detection of literary character types in German-language dramatic texts by using coreference information. The thesis makes four major contributions to the research discourse of character type detection and coreference resolution for German dramatic texts: (i) a corpus of annotations of coreference on dramatic texts, called GerDraCor-Coref, (ii) a rule-based system to automatically resolve coreferences on dramatic texts, called DramaCoref, as well as experiments and analyses of results by using DramaCoref on GerDraCor-Coref, (iii) experiments on the automatic detection of three selected character types (title characters, protagonists and schemers) using machine-learning approaches, and (iv) experiments on utilizing the coreference information of (i) and (ii) for improving the performance of character type detection of (iii).Item Open Access Klassifikation von Titelfiguren in deutschsprachigen Dramen und Evaluation am Beispiel von Lessings "Emilia Galotti"(2019) Krautter, Benjamin; Pagel, JanisDer Idee einer quantitativen und zugleich multidimensionalen Einteilung dramatischer Figuren folgend versuchen wir Titelfiguren im deutschsprachigen Drama automatisch zu bestimmen. Dazu fassen wir das Problem als Klassifikationsaufgabe, die mit maschinellen Lernverfahren bearbeitet wird. Als Features nutzen wir die gesprochenen Tokens der Figuren, deren Bühnenpräsenz, Netzwerkmetriken, Topic Modeling und einige Metadaten. Wir können zeigen, dass unser multidimensionales Modell sinnvolle Ergebnisse für die Klassifikation titelgebender Figuren liefert: MCC 0.66. Titelfiguren werden sehr zuverlässig erkannt (Recall 1.00), das Modell neigt jedoch zur Übergeneralisierung. Wir evaluieren diese Klassifikationsergebnisse anhand von Lessings „Emilia Galotti“.