Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen:
http://dx.doi.org/10.18419/opus-3240
Autor(en): | Anstein, Stefanie |
Titel: | Computational approaches to the comparison of regional variety corpora : prototyping a semi-automatic system for German |
Sonstige Titel: | Komputationelle Ansätze zum Vergleich von regionalen Varietäten an Hand von Korpora : der Entwurf eines semi-automatischen Systems für das Deutsche |
Erscheinungsdatum: | 2013 |
Dokumentart: | Dissertation |
URI: | http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-88603 http://elib.uni-stuttgart.de/handle/11682/3257 http://dx.doi.org/10.18419/opus-3240 |
Zusammenfassung: | Regional varieties of pluri-centric languages such as German are generally very similar with respect to their structure and the linguistic phenomena that occur. The extraction of differences is thus crucial e.g. for variety documentation, lexicography, or didactics. In this thesis, computational approaches to the comparison of regional variety corpora are explored, in order to support manual analyses by variety linguists. A feasibility study on semi-automatic corpus comparison has been conducted by developing a prototype system, in order to determine on which levels of linguistic description such automation is possible and to what extent. Further research aims at showing which features of the input corpora produce the best results as well as on the ‘relevance ranking’ of the output. In addition, the potential of integrating available standard tools as well as the transferability of the system to other languages have been explored. Written corpora, which have been made increasingly available through initiatives such as Korpus Südtirol, are used as an empirical basis to extract differences semi-automatically, which is more efficient and more objective than a purely manual approach. The results yielded by the prototype system Vis-À-Vis assist variety linguists in their detailed qualitative analyses by reducing corpus comparison output to presumably relevant phenomena. In regional variety linguistics, numerous manual approaches have been applied and various single studies have been carried out, followed more recently by an increasing number of automated studies on the basis of corpora being developed for pluri-centric languages. In computational linguistics, the analysis and comparison of corpora through automated systems, in order to find differences on various levels of linguistic description, has been conducted for a considerable time (e.g. for register studies), yielding promising results.
Vis-À-Vis applies linguistic pattern extraction as well as statistical output comparison, combining existing standard tools with adapted or newly-developed tools. It is a modular system that offers a user-friendly graphical interface, available online and for downloading. The processing of the corpus input consists of data annotation and the extraction of phenomena on different levels of linguistic description (i.e. at the uni-gram level, the bi-gram level, and selected aspects of the syntactic level). Vis-À-Vis produces ranked ‘candidate’ lists of variety peculiarities – by filtering through corpus-external linguistic knowledge and by applying statistical association measures to identify significantly different phenomena in the two input corpora, in order to reduce the output to probably relevant phenomena. The quantitative evaluation showed that the system performs clearly better than a baseline approach and that it outperforms well-known commercial systems. Furthermore, first qualitative results produced by Vis-À-Vis led to suggestions for refining and enhancing variant dictionary entries.
The overall conclusion of this work is that a semi-automatic approach to variety comparison is clearly promising for lower levels of linguistic description, and – with further refinements – for more complex levels as well. The comparability of the input corpora turned out to be crucial for usable results, and the association measures used for relevance ranking proved to be valuable. Standard corpus processing tools have been integrated, and the transferability to other pluricentric languages is ensured by the system’s modular architecture.
Complying with the research desiderata identified, comprehensive methods for systematic regional variety studies have been assessed and made available. This work has contributed to applied variety linguistic research, resulting in benefits for general variety description. Regional variety linguists as well as lexicographers, teachers and learners, and the interested public all benefit from the results of such a specifically tailored tool; they can use these results as a compact empirical basis — extracted from large amounts of authentic data — for their detailed qualitative analyses. Through an easily accessible user-friendly application of a comprehensive computational system, they are supported in efficiently extracting differences between varieties of pluri-centric languages. Bootstrapping processes will further enhance the input data and the methods to provide increasingly better results of variety corpus comparison. Such comprehensive tools can also serve in fields outside of regional variety linguistics, wherever corpora are being compared, contributing to further general linguistic research. Regionale Varietäten pluri-zentrischer Sprachen haben grundsätzlich sehr viele Gemeinsamkeiten bezüglich ihrer Struktur und der auftretenden linguistischen Phänomene. Umso wichtiger ist es, Unterschiede zu erfassen, etwa für Varietätendokumentation, -lexikographie oder -didaktik. Die Ziele der vorliegenden Arbeit bestehen darin, Möglichkeiten der Automatisierung manueller varietätenlinguistischer Forschung mit komputationellen Methoden zu erforschen. Dafür wurde eine Machbarkeitsstudie durchgeführt, in der der Prototyp eines Systems zum halb-automatischen Vergleich von Varietätenkorpora geschriebener Sprache entwickelt wurde: Vis-À-Vis unterstützt Varietätenlinguisten bei der manuellen Analyse von regionalen Varietäten und erlaubt einen effizienteren und objektiveren Vergleich. Die dabei zu beantwortenden Forschungsfragen beziehen sich u.a. auf das mögliche Ausmaß und die Übertragbarkeit dieser automatisierten Unterstützung, auf die ideale Beschaffenheit der Eingabekorpora für nützliche Ergebnisse, auf die mögliche Sortierung der Ergebnisse nach einem automatisch erhobenen Relevanzwert sowie auf die Integrierbarkeit bestehender Korpusverarbeitungswerkzeuge. Im Bereich der Varietätenlinguistik gibt es eine Vielzahl manueller Einzelstudien und zunehmend auch automatisierte Detailstudien für teilweise sehr spezielle regionale, meist lexikalische Phänomene. In der Computerlinguistik wurde eine Reihe von halb-automatischen Systemen entwickelt, die linguistische Phänomene in Korpora analysieren und vergleichen. Die sich daraus ergebenden Desiderate für die varietätenlinguistische Forschung beinhalten umfassende systematische Studien auf mehreren linguistischen Beschreibungsebenen im direkten Vergleich von Varietätenkorpora mit komputationellen Methoden und Werkzeugen auf dem neusten Entwicklungsstand. Vis-À-Vis analysiert und vergleicht linguistische Phänomene aus Varietätenkorpora, um Listen von möglichen relevanten Unterschieden als Grundlage für manuelle Feinanalysen zu erstellen. Dabei wird bereits vorhandenes linguistisches Wissen über die zu untersuchenden Varietäten einbezogen. Das modulare System kombiniert musterbasierte mit statistischen Ansätzen und integriert verfügbare Standardwerkzeuge, die mit angepassten und neu entwickelten Werkzeugen verknüpft wurden. Es steht sowohl über eine leicht zugängliche und benutzerfreundliche graphische Web-Oberfläche als auch zum Herunterladen zur Verfügung. Im Unterschied zu anderen korpusvergleichenden Systemen ist Vis-À-Vis speziell auf regionale Varietäten zugeschnitten. Nach der Annotation der Eingabekorpora und deren Abfrage-Indizierung werden Phänomene auf drei linguistischen Beschreibungsebenen extrahiert. Die dabei erhobenen Unigramme, Bigramme und exemplarischen syntaktischen Phänomene werden daraufhin in Bezug auf ihre Relevanz gefiltert sowie mit Hilfe von statistischen Assoziationsmaßen sortiert, um wahrscheinliche Kandidaten für bisher nicht erfasste Regionalismen zu ermitteln. Die Ausgabe des Systems besteht aus allgemeinen Angaben über die verwendeten Korpora und deren Vergleichbarkeit sowie aus konkreten gefilterten und sortierten Phänomentabellen mit quantitativen Daten aus den Korpora. Die wesentlichen Ergebnisse der Evaluierung von Vis-À-Vis bestehen einerseits aus quantitativen Daten zur Genauigkeit und zur Trefferquote, die für die Unigramm-Ebene in Zeitungskorpora einen deutlichen positiven Unterschied zur Messbasis sowie auch zu bekannten kommerziellen Systemen aufweisen. Zudem konnten erste angewandte Studien qualitative Ergebnisse liefern, die die Überprüfung und Ergänzung von Lexikoneinträgen für Variantenwörterbücher ermöglichen. Ressourcen und Werkzeuge für die komputationelle Varietätenlinguistik können zunehmend – etwa durch Ergebnisse aus weiteren Studien mit Systemen wie Vis-À-Vis – verfeinert werden. Im Hinblick auf die genannten Forschungsfragen kann bestätigt werden, dass die Unterstützung manueller Varietätenkorpusvergleiche auf den tiefen linguistischen Beschreibungsebenen sehr gut machbar ist, während sie auf höheren Ebenen deutlich komplexer wird. Dabei sind Voraussetzungen für nützliche Ergebnisse v.a. die Vergleichbarkeit der Eingabekorpora. Ein Filtern und Sortieren der Ergebnisse mit statistischen Assoziationsmaßen nach wahrscheinlicher Relevanz für Varietätenunterschiede ist möglich. Verfügbare Standardwerkzeuge konnten mit akzeptablem Anpassungsaufwand integriert werden; zudem ist das System durch seine Modularität direkt übertragbar auf andere linguistische Beschreibungsebenen sowie auf andere Sprachen. Die Weiterverfolgung und Verfeinerung des in dieser Arbeit vorgestellten Ansatzes wird überaus nützliche Ergebnisse für die Erforschung und Beschreibung nicht nur regionaler, sondern auch weiterer linguistischer Varietäten liefern, was einen wesentlichen Beitrag zur sprachwissenschaftlichen Forschung leistet. |
Enthalten in den Sammlungen: | 05 Fakultät Informatik, Elektrotechnik und Informationstechnik |
Dateien zu dieser Ressource:
Datei | Beschreibung | Größe | Format | |
---|---|---|---|---|
Diss_Anstein_2013.pdf | 2,42 MB | Adobe PDF | Öffnen/Anzeigen |
Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.