Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-9358
Autor(en): Bräuninger, Maximilian
Titel: Improving SMT-based synonym extraction across word classes by distributional reranking of synonyms and hypernyms
Erscheinungsdatum: 2017
Dokumentart: Abschlussarbeit (Bachelor)
Seiten: 40
URI: http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-93751
http://elib.uni-stuttgart.de/handle/11682/9375
http://dx.doi.org/10.18419/opus-9358
Zusammenfassung: Automatic Synonym Extraction is a promising field of research. For example it can be useful in the creation of Thesauri, aswell as in the creation and examination of automatic machine translation. This thesis tries to extract synonym candidates using "statistical machine translation" (SMT) methods combined with multilingual parallel corpora. This is done by the creation of "word alignments" within the parallel corpus. Using these alignments, in a first step the German target words, consisting of nouns, verbs and adjectives, are translated into English pivots. Using the same techniques, these pivots are then re-translated into German words. These translations are regarded as synonym candidates and are ranked according to their "synonym probability". In a second step two different distributional semantics measures are introduced in order to re-rank the synonym candidates. The first measure tries to identify the semantical relation between the words, especially the hyperonomy, and rank hypernyms lower in the candidate list. The second measure relies on the semantical similarity of the words, ranking semantically equivalent words higher in the list. In a last step, the results are compared with regard to word class aswell as re-ranking strategy using a gold standard.
Automatische Synonym Extraktion ist ein vielversprechendes Anwendungsfeld. Sie ist beispielsweise nützlich bei der Erstellung von Thesauri oder der Erstellung und Bewertung von maschinellen Übersetzungen. Diese Arbeit versucht Synonymkandidaten mit Hilfe von "Statistical Machine Translation" (SMT) Techniken und mehrsprachigen parallelen Korpussen zu extrahieren. Dies geschieht durch die Erzeugung von "Wort Alignments" innerhalb des parallelen Korpus. Mit Hilfe dieser Alignments werden zuerst englische Übersetzungen der deutschen Target Wörter, die sowohl aus Nomen als auch Verben und Adjektiven bestehen, erzeugt. Die sogenannten "Pivots". Diese englischsprachigen "Pivots" werden anschließend unter Zuhilfenahme der selben SMT-Techniken wieder ins Deutsche rückübersetzt. Die so gewonnen Wörter werden nun als Synonymkandidaten des ursprünglichen Target Worts angesehen und anhand ihrer "Synonymwahrscheinlichkeit" bewertet. In einem weitergehenden Schritt werden zwei unterschiedliche distributionelle semantische Maße eingeführt um die ursprünglichen Synonymkandidat Listen neu zu ordnen. Eines dieser Maße versucht dabei, die semantischen Relationen zwischen den Wörtern, im speziellen die Hyperonomie, zu erfassen und entsprechende Kandidaten niedriger einzuordnen. Das andere Maß misst die semantische Ähnlichkeit der Wörter um Wörter die eine hohe semantische Ähnlichkeit zum "Target Wort" aufweisen höher einzustufen. Abschließend folgt ein Vergleich der verschiedenen Wortarten sowie Neuordnungs-Strategien mit Hilfe eines Gold Standards.
Enthalten in den Sammlungen:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
MaximilianBraeuningerBachelorThesis.pdf526,83 kBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.