Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-3091
Autor(en): Sajjad, Hassan
Titel: Statistical models for unsupervised, semi-supervised and supervised transliteration mining
Sonstige Titel: Statistische Modelle für unüberwachte, halb-überwachte und überwachte Extraktion von Transliterationen
Erscheinungsdatum: 2012
Dokumentart: Dissertation
URI: http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-83391
http://elib.uni-stuttgart.de/handle/11682/3108
http://dx.doi.org/10.18419/opus-3091
Zusammenfassung: Transliteration is a process of converting a word written in one script to another script in such a way that pronunciation remains almost the same. It is useful in major applications of natural language processing such as machine translation and cross language information retrieval. A transliteration system is generally built using two types of manually created resources - hand-crafted transliteration rules and a list of transliteration pairs. It either uses the transliteration rules with an edit distance metric to produce transliterations or automatically learns character alignments from transliteration pairs to build a model. The system requires language pair dependent resources for training which are not available for all language pairs. Using transliteration mining, one can automatically extract a list of transliteration pairs from a parallel corpus. However, all the state-of-the-art transliteration mining techniques are supervised or semi-supervised and require language dependent information for training. Until the work described here was carried out, there was no fully unsupervised method in the literature. In this thesis, I solve this issue by showing that transliteration mining can be done in an unsupervised fashion. The proposed method does not require any language pair dependent resources. I also incorporate transliteration into machine translation and word alignment and show that it improves the performance of the systems. Following is the summary of the steps which I have gone through to accomplish this task: In the first part of my work, I have shown the applicability of transliteration to machine translation. I have presented a novel machine translation model that incorporates transliteration. During disambiguation, transliteration and translation options compete with each other and the decoder has to decide on the fly which translation or transliteration to choose. For closely related language pairs with significant vocabulary overlap, I showed that transliteration is effective for more than just translating out-of-vocabulary words. I have proposed a heuristic-based transliteration mining system and showed that transliteration mining can be done in an unsupervised fashion. It shows competitive results when compared with the previous semi-supervised and supervised systems. This system has a few limitations. I then presented a novel model for unsupervised transliteration mining that consists of a transliteration sub-model and a non-transliteration sub-model. The unsupervised system performed better than most of the previous semi-supervised and supervised systems. I extended the unsupervised model to use the available resources and presented a semi-supervised and supervised version of it. I showed that if some labeled data is available, it is better to build a semi-supervised system than a supervised or unsupervised system. I have incorporated unsupervised transliteration mining model to an unsupervised word aligner. The new alignment system is also fully unsupervised and showed a big improvement in both precision and recall when compared with the baseline alignment. This showed that the proposed unsupervised method of mining can be effectively used to improve the performance of natural language processing applications.
Der Begriff "Transliteration" bezeichnet die Konvertierung eines Wortes aus einer Schrift in eine andere Schrift unter annähernder Beibehaltung der Aussprache. Transliteration ist für viele Anwendungen in der maschinellen Sprachverarbeitung nützlich, beispielsweise für die maschinelle Übersetzung oder für Cross-Language Information Retrieval. Es gibt zwei wichtige Methoden, um Transliterationssysteme zu erstellen. Die erste Methode verwendet handgeschriebene Regeln und den String-Edit-Distance-Algorithmus, um die beste Transliteration zu bestimmen. Das andere Verfahren lernt ein statistisches Modell aus einer Liste von Transliterationspaaren. Beide Methoden erfordern sprachabhängige Ressourcen (hier Transliterationsregeln, dort Transliterationspaare), die manuell erstellt werden müssen und nur für wenige Sprachpaare verfügbar sind. Mit Hilfe von Transliteration Mining ist es möglich, eine Liste von Transliterationspaaren automatisch aus einem parallelen Korpus zu extrahieren. Die besten bisherigen Transliteration-Mining-Methoden sind jedoch alle überwachte oder halbüberwachte Verfahren, die eine kleine Liste von Transliterationspaaren für das Training benötigen. Die vorliegende Arbeit zeigt erstmals, dass Transliteration Mining auch mit einem rein unüberwacht trainierten System erfolgen kann. Die vorgestellte Methode erfordert keinerlei sprachabhängige Ressourcen. Ferner beschreibe ich, wie Transliteration zur Verbesserung der maschinellen Übersetzung und der Wortalignierung eingesetzt werden kann. Im Folgenden fasse ich die Schritte zusammen, mit denen ich die Aufgabe gelöst habe: Im ersten Teil meiner Arbeit zeige ich, dass Transliteration zur Verbesserung der maschinellen Übersetzung eingesetzt werden kann. Ich präsentiere ein neuartiges Übersetzungsmodell, in das ein Transliterationsmodul integriert ist. Während der maschinellen Übersetzung konkurrieren die Transliteration und die wortbasierte Übersetzung von Wörtern miteinander, und der Übersetzer entscheidet laufend zwischen der Verwendung der beiden Methoden. Ich zeige, dass bei der Übersetzung zwischen verwandten Sprachen mit einem großen gemeinsamen Wortschatz die Transliteration nicht nur für die Übersetzung unbekannter Wörter sondern auch bei anderen Wörtern nützlich ist. Anschließend schlage ich ein heuristisches Transliteration-Mining-System vor und zeige damit, dass unüberwachtes Transliteration Mining möglich ist. Die Genauigkeit des Systems ist mit derjenigen von bisherigen halbüberwachten und überwachten Systemen vergleichbar. Das System hat jedoch einige Einschränkungen. Daher präsentiere ich eine weitere Methode für unüberwachtes Transliteration Mining, die zwei statistische Modelle kombiniert, eines für Transliterationen und eines für Nichttransliterationen. Dieses unüberwachte System ist genauer als die meisten bisherigen überwachten und halbüberwachten Systeme. Ich erweitere das unüberwachte System zu einem halbüberwachten System, um auch gegebenenfalls vorhandene manuell erstellte Transliterationspaare beim Training nutzen zu können. Ich stelle auch eine rein überwacht trainierte Variante meines Ansatzes vor. Wenn einige manuell annotierte Trainingsdaten zur Verfügung stehen, liefert das halbüberwachte System bessere Ergebnisse als das unüberwachte und das voll überwachte System. Schließlich zeige ich, wie unüberwachtes Transliteration Mining die unüberwachte Wortalignierung verbessern kann. Das neue Wortalignierungssystem ist ebenfalls unüberwacht und wesentlich genauer als das Ausgangssystem, sowohl bzgl. Precision als auch bzgl. Recall. Damit wird gezeigt, dass die vorgestellte Transliteration-Mining-Methode die Leistung von Sprachverarbeitungssystemen effektiv verbessern kann.
Enthalten in den Sammlungen:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
thesis.pdf1,65 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.