Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-2692
Autor(en): Schweitzer, Antje
Titel: Production and perception of prosodic events : evidence from corpus-based experiments
Sonstige Titel: Produktion und Perzeption prosodischer Ereignisse : Hinweise aus korpusbasierten Experimenten
Erscheinungsdatum: 2010
Dokumentart: Dissertation
URI: http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-60310
http://elib.uni-stuttgart.de/handle/11682/2709
http://dx.doi.org/10.18419/opus-2692
Zusammenfassung: This thesis explores perception and production of prosody by way of corpus experiments. Following Dogil/Möbius (2001) I suggest to apply Guenther and Perkell's speech production model for the segmental domain (Guenther 1995; Guenther et al. 1998; Perkell et al. 2001) to the prosodic domain. I suggest that Guenther and Perkell's model is compatible with exemplar theory (e.g. Lacerda 1995; Goldinger 1996, 1997, 1998; Johnson 1997; Pierrehumbert 2001, 2003), and that the target regions can be derived in an exemplar-theoretic fashion: They are implicitly derived from the range of values that is observed for stored exemplars in the relevant dimensions. I assume that the prosodic categories are the categories posited by GToBI(S) (Mayer 1995) in adaptation of the Tone Sequence Model (Pierrehumbert 1980) to German. As for the dimensions of the target regions pertaining to these categories, I suggest a measure of local speech rate, viz. duration z-scores, as the temporal dimension, and tonal parameters describing the shape of F0 contours related to prosodic categories, the so-called PaIntE parameters (Möhler/Conkie 1998), as tonal dimensions. According to Guenther and Perkell, the relevant dimensions are perceptual dimensions. To motivate the perceptual relevance of duration z-scores and PaIntE parameters, realizations of prosodic categories in a large database are investigated by examining their distributions for each parameter. It is shown that the parameters capture well-known aspects of the realization of prosodic events, such as phrase-final lengthening related to prosodic phrases, the differences in the alignment of peaks and those between rise and fall amplitudes for the different categories as predicted by GToBI(S), the optimal alignment of peaks with syllable structure (House 1996), but also more recent findings such as the influence of vowel height on the alignment of peaks in German H*L accents (Jilka/Möbius 2007). Confidence tests confirm that for the prosodic categories, the parameter distributions observed in the corpus differ significantly. This is taken as evidence that the parameters play a role in perception. To further motivate this claim, I show that the parameters are useful in detecting prosodic categories automatically. Exemplar theory would suggest that if all relevant perceptual dimensions are known, it should be straightforward to detect clouds corresponding to phonetic categories using clustering techniques. To this end, I conducted clustering experiments using a prosodically annotated corpus of a male speaker. For each syllable in the corpus, 29 attributes involving duration z-scores and PaIntE parameters as well as derived parameters and some additional higher-linguistic attributes were extracted. The resulting data were clustered using various clustering algorithms and various numbers of clusters. The experimental results show that it is in general possible to identify clusters which correspond well to prosodic categories. Furthermore, if the clusters correspond to categories, they should generalize to new data. For evaluating the generalizability of the clusterings I suggest a new procedure which evaluates clusterings on independent test data using a classification accuracy measure which models exemplar-theoretic categorization. This yields classification accuracies of slightly more than 85% on independent test data, which is clearly above the baseline of around 78%. Finally, prosodic categorization is simulated using supervised machine learning methods to classify new exemplars based on the same parameters as in the clustering experiments, again to corroborate their perceptual relevance. Several classification algorithms yield results of approx. 78% accuracy on the word level for pitch accents, and approx. 88% accuracy on the word level for phrase boundaries. The word level accuracies for pitch accents correspond to approximately 87.5% on the syllable level, which is slightly but not dramatically better than the accuracies of around 85% obtained above for the clusterings. The classifiers generalize well to similar data of a female speaker in that they perform equally well as classifiers trained directly on the female data. These classifiers have been integrated into a prototype of a tool for automatic prosodic labeling. Some examples of automatic prosodic annotations produced by this tool are given to illustrate its usefulness in automatic prosodic labeling.
Diese Arbeit beschäftigt sich mit Korpusexperimenten zur Perzeption und Produktion von Prosodie. Ich folge Dogil und Möbius (2001) und übertrage Guenther and Perkells Sprachproduktionsmodell für die segmentale Ebene (Guenther 1995; Guenther et al. 1998; Perkell et al. 2001) auf die Ebene der Prosodie. Ich schlage vor, dass das Modell mit der Exemplartheorie (z.B. Lacerda 1995; Goldinger 1996, 1997, 1998; Johnson 1997; Pierrehumbert 2001, 2003) kompatibel ist, und dass die Zielregionen mithilfe exemplartheoretischer Prozesse erlernt werden können: sie werden implizit durch die Bandbreiten der Werte bestimmt, die die im Gedächtnis gespeicherten Exemplare in den relevanten Dimensionen aufweisen. Dabei nehme ich an, dass die prosodischen Kategorien die Kategorien sind, die GToBI(S) (Mayer 1995) in Adaption des Tonsequenzmodells (Pierrehumbert 1980) auf das Deutsche vorschlägt. Als temporale Dimension der Zielregionen für diese Kategorien schlage ich ein Maß für lokale Sprechgeschwindigkeit vor, nämlich z-transformierte Lautdauern, und als tonale Dimensionen die sogenannten PaIntE Parameter (Möhler/Conkie 1998), die die Form der F0-Kontur für prosodische Kategorien beschreiben. Nach Guenther und Perkell sind die relevanten Dimensionen perzeptuelle Dimensionen. Um die perzeptuelle Relevanz der z-transformierten Lautdauern und der PaIntE Parameter zu motivieren, werden prosodische Kategorien in einer großen Datenbank hinsichtlich ihrer Distributionen für diese Parameter untersucht. Es wird gezeigt, dass die Parameter bekannte Aspekte der Realisierung prosodischer Ereignisse erfassen, wie z.B. phrasenfinale Längung im Zusammenfang mit prosodischen Phrasengrenzen, von GToBI(S) vorhergesagte Unterschiede zwischen den prosodischen Kategorien hinsichtlich der Alignierung des F0-Gipfels und der Amplituden von F0-Anstieg und F0-Fall, die optimale Alignierung der F0-Gipfel mit der Silbenstruktur gemäß House (1996), aber auch neuere Erkenntnisse wie den Einfluss der Vokalhöhe auf die Alignierung des Gipfels bei deutschen H*L Akzenten (Jilka/Möbius 2007). Konfidenztests bestätigen, dass die Parameterdistributionen für die unterschiedlichen Kategorien signifikant unterschiedlich sind. Dies wird als Hinweis darauf interpretiert, dass die Parameter in der Prosodieperzeption eine Rolle spielen. Um diese These weiter zu erhärten, zeige ich, dass die Parameter bei der automatischen Entdeckung prosodischer Kategorien nützlich sind. Die Exemplartheorie legt nahe, dass es relativ direkt möglich sein sollte, Exemplarwolken, die phonetischen Kategorien entsprechen, mithilfe von Clusteringtechniken zu entdecken, sofern alle relevanten perzeptuellen Dimensionen bekannt sind. Dazu wurden in dieser Arbeit Clusteringexperimente mit Daten eines prosodisch annotierten Korpus eines männlichen Sprechers durchgeführt. Für jede Silbe im Korpus wurden 29 Attribute extrahiert, darunter z-transformierte Lautdauern und PaIntE Parameter ebenso wie daraus abgeleitete Parameter und einige zusätzliche höher-linguistische Attribute. Diese Daten wurden mit unterschiedlichen Clusteringverfahren sowie unterschiedlichen Vorgaben für die Clusteranzahl geclustert. Die Ergebnisse dieser Experimente zeigen, dass es möglich ist, Cluster zu identifizieren, die prosodischen Kategorien entsprechen. Weiterhin sollten diese Cluster, wenn sie Kategorien entsprechen, auch auf andere Daten übertragbar sein. Um die Übertragbarkeit der Clusterings zu überprüfen schlage ich eine neue Prozedur vor, die die Clusterings auf unabhängigen Testdaten mithilfe eines Maßes für die Klassifikationsgenauigkeit evaluiert, wobei dieses Maß exemplartheoretische Kategorisierung modelliert. Es werden Klassifikationsgenauigkeiten von etwas mehr als 85% auf unabhängigen Testdaten erreicht. Das ist deutlich über der Baseline von etwa 78%. Desweiteren wird die prosodische Kategorisierung mithilfe von überwachten Machine Learning-Verfahren modelliert. Dabei werden neue Exemplare anhand derselben Daten und Parameter wie bei den Clusterexperimenten klassifiziert; auch hier, um ihre perzeptuelle Relevanz zu bestätigen. Mehrere Klassifikationsalgorithmen liefern Ergebnisse von etwa 78% Genauigkeit auf Wortebene für Pitchakzente, und etwa 88% Genauigkeit auf Wortebene für Phrasengrenzen. Die Genauigkeit auf Wortebene für Pitchakzente entspricht etwa 87.5% Genauigkeit auf Silbenebene und ist somit nur wenig besser als die Genauigkeit von etwa 85%, die sich bei der Klassifikation in den Clusterexperimenten ergab. Die Klassifikatoren lassen sich auf ähnliche Daten einer weiblichen Sprecherin gut übertragen: sie liefern ebenso gute Ergebnisse wie Klassifikatoren, die direkt auf den Daten der weiblichen Sprecherin trainiert wurden. Die Klassifikatoren wurden in den Prototyp eines Werkzeugs für automatische prosodische Annotation integriert. Zur Illustration der Qualität der automatischen Annotation werden einige Beispielannotationen, die mit diesem Werkzeug generiert wurden, besprochen.
Enthalten in den Sammlungen:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
Dissertation_Schweitzer.pdf2,85 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.