Modeling variance in prosody

Thumbnail Image

Date

2025

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Recent advancements in text-to-speech (TTS) systems have significantly improved the naturalness and expressivity of synthetic speech. However, a persistent trade-off exists between expressivity and controllability. While deep learning-based models can generate highly expressive speech, they often lack mechanisms for fine-grained control over prosodic features, limiting their applicability in domains requiring precise prosody control, such as voice anonymization, and high-quality dubbing. This thesis explores probabilistic prosody modeling as a means to enhance expressivity while maintaining user control over pitch, energy, and duration. We evaluate three generative approaches: Normalizing Flows (NF), Conditional Flow Matching (CFM), and Rectified Flows (RF), comparing their effectiveness in capturing natural prosodic variation. Unlike previous research, which primarily focused on stochastic duration modeling, this study systematically examines probabilistic methods across all three major prosodic features. Through a structured multi-stage evaluation, including objective variance analysis and large-scale subjective studies, we demonstrate that probabilistic prosody modeling significantly improves prosodic diversity over deterministic approaches. Among the tested models, RF at moderate sampling temperatures achieves the best balance between naturalness and expressivity. The results confirm that controlled variance is crucial for balancing expressive speech synthesis with listener expectations of naturalness. This work contributes to the development of more flexible and human-like TTS systems by providing systematic insights into probabilistic prosody modeling.


Die jüngsten Fortschritte bei Text-to-Speech-Systemen (TTS) haben die Natürlichkeit und Ausdruckskraft synthetischer Sprache erheblich verbessert. Es besteht jedoch ein ständiger Kompromiss zwischen Ausdruckskraft und Kontrollierbarkeit. Während Deep-Learning-basierte Modelle sehr ausdrucksstarke Sprache erzeugen können, fehlt es ihnen oft an Mechanismen für eine detaillierte Kontrolle über prosodische Merkmale, was ihre Anwendbarkeit in Bereichen einschränkt, die eine präzise Kontrolle der Prosodie erfordern, wie z. B. die Anonymisierung von Stimmen und hochwertige Synchronisation. In dieser Arbeit wird die probabilistische Prosodiemodellierung als Mittel zur Steigerung der Ausdruckskraft bei gleichzeitiger Beibehaltung der Benutzerkontrolle über Tonhöhe, Energie und Dauer eines Phonems untersucht. Wir evaluieren drei generative Ansätze: Normalizing Flows (NF), Conditional Flow Matching (CFM) und Rectified Flows (RF) und vergleichen ihre Effektivität bei der Erfassung natürlicher prosodischer Variation. Im Gegensatz zu früheren Untersuchungen, die sich in erster Linie auf die stochastische Modellierung der Dauer eines Phonems konzentrierten, werden in dieser Studie probabilistische Methoden systematisch für alle drei wichtigen prosodischen Merkmale untersucht. Durch eine strukturierte mehrstufige Evaluierung, einschließlich objektiver Varianzanalyse und umfangreicher subjektiver Studien, zeigen wir, dass die probabilistische Prosodiemodellierung die prosodische Vielfalt gegenüber deterministischen Ansätzen deutlich verbessert. Unter den getesteten Modellen erreicht RF bei moderaten Sampling-Temperaturen die beste Balance zwischen Natürlichkeit und Ausdruckskraft. Die Ergebnisse bestätigen, dass kontrollierte Varianz entscheidend ist, um eine ausdrucksstarke Sprachsynthese mit den Erwartungen des Hörers an Natürlichkeit in Einklang zu bringen.

Description

Keywords

Citation

Endorsement

Review

Supplemented By

Referenced By