Optimising the generation performance for multimodal diffusion models using reinforcement learning

Thumbnail Image

Date

2024

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

This bachelor thesis explores the field of multimodal data synthesis, focusing specifically on the generation of high quality image-text pairs within the UniDiffuser framework. While the UniDiffuser framework has proven its efficiency in generating joint samples along a linear path, where the timesteps of the modalities are uniformly discretized. This study questions whether alternative paths could potentially offer better outcomes in terms of both quality and efficiency. To address this inquiry, hypotheses are formulated, an environment is developed, action space, and state spaces are defined. Through the training of reinforcement learning agents and the use of evaluation metrics, this research attempts to find alternative paths that are more computationally efficient and produce higher quality image-text pairs. Ultimately, this study aims to advancing the state of the art in multimodal data generation.


Diese Bachelorarbeit erforscht das Gebiet der multimodalen Datenerzeugung und konzentriert sich dabei speziell auf die Generierung von qualitativ hochwertigen Bild-Text-Paaren im Rahmen des UniDiffuser-Frameworks. Das UniDiffuser-Framework hat seine Effizienz bei der Erzeugung gemeinsamer Proben entlang eines linearen Pfades bewiesen, bei dem die Zeitschritte der Modalitäten gleichmäßig diskretisiert sind. In dieser Studie wird die Frage gestellt, ob alternative Pfade möglicherweise bessere Ergebnisse sowohl in Bezug auf die Qualität als auch auf die Effizienz liefern könnten. Um diese Frage zu beantworten, werden Hypothesen formuliert, eine Umgebung entwickelt sowie Aktions- und Zustandsräume definiert. Durch das Training von Agenten mit Reinforcement Learning und die Verwendung von Bewertungsmetriken wird versucht, alternative Pfade zu finden, die rechnerisch effizienter sind und qualitativ hochwertigere Bild-Text-Paare erzeugen. Letztendlich zielt diese Studie darauf ab, den Stand der Technik in der multimodalen Datengenerierung voranzutreiben.

Description

Keywords

Citation

Endorsement

Review

Supplemented By

Referenced By