Optimising the generation performance for multimodal diffusion models using reinforcement learning

dc.contributor.authorGaude, Justus
dc.date.accessioned2025-06-17T13:03:57Z
dc.date.issued2024
dc.description.abstractThis bachelor thesis explores the field of multimodal data synthesis, focusing specifically on the generation of high quality image-text pairs within the UniDiffuser framework. While the UniDiffuser framework has proven its efficiency in generating joint samples along a linear path, where the timesteps of the modalities are uniformly discretized. This study questions whether alternative paths could potentially offer better outcomes in terms of both quality and efficiency. To address this inquiry, hypotheses are formulated, an environment is developed, action space, and state spaces are defined. Through the training of reinforcement learning agents and the use of evaluation metrics, this research attempts to find alternative paths that are more computationally efficient and produce higher quality image-text pairs. Ultimately, this study aims to advancing the state of the art in multimodal data generation.en
dc.description.abstractDiese Bachelorarbeit erforscht das Gebiet der multimodalen Datenerzeugung und konzentriert sich dabei speziell auf die Generierung von qualitativ hochwertigen Bild-Text-Paaren im Rahmen des UniDiffuser-Frameworks. Das UniDiffuser-Framework hat seine Effizienz bei der Erzeugung gemeinsamer Proben entlang eines linearen Pfades bewiesen, bei dem die Zeitschritte der Modalitäten gleichmäßig diskretisiert sind. In dieser Studie wird die Frage gestellt, ob alternative Pfade möglicherweise bessere Ergebnisse sowohl in Bezug auf die Qualität als auch auf die Effizienz liefern könnten. Um diese Frage zu beantworten, werden Hypothesen formuliert, eine Umgebung entwickelt sowie Aktions- und Zustandsräume definiert. Durch das Training von Agenten mit Reinforcement Learning und die Verwendung von Bewertungsmetriken wird versucht, alternative Pfade zu finden, die rechnerisch effizienter sind und qualitativ hochwertigere Bild-Text-Paare erzeugen. Letztendlich zielt diese Studie darauf ab, den Stand der Technik in der multimodalen Datengenerierung voranzutreiben.de
dc.identifier.other1929241143
dc.identifier.urihttp://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-165220de
dc.identifier.urihttps://elib.uni-stuttgart.de/handle/11682/16522
dc.identifier.urihttps://doi.org/10.18419/opus-16503
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/openAccess
dc.subject.ddc004
dc.titleOptimising the generation performance for multimodal diffusion models using reinforcement learningen
dc.typebachelorThesis
ubs.fakultaetInformatik, Elektrotechnik und Informationstechnik
ubs.institutInstitut für Künstliche Intelligenz
ubs.publikation.seiten53
ubs.publikation.typAbschlussarbeit (Bachelor)
ubs.unilizenzOK

Files

Original bundle

Now showing 1 - 1 of 1
Thumbnail Image
Name:
Gaude_Bachelor Thesis_Updated Title Page_II_redacted.pdf
Size:
856.59 KB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
3.3 KB
Format:
Item-specific license agreed upon to submission
Description: