SwinDiffuser : accelerating diffusion models through parallel processing

dc.contributor.authorYe, Yun
dc.date.accessioned2025-06-06T14:56:20Z
dc.date.issued2024
dc.description.abstractDiffusion models have emerged as a powerful generative approach in artificial intelligence, particularly for image, video, and audio synthesis. Despite their success, these models suffer from significant computational demands due to the iterative nature of the denoising process. This thesis introduces the SwinDiffuser, a novel method designed to accelerate diffusion models by leveraging parallel processing. The proposed method divides high-resolution images into smaller patches, allowing for simultaneous processing by multiple diffusers. Key innovations include the integration of global feature extractors and shifting windows to maintain coherence across patches, and the utilisation of a U-Net architecture for noise prediction. Experimental results demonstrate that the SwinDiffuser achieves comparable image quality to standard diffusion models while significantly reducing generation time. This advancement paves the way for practical applications of diffusion models in real-time scenarios and resource-constrained environments.en
dc.description.abstractDiffusionsmodelle haben sich als mächtiger generativer Ansatz in der künstlichen Intelligenz etabliert, insbesondere für die Bild-, Video- und Audiogenerierung. Trotz ihres Erfolgs sind diese Modelle aufgrund der iterativen Natur des Rauschunterdrückungsprozesses mit erheblichen Rechenanforderungen verbunden. Diese Arbeit stellt den SwinDiffuser vor, eine neuartige Methode zur Beschleunigung von Diffusionsmodellen durch parallele Verarbeitung. Die vorgeschlagene Methode unterteilt hochauflösende Bilder in kleinere Abschnitte, die gleichzeitig von mehreren Diffusoren verarbeitet werden können. Zu den wichtigsten Innovationen gehören die Integration globaler Merkmalsextraktoren und verschiebbarer Fenster, um die Kohärenz zwischen den Abschnitten zu gewährleisten, sowie die Nutzung einer U-Net-Architektur zur Rauschvorhersage. Experimentelle Ergebnisse zeigen, dass der SwinDiffuser eine mit Standard-Diffusionsmodellen vergleichbare Bildqualität erreicht und gleichzeitig die Generierungszeit erheblich reduziert. Diese Weiterentwicklung ebnet den Weg für praktische Anwendungen von Diffusionsmodellen in Echtzeitszenarien und ressourcenbeschränkten Umgebungen.de
dc.identifier.urihttp://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-165160de
dc.identifier.urihttps://elib.uni-stuttgart.de/handle/11682/16516
dc.identifier.urihttps://doi.org/10.18419/opus-16497
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/openAccess
dc.subject.ddc004
dc.titleSwinDiffuser : accelerating diffusion models through parallel processingen
dc.typemasterThesis
ubs.fakultaetInformatik, Elektrotechnik und Informationstechnik
ubs.institutInstitut für Künstliche Intelligenz
ubs.publikation.noppnyesde
ubs.publikation.seiten47
ubs.publikation.typAbschlussarbeit (Master)
ubs.unilizenzOK

Files

Original bundle

Now showing 1 - 1 of 1
Thumbnail Image
Name:
Ye_Final Thesis.pdf
Size:
16.58 MB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
3.3 KB
Format:
Item-specific license agreed upon to submission
Description: