Layout-to-image for defect synthesis via diffusion models

Thumbnail Image

Date

2023

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

In recent years, huge progress has been made in image synthesis through the improvement of state-of-the-art generative models (e.g., VAEs, autoregressive models, and GANs). Now with the help of diffusion models, it reaches a brand-new level. However, applying diffusion models on conditional image synthesis still faces limitations and requires further investigations, especially for coarse spatial layouts, i.e., generating realistic images with the corrected objects in the desired locations. In this master thesis, we introduced a style-based layout-to-image conditional diffusion model (STAY diffusion). To process the layout information, we extended the object instance-specific and layout-aware feature normalization (ISLA-Norm) used in LostGAN and adapted it for the proposed diffusion model framework. By training the novel model on the COCO-Stuff dataset, our method achieved state-of-the-art performance on image fidelity and diversity compared to other layout-to-image models. In addition, we trained the proposed model on the surface defect inspection (SDI) dataset from Robert Bosch to generate defective product surfaces while maintaining both high diversity and image quality, which can be used for data augmentation and further industrial purposes.


In den letzten Jahren wurden in der Bildsynthese durch die Verbesserung modernster Generative Models (z. B. VAEs, Autoregressive Models und GANs) große Fortschritte erzielt. Mit Hilfe von Diffusion Models wird nun ein ganz neues Niveau erreicht. Die Anwendung von Diffusion Models auf die bedingte Bildsynthese stößt jedoch immer noch an Grenzen und erfordert weitere Untersuchungen, insbesondere für grobe räumliche Anordnungen, d. h. die Erzeugung realistischer Bilder mit den korrigierten Objekten an den gewünschten Stellen. In dieser Masterarbeit haben wir ein style-basiertes layout-to-image bedingtes Diffusionsmodell (STAY diffusion) eingeführt. Um die Layout-Informationen zu verarbeiten, haben wir die in LostGAN verwendete objektinstanzspezifische und layoutbewusste Feature Normalization (ISLANorm) erweitert und für das vorgeschlagene Diffusionsmodell angepasst. Durch das Training des neuartigen Modells auf dem COCO-Stuff Dataset erreichte unsere Methode im Vergleich zu anderen Layout-to-Image Modellen die beste Leistung in Bezug auf Bildtreue und Vielfalt. Darüber hinaus trainierten wir das vorgeschlagene Modell auf dem Surface Defect Inspection (SDI) Dataset von Robert Bosch, um defekte Produktoberflächen zu generieren und dabei sowohl eine hohe Diversität als auch eine hohe Bildqualität beizubehalten, die zur Datenerweiterung und für weitere industrielle Zwecke genutzt werden kann.

Description

Keywords

Citation

Endorsement

Review

Supplemented By

Referenced By