Stable Diffusion is een open source model van Stability.ai dat bedoeld is om op een geleidelijke en stabiele manier afbeeldingen te genereren met veel controle.
Dit gebeurt door middel van het diffusion model, wat verschilt van traditionele generatieve modellen zoals GAN's en VAE's. Deze modellen genereren afbeeldingen door middel van een directe, één-staps benadering. Stable Diffusion maakt daarentegen gebruik van een reeks geleidelijke, omkeerbare stappen om een afbeelding te creëren. Dit resulteert in een grotere controle over het generatieproces en een verbeterde beeldkwaliteit.
Afbeelding gegenereerd door Stable Diffusion voor Stability.ai zelf.
Het generatieproces begint met een ruwe schets die sterk wordt verstoord door ruis. Vervolgens wordt in een reeks iteratieve stappen de ruis geleidelijk verwijderd. Tijdens deze stappen verbetert de kwaliteit van de afbeelding en wordt deze steeds realistischer. Het model maakt gebruik van een 'denoising score matching' techniek, die een score toekent aan de gegenereerde afbeelding op basis van hoe goed deze overeenkomt met de originele data. Door deze score te minimaliseren, convergeren de gegenereerde afbeeldingen naar realistische resultaten die goed overeenkomen met de beoogde doelen.
Van schets naar detail met Stable Diffusion door Renaisance_blender
Snelheid
In plaats van te werken in de hoog-dimensionale beeldruimte, comprimeert het eerst het beeld in de latente ruimte. Omdat het model hiermee 48 keer kleiner is, hoeven er veel minder berekeningen gedaan te worden. Daarom gaat het een stuk sneller.
Open source
De codes en trainingsgegevens van het model zijn voor iedereen toegankelijk. Iedereen kan erop voortbouwen en het model verfijnen. En guess what? Dat hebben mensen al gedaan! Er zijn duizenden modellen online beschikbaar.
Het model is te downloaden en thuis op een (snelle) computer te draaien.
Vergelijking tussen modellen
Hoewel Dall-E, ontwikkeld door OpenAI, en Stable Diffusion beide beeldsynthese-modellen zijn, zijn er enkele belangrijke verschillen tussen de twee. Dall-E is gericht op het genereren van afbeeldingen op basis van tekstuele beschrijvingen en maakt gebruik van een transformer-architectuur. Stable Diffusion daarentegen is gebaseerd op diffusieprocessen en maakt gebruik van een geleidelijke, omkeerbare benadering.
Stable Diffusion biedt een aantal voordelen ten opzichte van traditionele generatieve modellen. Zo is er meer controle over het generatieproces. Het model kan ook worden gebruikt voor het genereren van afbeeldingen met gecontroleerde variabiliteit, bijvoorbeeld door het veranderen van specifieke eigenschappen of elementen in een afbeelding zonder invloed op de rest van de afbeelding.
Over het algemeen is Stable Diffusion een krachtig AI-systeem dat de generatie van afbeeldingen op een geheel nieuwe manier benadert.
Vorige post: Large Language Models