Нейросеть "Стебель Диффузии" доступна каждому
tl;dr Это первая опенсорснутая (и пока что лучшая) Text2Image нейросеть текщего поколения.
Что такое StableDiffusion? StableDiffusion — это диффузионный Text2Image (как и DALL-E 2) и очень удачный гибрид Latent Diffusion и Imagen.
Stable Diffusion производит диффузию не в пространстве пикселей, а в латенщине. Вместо разрешения 64х64 — выходит сразу 512, благодаря Encoder-Decoder подходу:
деталей больше, а вычислений меньше. Информация от текста течет с frozen LM (а именно CLIP), как в случае с T5 в Imagen. SD это модуляр, состоящий из 3х модулей:
1. Frozen CLIP Text Tower (как LM)
2. U-Net (из Diffusion Models Beat GANs)
3. Decoder из 64х64х4 в 512х512х3
Веса и модель (в том числе новый чекпоинт!)
Оптимизированный нотбук / колаб со всеми плюшками
(зарегайся на HuggingFace и получи токен, ссылка выше)
Diffusers от HuggingFace (библиотека самого графа Диффузора)
Блог пост Stability.AI про релиз весов
Мишин Лернинг