Нейросеть 'Стебель Диффузии' доступна каждому tl;dr Это перва | shonenkov AI

Нейросеть "Стебель Диффузии" доступна каждому

tl;dr Это первая опенсорснутая (и пока что лучшая) Text2Image нейросеть текщего поколения.

Что такое StableDiffusion? StableDiffusion — это диффузионный Text2Image (как и DALL-E 2) и очень удачный гибрид Latent Diffusion и Imagen.

Stable Diffusion производит диффузию не в пространстве пикселей, а в латенщине. Вместо разрешения 64х64 — выходит сразу 512, благодаря Encoder-Decoder подходу: деталей больше, а вычислений меньше. Информация от текста течет с frozen LM (а именно CLIP), как в случае с T5 в Imagen. SD это модуляр, состоящий из 3х модулей:
1. Frozen CLIP Text Tower (как LM)
2. U-Net (из Diffusion Models Beat GANs)
3. Decoder из 64х64х4 в 512х512х3

Веса и модель (в том числе новый чекпоинт!)

Оптимизированный нотбук / колаб со всеми плюшками (зарегайся на HuggingFace и получи токен, ссылка выше)

Diffusers от HuggingFace (библиотека самого графа Диффузора)

Блог пост Stability.AI про релиз весов

Мишин Лернинг

shonenkov AI

👨‍🎤 4.76K
Telegram

🎨 🤖 👨‍🎨 = 🖼. Kaggle GM, author of models IF, ruDALLE (Malevich, Emojich, Kandinsky-1.0), ruDOLPH, ruCLIP. Graduated from MIPT. Working with StabilityAI. https://linktr.ee/shonenko...

Join
▲ Vote (1)

Нейросеть 'Стебель Диффузии' доступна каждому tl;dr Это перва | shonenkov AI

Login