Путевой камень. Беседы

Sep 23, 2023 05:35


Обязана быть ещё третья дорожка. Есть, по ней сейчас направляется DALL-E.



Откуда вообще возникла необходимость использовать ControlNet в SD и «думанье за пользователя» в MJ? Те, кто работает с первыми рисовалкам, знает: они промптом управляются, а не разговаривают. Бесполезно писать просьбы и подробно описывать композицию, нейронка поймёт дай бог половину. Набор тегов и управляющих слов через запятую работает много надёжнее.

А почему? Вот ChatGPT сносно понимает речь даже с опечатками, в чём тут проблема? Да просто исторически: первые рисовалки больше заботились именно о рисовании, а за анализ промпта отвечал небольшой готовый энкодер CLIP, уже натасканый на LAION. Других и не было. MJ использовал что-то аналогичного размера. Такой небольшой нейронки и  хватало только на довольно простенькую разметку промпта.

Уже XL заметно прибавила в «уме», она способна понимать длинные промпты написанные почти натуральным языком и концепции оружия и инструментов. Только потому, что в пару к старому добавили ещё один, большой OpenCLIP.

Но возвращаясь к ChatGPT. Он на пару порядков больше CLIPов и способен понять тонкие нюансы промпта и упаковать это всё в вектор. Более того, он тренировался как мультимодальный и способен принимать картинки на вход. Что будет, если использовать его или аналог?

Встречайте DALL-E 3, где за энкодинг промпта отвечает большая языковая модель. Благодаря этому, можно описывать картинку в мелких деталях, включая композицию и взаимное расположение элементов.



Также «мощности» внутренней размерности и блоков внимания тут хватает, чтобы упаковать в эмбеддинг вагон предметов и персонажей (SD 1.5 с трудом справляется с тремя):



Можно проверить, если хватит терпения.

Причём не обязательно «в статике»: тут все эти предметы попросили погрузить на серфера



Тяжело

Также просто происходит смена стиля, добавка и удаление персонажей и предметов.

При этом качество самих картинок пока заметно хуже того, что выдают MJ и SD. Но возможность полноценно управлять через промпт, натурально разговаривая с нейронкой, подкупает. Вот только привязка к ChatGPT намертво...

stable diffusion, Нейронки, gpt

Previous post Next post
Up