Рисовательные нейронки развиваются, но идут тремя заметно разными дорожками.
На первой у нас MJ. Тренируется в эстетику, т.е. в сторону картинок, которые преимущественно выбирают. Также обожает думать за и вместо пользователя. С радостью проигнорирует половину промпта: выдаст не то и не в том стиле, но это будет чертовски красивое «не то»! В конце концов, ты же хотел красиво, правда? Просто не знал, как спросить.
Хороший пример из ленты ув. Павла Иевлева.
Промпт:
Sorceress fantasy woman wearing detailed tight red and gold mage clothes and pauldrons, blush and light freckles, on a French balcony, fantasy interior, realistic dappled noon lighting, impressionism, pen and watercolor
Простой и отлично структурированный: один персонаж, одежда, лицо, интерьер, свет, стиль. Нейронка такое обожает, должна выдать прямо по списку... Ага, как же:
Результат
Смотрим:
- просто тётка, никакой «fantasy sorceress»
- "одежда мага" мимо
- наплечников нет
- веснушек нет
- балкона нет
- фэнтези антураж не завезли
- ну и, наконец, это и близко не акварель+ручка!
Из всего промпта верно только женский пол, цвет одежды и время суток...
...но красиво же! Композиция, цвета, поза, всё как надо. Прямо хоть стирай до контура и рисуй поверх той же палитрой как надо, с наплечниками и балконом.
В SD что-то подобное пытается осуществить команда проекта Fooocus. Из последних новшеств там как раз добавили отдельную текстовую нейронку (gpt2), которая занимается только умной модификацией промпта. Т.е. выкидывает или добавляет стили и теги по своему усмотрению, чтобы вы получали «красивое не то». Работает, и неплохо. К счастью, можно отключить. При этом в SD XL тоже предусмотрен разработчиками (но пока никем не используется) «эстетическая оценка» картинок как один из параметров тренировки модели, ох доберутся и до него...