DALL-e 3: snormer

snormer

DALL-e 3

Oct 04, 2023 01:06

Техническое. Погонял на выходных, может кому интересно.

В сети уже полно обзоров общих возможностей. Я выделю только важное, серьёзные отличия от SD и MJ.

- Количество явно поименованных предметов или персонажей в одновременной генерации.

Уверенно рисует до 20 предметов с очень небольшим загрязнением . Больше нестабильно.

A small store shelf with the following items on sale: Apples, Carrots, Potato chips, Soda, Coffee beans, Milk, Baguette, Canned soup, Ice cream, Dish soap, Shampoo, Magazine, Greeting card, AA batteries, Ballpoint pen, Cat food, Rose bouquet, Christmas ornament, Scented candle, Can opener, Screwdriver, Toy car, Thread spool, LED bulb, Bandages, Black pepper, Spaghetti, Cornflakes, Strawberry jam, Chocolate truffle

У SDXL и MJ в тех же условиях граница порядка 6 предметов

- Чёткость удержания концепции (перенос и смешение свойств предметов одного класса, находящихся рядом - тест на точность и стабильность карт внимания).

Superman, Batman, Wonder Woman, The Flash, Green Lantern, Aquaman and Green Arrow sitting in a bar

Просто отлично. Граница около 6 персонажей практически в обнимку, только на 7-м начинает плыть внимание. SDXL может максимум трёх, MJ аналогично. SD 1.5 (господи, всего год прошёл!) может ровно одного.

- Относительная позиция
Способна отследить взаимодействие только в парах несвязанных предметов («чайник стоит на тумбочке»), тройки уже не по зубам.

small toy car standing on a basket ball that lies on a chair that is standing on a table

И это замечательный результат: не все осознают, что SD и MJ очень выборочно понимают взаимодействие предметов, чаще просто помещают их рядом. Поэтому в SD вот такую картинку невозможно вызвать промптом, астронавт всегда будет верхом на лошади при любом описании.

Horse on top of the astronaut

- Сложные концепции

Много, много лучше чем SDXL (а это уже был рывок по сравнению с MJ!).
- понимает инструменты и оружие. Осмысленные манипуляции персонажа с предметом. С произвольным предметом.

man holding toaster with both hands swinging it above head beating the table with toaster

- понимает концепцию сломанного, испорченного или изменённого предмета. Даже части предмета! До сих пор это было невозможно. У SD и MJ сломанный предмет это всегда отдельная сущность, которую они запомнили из обучающего набора. Они могут нарисовать сломанную машину (и строго определённым образом сломанную), но не поломаный тостер или (круче) кусок тостера.

man looking at the half-submerged broken mangled toaster

half of a toaster lying on a floor

Понимает концепцию произвольно изменённого персонажа. Этот момент сложно отследить, т.к. SD и MJ бывает рисуют части тела, трансформации очень популярная тема для картинок и были в обучающих сетах. Но Dall-e это именно произвольные мутации формы.

lineart picture of six legged cat

Пытается считать! Т.е.можно попросить число предметов на картинке. У SDXL иногда, вроде, выходит счёт, но тут стабильнее.

Lineart picture of seven little kittens trying to catch a butterfly

- Странности
Иногда ведёт себя странно в самый неожиданный момент, на простых промптах. Галюцинирует. Я видел как SD и MJ игнорируют части сложных запросов, но впервые вижу, чтобы рисовательная нейронка «додумывала». Не стиль и детали, а прямо ситуации и персонажей. Похоже промпт очень серьёзно модифицируется языковой моделью.

Небольшое заключение: всё это очень, очень круто. Это очень заметный шаг вперёд в понимании промпта моделью, качественно новый уровень. Например, количество предметов и локализацию концепции можно решить сегментированием промпта в SD. Но взаимодействия сущностей и их произвольная модификация - такое раньше не удавалось никому. Все вот эти картинки выше невозможно нарисовать в MJ и SD с помощью промпта, а некоторые даже послойной генерацией и использованием control net.

Cat swimming in a pool holding a sign on a stick with "THIS IS COOL!" written in bold pink and gold glitter letters

Всё, что я вижу, указывает на серьёзную работу с блоками внимания. Все плюсы оттуда.

А вот диффузная модель, собственно «блок рисования», довольно маленькая. Я ожидал бОльшего. Это примерно уровень SDXL и явно проигрывает MJ. Это не про качество (которое пока отстойное), лоск, его можно исправить дальнейшей тренировкой. Но есть технический уровень, который накладывает ограничения, и тут именно они.

Это можно определить по пальцам

лицам у персонажей заднего плана

Геометрическим узорам

Вердикт:
Советую всем начинать пользоваться. Это не отменяет SD и MJ для стилистической обработки и «доводки» картины. Тем более в отсутствие img2img и произвольного формата. Но вот сложную «базу» теперь много быстрее делать в DALL-e.

P.S. Да, а ещё он теперь понимает запросы, написанные по русски! Вот только текст на картинке кириллицей не берёт, увы.

Чернокожий мужчина в шапке ушанке и варежках мёрзнет на улице. Над ним облачко коммикс с надписью "cold!"

midjourney, stable diffusion, Нейронки, dall-e