Пишут промпты роботы, а не человек...

Oct 13, 2023 16:53


Вчера подвезли DALLE-3 доступ через GPT-4. Не GPT-4V, которая мультимодальная, а именно обычный гопочат, но с возможностью генерировать картинки. До этого был только доступ к промптам DALLE через «Image Creator».

Я ждал, что интеграция будет более глубокая. Тут же получается, что чат просто сам пишет текстовый промпт и отправляет в генератор. И этот промпт видно.

Ну и... удручающее зрелище.

У работающего с генератором какое-то время появляется «чувство инструмента» - знание, как нейронка реагирует на слова. Из-за этого переход, например, с SD на MJ или обратно не прост, это как учить другой (но похожий) язык. Так вот, у гопочата c этим «чувством» DALLE туговато, и по промпту это сразу видно. Он генерит плохие, негодные запросы.

И никакой возможности отправить через него свой текст без изменений нет. Я пытался его уговорить, где там. Он обязательно тянет свои лапки, и... И сразу видно, что главным образом занимало создателей этого режима. Итак, чат:

- Убирает любые ссылки на имена людей. На живых он сразу уходит в отказ, но даже для умерших селебрити (а иногда и вымышленных персонажей!) всё в промпте будет заменено на «человек, отдалённо напоминающий имярек» или «одетый в стиле».

- Имя художника «картина в стиле...» заменяется на общие слова с описанием манеры рисования. Даже тех, которые в Public domain. Приходится уламывать и доказывать с датами, что художник точно давно помер, только тогда соглашается.

- Негативные оценочные описания заменяются на нейтральные. Вместо «уродливая ведьма» будет «старая, с крючковатым носом и бородавками».

- Будет добавлено расовое разнообразие. Везде, где можно. Любой просто человек станет «человеком разнообразного происхождения и гендера». Или будет 4 картинки «белый, чёрный, азиат и латинос». Да, вместо не-европеоидных рас будет происхождение. «Человек африканского происхождения».

Ну и результат тоже на троечку: много проще нарисовать нужную картинку через Bing, при всех его ограничениях, без этих танцев с бубном.

Вот она, сила «черри-пикинга». Завлекали именно этим, управлением через чат с «передачей» картинки между генерациями и «умным» редактированием. Честной интеграцией. Оказалось, ерунда: то, что я вижу, это обычнейший «эй, придумай-ка мне рисовальный промпт» режим текстовой нейронки, которым народ давно пользуется для других генераторов, даже оформляли в бота. А настоящие «вишенки» в другом: в уровне анализа промпта внутри самого DALLE. Безо всякой гопоты.

Нейронки, картинки, gpt, dall-e

Previous post Next post
Up