Oct 13, 2023 16:53
Вчера подвезли DALLE-3 доступ через GPT-4. Не GPT-4V, которая мультимодальная, а именно обычный гопочат, но с возможностью генерировать картинки. До этого был только доступ к промптам DALLE через «Image Creator».
Я ждал, что интеграция будет более глубокая. Тут же получается, что чат просто сам пишет текстовый промпт и отправляет в генератор. И этот промпт видно.
Ну и... удручающее зрелище.
У работающего с генератором какое-то время появляется «чувство инструмента» - знание, как нейронка реагирует на слова. Из-за этого переход, например, с SD на MJ или обратно не прост, это как учить другой (но похожий) язык. Так вот, у гопочата c этим «чувством» DALLE туговато, и по промпту это сразу видно. Он генерит плохие, негодные запросы.
И никакой возможности отправить через него свой текст без изменений нет. Я пытался его уговорить, где там. Он обязательно тянет свои лапки, и... И сразу видно, что главным образом занимало создателей этого режима. Итак, чат:
- Убирает любые ссылки на имена людей. На живых он сразу уходит в отказ, но даже для умерших селебрити (а иногда и вымышленных персонажей!) всё в промпте будет заменено на «человек, отдалённо напоминающий имярек» или «одетый в стиле».
- Имя художника «картина в стиле...» заменяется на общие слова с описанием манеры рисования. Даже тех, которые в Public domain. Приходится уламывать и доказывать с датами, что художник точно давно помер, только тогда соглашается.
- Негативные оценочные описания заменяются на нейтральные. Вместо «уродливая ведьма» будет «старая, с крючковатым носом и бородавками».
- Будет добавлено расовое разнообразие. Везде, где можно. Любой просто человек станет «человеком разнообразного происхождения и гендера». Или будет 4 картинки «белый, чёрный, азиат и латинос». Да, вместо не-европеоидных рас будет происхождение. «Человек африканского происхождения».
Ну и результат тоже на троечку: много проще нарисовать нужную картинку через Bing, при всех его ограничениях, без этих танцев с бубном.
Вот она, сила «черри-пикинга». Завлекали именно этим, управлением через чат с «передачей» картинки между генерациями и «умным» редактированием. Честной интеграцией. Оказалось, ерунда: то, что я вижу, это обычнейший «эй, придумай-ка мне рисовальный промпт» режим текстовой нейронки, которым народ давно пользуется для других генераторов, даже оформляли в бота. А настоящие «вишенки» в другом: в уровне анализа промпта внутри самого DALLE. Безо всякой гопоты.
Нейронки,
картинки,
gpt,
dall-e