(Де)генеративные сети

Aug 24, 2024 23:58


Интересная проблема, о которой я никогда раньше не задумывался.

Речь о генеративных диффьюжн-сетях для картинок типа миджорни или стейбл диффьюжн и т.д.

Если прям ОЧЕНЬ-ОЧЕНЬ грубо говорить, то они работают внутри примерно так. Представьте, что вы даете максимально простой запрос, например, «cat».

Так как учили эти сети просто по набору картинок из интернетов, можно легко прикинуть, какие примерно картинки будут иметь бОльшие веса и, соответственно, использоваться для генерации ответа, просто забив слово «cat» да хоть в гуглопоиске по картинкам:



Гуглопоиск картинок по запросу cat.



Что мы тут видим? Мы видим РАЗНЫХ котиков. И ответ нейросети будет «слепляться» из множества разных картинок с котиками, с помощью рандомного сидинга, и будет просто какой-то обобщенный котик, не повторяющий ни одну из исходных картинок. И в зависимости от того, как выпадет генератор случайных чисел, он будет белым или рыжим, сидеть или лежать или т.д.

Идем дальше. Возьмем запрос «russian girl». Набор изображений, из которых он будет лепить ответ, выглядит примерно так:



Гуглопоиск картинок по запросу russian girl.

Соответственно, результатом будет некая абстрактная девушка, скорее всего с длинными светло-русыми волосами и т.д. Как вы видите, все девушки тут в чем-то похожи, но все разные. Так что и ответ будет похож на все, но не будет повторять ни одну.

А теперь берем запрос «afghan girl». Возможно, вы уже догадались:



Гуглопоиск картинок по запросу afghan girl.

Вы понимаете, что там будут тысячи копий одной и той же всемирно известной фотографии Стива Маккарри с обложки National Geographic с одноименным названием «Afghan Girl».

Разумеется, и выдача миджорни будет выглядеть примерно так:



Выдача миджорни по промпту "afghan girl"

И я совершенно согласен с теми, у кого нет ни малейших сомнений, что в данном случае мы явно по ту сторону границы, отделяющей плагиат от «оригинальной работы на основе переработки культурного наследия».

Как вы понимаете, весьма схожая штука будет с запросами типа «starry night» и многими другими.

Что с этим делать, кстати, я не знаю - но это может стать реальной проблемой для грядущих в ближайшем будущем серьезнейших (в т.ч. судебных) дебатов о подобных нейросетях и копирайте. Ведь их создатели здорово сэкономили, скормив им бесплатно весь легкодоступный массив изображений, ни на секунду не беспокоясь о копирайте. Сейчас запрос «afghan girl» просто вручную забанен модераторами в дискорт-канале миджорни, но мы понимаем, что едва ли это решение проблемы.

А так придется или переобучать сети только на заведомо public-domain изображениях (но тогда выдача будет, мягко говоря, старомодной), или честно выкупать права на рисунки и фотографии у их авторов - но тогда это будет стоить весьма существенных денег.

Спасибо arenhaus, что указал мне на это, я даже сначала не поверил.

Previous post
Up