DALL-e - мультимодальная модель года!

Nov 15, 2021 09:57

В начале месяца, Сбер выложил, возможно, самую мощную мультимодальную нейросетевую модель в рунете - ruDALL-e Malevich (1.3 млрд параметров). Мультимодальная значит то, что модель работает сразу с несколькими вариантами контента. Например, с естественным языком (NLP) и кодом (Code), чтобы переводить человеческую речь в язык программированя. В данном же случае, модель работает с речью и изображением, и конкретно эта модель генерирует изображение по текстовому описанию.

Поиграть с ней можно тут (одна картинка в ответе), в телеге (три изображения), в колабе (сколько сможете). Вот, например, «Москва летним вечером».


А это «Счастье».


«Любовь». Иллюстрации генерируются на основе растворенного в модели знания, полученного, возможно, и на платных фотках и иллюстрациях, но в итоге сгенерированный контент уникален и свободен от лицензий фотостоков.


Один хинт, если добавить «векторная иллюстрация» или «иллюстрация» перед запросом, выдача будет интереснее. Вот «векторная иллюстрация любви».


Ещё одна «векторная иллюстрация любви». Все эти картинки оригинальны, более того, вы не получите такую же картину на мой запрос у себя.


Ещё один важный нюанс: ruDALL-e генерирует изображения, а ранжирует их другая модель - ruCLIP. И если на сайте и в телеге вы не можете посмотреть результаты до ранжирования, сразу выдается Top1 и Top3, то в Colab-е или у себя на компе, вы можете посмотреть сырые результаты (до ранжирования), и, в моем случае, неплохие варианты оказывались и не в топе. Так что рекомендую не лениться и поиграться в колабе, тем более, что там тоже нужно просто нажимать кнопки.

Да, ruDALL-e Malevich имеет проблемы с правдоподнобстью, с прорисовкой лиц, и не сравнится с оригинальной моделью DALL-e, которая была разработана в начале этого года OpenAI, но не представлена для обещственности. OpenAI выложили только примеры (на хабре), которые, конечно, поражают. Например, «an emoji of a baby penguin wearing a blue hat, red gloves, green shirt, and yellow pants».



Я вбил такой же запрос в ruDALL-e Malevich - уровень качества ниже. Но ruDALL-e Malevich - это модель с 1.3 млрд параметров, а DALL-e - модель с 12 млрд параметров. У Сбера есть вторая модель - ruDALL-E Kandinsky, тоже с 12 миллиардами параметров, но её они пока не выложили для того, чтобы с ней поиграться. Будем ждать :)
Previous post Next post
Up