Что нового могут делать нейросети?

Oct 31, 2024 08:03


Кроме прочего, теперь нейросети пишут точные субтитры к видеороликам (распознавание речи!) и создают текстовые описания фотоснимков. А Скайп еще предложил синхронный перевод с языка на язык во время видеозвонков! Мне нравится такое будущее! А вам? Что бы вы еще у разработчиков попросили?

техника, технология

Leave a comment

ab_dachshund October 31 2024, 05:36:49 UTC
Для начала соглашусь - в нейросетях нет ничего принципиально нового. Каждый момент, каждая область применения за которые их нахваливают - уже были раньше, просто может быть чуть хуже качеством. Буквально все - от генерации текстов до дипфейковых видео. Просто с нейросетями это технически проще. Хотя и это вопрос спорный, у нейросетей есть свои очевидные и непреодалимые ограничения, типа пресловутых "пальцев на картинках". Пальцы - это просто самое нелепое и наглядное ( ... )

Reply

abyssal_being November 1 2024, 05:42:59 UTC

Доводка практически невозможна, можно только выбросить старую нейросеть и обучить новую на улучшенном датасете! Этому я внимаю как глубокой мудрости! Ведь и с людьми то же самое происходит, и вот почему плохи старики во многих профессиях, а надо нанимать молодежь - потому что уж чему научились, тому научились, давно это было, с тех пор вводные данные отфильтровались и дополнились.

Мне про пальцы раньше не попадалось, и я почитала. В датасетах редко встречается пятерня, и часто рука что-то держит и видна только частично, и нейросеточка думает, что так и должна выглядеть кисть, и если ее просят нарисовать, то так и рисует, как запомнила. Может половину пальцев обрубить или наоборот, нарисовать лишние пальцы. Это я не вам рассказываю, вы знаете. Это тем, кто любит читать комменты, когда им тема интересна.

Reply

ab_dachshund November 1 2024, 05:53:08 UTC
Она не рисует "кисть", она просто рисует что-то, условно, чем на других картинках заканчивается ладонь. Обычно это сколько-то пальцев. Как только рисовалки появились, проблема с пальцами уже была - и это как раз хороший пример. В обычном алгоритме если уж смог нарисовать человека целиком, то поправить пальцы - несложная доводка. Нашел где-то в коде константу, поправил на "5" - и все дела. Тут же это непреодолимое препятствие, при всей нелепости.

Есть и другие вещи - она не может рисовать эмблемы, логотипы. Просто рисует какую-то каляку той же формы. Ну и уж конечно буквы и надписи получаются разве что случайно, если они и так были частью картинки на которой ее обучали. Всегда проблемы с перспективой, взаимным масштабом объектов, отражениями (обычно отражение в зеркале при компьютерной графике - чуть ли не самое простое, но нейросеть не "отражает", а просто рисует то, что в зеркале, с нуля), тенями. Да что там, невозможно заставить нарисовать ее два одинаковых ботинка - они всегда будут в лучшем случае немного похожи один на другой.

Reply

abyssal_being November 4 2024, 09:31:06 UTC

Это вы мне очень важные вещи рассказываете!! На чем ее глючит. Да, неожиданно!!

Reply

ab_dachshund November 4 2024, 09:34:46 UTC
Многим нравится думать что нейросети "разумны", на самом деле это даже не алгоритмы. Это как калейдоскоп - просто некое сочетание цветов, частей картинок и так далее.

Иногда интересно получается - я не говорю что нейросети отстой. Но это в некотором роде тупик в плане создания реального машинного интеллекта.

Reply

abyssal_being November 5 2024, 07:27:07 UTC

😀 😀 😀 Вот это да!! Мнение специалиста! Почти отстой и тупик в развитии. А какая линия развития тогда многообещающая? О чем мне почитать?

Reply

misha_panda November 5 2024, 12:26:29 UTC
Вы где-то провели последнее время в анабиозе.

... )

Reply

ab_dachshund November 5 2024, 14:01:44 UTC
Я не стану утверждать что каждый день лезу проверять, что там нового. Может, это постобработка, может просто удача. А может, кто-то наконец правильно обучил. Это не меняет остального.

Ботинки кстати разные, приглядитесь - швы вокруг клапанов вблизи носка по-разному скроены. Хотя конечно видали и похуже генерацию, эти почти идентичны. Логотип без "укуса" (я не знаю что хотел автор скрипта, но очевидно что просто нарисовать грушу и стилизовать грушу под лого эппл - разные задачи). К надписи вопросов нет, кроме того - была ли она частью модифицируемой картинки или ее задали скриптом.

Reply

misha_panda November 5 2024, 17:10:04 UTC
Это генерация с нуля по промту в переводе на аглицкий язык.
К ботинкам вы придираетесь, я отличий не вижу.
Надпись указана в промте, но в этой нейронке есть встроенная языковая модель так, что если она даже генерит иероглифы, то гуглперевод показывает их значение и обычно они имеют отношение к теме рисунка.
Кириллицу по умолчанию не понимает ни в каком виде нужно дообучать.

... )

Reply

ab_dachshund November 5 2024, 18:19:18 UTC
Ну ботинки объективно разные, только на 2м фото это сложно увидеть из-за ракурса. Хотя и там - проанализируйте углы аппликации на носке - одни смотрят вверх, другие вниз. На остальных различия очевидны. Я повторюсь - суть в том, что она рисует два ботинка по одному описанию, а не повторяет первый. Ботинки от рисунка к рисунку похожи сами по себе, видимо ее учили на таких. Попробуйте задать ботинки посложнее скажем "red steampunk boots", "cowboy boots" или еще что. Тогда разница между ними будет нагляднее. Но даже так она есть - просто деталей недостаточно чтобы это было очевидно пристрастному зрителю типа вас ( ... )

Reply

misha_panda November 5 2024, 22:23:56 UTC
В прямых руках эта сетка умеет генерировать фото Толкиена, с запиской написанной почерком Толкиена.
Вот вам кепка CCCP и ковбойские сапоги.
Даже отражение сапог немножко ...
Грушу и логотип эппла нарисовал просто рядом.

... )

Reply

ab_dachshund November 6 2024, 04:50:42 UTC
Вы уж не обижайтесь, но у нас, программистов, немного другие представление о "прямых руках", в смысле, не в составлении запросов. Но в принципе, мы уважаем понятие "квалифицированный пользователь", так что, повторюсь, без обид ( ... )

Reply

abyssal_being November 6 2024, 07:32:50 UTC

Спасибо вам за эту дискуссию с misha_panda

Много узнала!

Reply

misha_panda November 6 2024, 11:56:15 UTC
Речь не о составлении запросов, а о настройках и нодах т.к. сетка опенсорсная и запускается локально с кучей разных возможностей.
Сейчас вот только понял, как запускается самая полная её версия, до сих пор запускал немного урезанную.
Это единственная ОПЕНСОРСНАЯ сетка которая может сама разместить надпись заданного содержания в конкретном стиле нужном месте.
Есть ещё и Dall-e3, но она закрытая и работает на сервере правообладателя.
Нейронка по запросу рисует достаточно разнообразную обувь от кроссовок, и ботинок, до вышитых сапог волшебника и бронированных башмаков рыцаря.

Reply

ab_dachshund November 6 2024, 12:53:04 UTC
Я изначально говорил о другом - пару лет назад возник быстротечный челлендж, снимать селфи "под нейросеть". Зрителям предлагалось определить, где генерация, а где реальное постановочное фото. Тогда я и сформировал эти признаки - парные объекты, построение перспективы, отражения. Из всего того вы меня немного поколебали только про текст. И то у меня сомнения - я все же предполагаю что он наносится после генерации картинки, как бы вторым проходом. Второй сеткой, скорее всего ( ... )

Reply

abyssal_being November 6 2024, 07:31:21 UTC

спасибо вам за эту дискуссию с ab_dachshund

Много узнала!

Reply


Leave a comment

Up