Comments | vadim_proskurin: Заглянуть в подсознание ИИ, часть вторая

vadim_proskurin

Заглянуть в подсознание ИИ, часть вторая

Dec 04, 2023 23:07

( Read more... )

ИИ

Comments 7

fortunatus December 4 2023, 20:20:45 UTC

Разве он не просто копирует тексты из обучающего датасета, дословно или с мелкими вариациями?

spamsink December 4 2023, 22:22:57 UTC

Обучающий датасет там весь размыт и перемешан, "копировать" из него невозможно.

Грубо говоря, если сделать марковскую модель языка какого-нибудь разумного порядка, например, таблицу вероятностей появления в тексте того или иного символа после данной последовательности из 4 или 5 символов, построенную на базе из нескольких десятков или сотен мегабайт текстов, и прогнать её до получения нескольких тысяч символов, то в результате с огромной вероятностью получатся вполне узнаваемые реальные слова и словосочетания, но мы же не скажем, что текст был "скопирован" из обучающего датасета - попросту потому, что размер таблицы на порядки меньше, чем был размер датасета.

fortunatus December 5 2023, 05:17:02 UTC

Я этот датасет не видел, но думаю, что там были всё-таки длинные куски, далеко не по 4-5 символов или даже 4-5 слов, потому что модель должна "понимать" глубокие контексты, улавливать связи между далеко отстоящими словами (и "понимает").

spamsink December 5 2023, 05:41:34 UTC

Понятно, что тренировали модель не на каких-то произвольных кусочках, а именно на текстах существенной длины. И разумеется, чем сложнее модель, тем более длинными могут получаться осмысленные куски, сгенерированные путем "следования наиболее вероятному продолжению".

Я говорю лишь о том, что там в любом случае нет "копирования", потому что натренированная модель выглядит как набор больших матриц из чисел-вероятностей тех или иных слов или словоформ в тех или иных контекстах. Исходных текстов, которые можно было бы копировать, там нет даже в сжатом виде, а только общая идея, как генерировать что-то похожее.

livejournal December 4 2023, 21:51:52 UTC

Здравствуйте! Ваша запись попала в топ-25 популярных записей Московского региона в LiveJournal. Подробнее о рейтинге читайте в Справке.

spamsink December 4 2023, 22:11:47 UTC

Этот эксплойт, в сущности, эквивалентен форсированию пустого промпта, отчего получается генерирование текста исключительно исходя из внесенной рандомизации. Вот и графические ИИ типа stable diffusion в ответ на пустой промпт генерируют какую-нибудь вполне реалистичную картинку.

nort_uliss December 5 2023, 06:39:16 UTC

вряд ли ИИ "думает"