Обучающий датасет там весь размыт и перемешан, "копировать" из него невозможно.
Грубо говоря, если сделать марковскую модель языка какого-нибудь разумного порядка, например, таблицу вероятностей появления в тексте того или иного символа после данной последовательности из 4 или 5 символов, построенную на базе из нескольких десятков или сотен мегабайт текстов, и прогнать её до получения нескольких тысяч символов, то в результате с огромной вероятностью получатся вполне узнаваемые реальные слова и словосочетания, но мы же не скажем, что текст был "скопирован" из обучающего датасета - попросту потому, что размер таблицы на порядки меньше, чем был размер датасета.
Я этот датасет не видел, но думаю, что там были всё-таки длинные куски, далеко не по 4-5 символов или даже 4-5 слов, потому что модель должна "понимать" глубокие контексты, улавливать связи между далеко отстоящими словами (и "понимает").
Понятно, что тренировали модель не на каких-то произвольных кусочках, а именно на текстах существенной длины. И разумеется, чем сложнее модель, тем более длинными могут получаться осмысленные куски, сгенерированные путем "следования наиболее вероятному продолжению".
Я говорю лишь о том, что там в любом случае нет "копирования", потому что натренированная модель выглядит как набор больших матриц из чисел-вероятностей тех или иных слов или словоформ в тех или иных контекстах. Исходных текстов, которые можно было бы копировать, там нет даже в сжатом виде, а только общая идея, как генерировать что-то похожее.
Этот эксплойт, в сущности, эквивалентен форсированию пустого промпта, отчего получается генерирование текста исключительно исходя из внесенной рандомизации. Вот и графические ИИ типа stable diffusion в ответ на пустой промпт генерируют какую-нибудь вполне реалистичную картинку.
Comments 7
Разве он не просто копирует тексты из обучающего датасета, дословно или с мелкими вариациями?
Reply
Обучающий датасет там весь размыт и перемешан, "копировать" из него невозможно.
Грубо говоря, если сделать марковскую модель языка какого-нибудь разумного порядка, например, таблицу вероятностей появления в тексте того или иного символа после данной последовательности из 4 или 5 символов, построенную на базе из нескольких десятков или сотен мегабайт текстов, и прогнать её до получения нескольких тысяч символов, то в результате с огромной вероятностью получатся вполне узнаваемые реальные слова и словосочетания, но мы же не скажем, что текст был "скопирован" из обучающего датасета - попросту потому, что размер таблицы на порядки меньше, чем был размер датасета.
Reply
Я этот датасет не видел, но думаю, что там были всё-таки длинные куски, далеко не по 4-5 символов или даже 4-5 слов, потому что модель должна "понимать" глубокие контексты, улавливать связи между далеко отстоящими словами (и "понимает").
Reply
Понятно, что тренировали модель не на каких-то произвольных кусочках, а именно на текстах существенной длины. И разумеется, чем сложнее модель, тем более длинными могут получаться осмысленные куски, сгенерированные путем "следования наиболее вероятному продолжению".
Я говорю лишь о том, что там в любом случае нет "копирования", потому что натренированная модель выглядит как набор больших матриц из чисел-вероятностей тех или иных слов или словоформ в тех или иных контекстах. Исходных текстов, которые можно было бы копировать, там нет даже в сжатом виде, а только общая идея, как генерировать что-то похожее.
Reply
Reply
Этот эксплойт, в сущности, эквивалентен форсированию пустого промпта, отчего получается генерирование текста исключительно исходя из внесенной рандомизации. Вот и графические ИИ типа stable diffusion в ответ на пустой промпт генерируют какую-нибудь вполне реалистичную картинку.
Reply
вряд ли ИИ "думает"
Reply
Leave a comment