Jul 29, 2024 20:55
Запощу описание работы LLM-чата (условного "ChatGPT"), насколько его понял. Текст из комментария.
Сервис c LLM генерирует уникальные ответы, согласованные со всеми паттернами, закономерностями записанными в нейросети, как в экспертной системе.
Напишу, чтобы сверить понимание: ответ LLM-чата собирается из токенов (это слова, слоги, пробелы, концы строк и т. п.) в цикле, сервис получает вопрос от пользователя "Как твои дела?", дает его нейросети, та возвращает токен "У", потом сервис соединяет вопрос и первый токен "У", и дает нейросети, в общем, "Как твои дела? У", нейросеть возвращает токен "меня", сервис повторяет цикл, дает нейросети строку "Как твои дела? У меня", нейросеть отвечает "хорошо". Нейросеть возвращает ответ максимально согласованный со всеми ее паттернами, которые согласованы между собой обучением. И, например, паттерны "экстраполированности" тоже записаны в нейросеть, поэтому ответ может сочетать в себе соответствующие формы и связи в информации, то есть содержать экстраполяцию.
Обучение идет схожим образом. Например, текст разбивается на токены. На вход дается первый токен, сеть пересчитывается, чтобы на выходе она возвращала второй токен. Потом на вход дается первый и второй токен (допустим, первое и второе слово текста), сеть пересчитывают, чтобы на выходе получить третье слово. И так дальше. Потом, когда текст на входе достигает LLM context length, первый токены текста начинают отбрасывать. При это в нейросеть записываются паттерны, закономерности связей между словами и смыслами за этими словами.
нейросети,
ai