Jun 30, 2024 11:21
Сиолошная:
Transcendence: Generative Models Can Outperform The Experts That Train Them
Все вы знаете игру шахматы. Наверняка вы даже видели специальную нотацию для обозначения хода игры (например, `1.e4 e5 2.Nf3 Nc6 3.Bb5...`). Такая строчка-описание партии является текстом, поэтому мы можем обучить на играх языковую модель. Учиться она будет так же, как и ChatGPT - через предсказание следующего слова (ну или в этом случае клеточки хода, откуда и куда).
В шахматах для оценки уровня игры используют рейтинг Эло. Для тех, кто не знаком с ним, краткая справка: это рейтинг, основанный на вероятности победы одного игрока над другим. Чем больше разрыв по очкам, тем выше шанс на победу. Разница в 100 очков означает вероятность победы 64%, а в 500 - 94.5%. Обычно на старте новичок получает 1000 или иногда 1200 рейтинга.
(я знаю про Глико, гусары, молчать)
Вопрос: если такую модель обучать на играх слабых игроков, с рейтингом 1000-1300, то сможет ли она генерировать ходы так, чтобы набрать рейтинг 1500? Шансы игрока с 1300 победить игрока с 1500 составляют где-то 24%.
Ну, выглядит как «нет». Если ты только и смотришь за партиями слабых игроков - как можно научиться играть лучше (если ты модель, которая не может играть сама)? Ты же будешь повторять их ошибки? Оказывается, нет - может проявиться феномен transcendence (по-русски наверное трансцендентность?), когда генеративная модель превосходит игроков, чьи данные использовались для обучения.
Как так получается? Авторы приходят к выводу, что работает принцип «мудрости толпы». Все игроки ошибаются (в значении «делают плохие ходы») по разному, и модель, выучивая это, может без знаний правил игры разобраться, какие ходы наиболее предпочтительны. Трансформер как бы выучивает логику разных экспертов, а затем проводит голосование, и выбирает, за какой ход «голосует» больше всего людей.
Этот феномен был замечен и раньше - LLM-ки при тренировке на всём интернете видят очень много лжи/неправдивой информации, но учатся различать её полезность. Вот цитата из моего поста:
- все «правды» связаны в одну большую паутину мира, и держатся друг за друга. А каждая ложь, ошибка и неправда - она своя, особенная, и выбивается из этого
- на сложении двадцатизначных чисел у Claude 3 качество примерно 99.9% (без внешних инструментов типа калькулятора или кода). Но если проверить данные, на которых обучается модель, то там качество сильно меньше. Это как будто бы играет на руку гипотезе, что модели уже могут производить более качественные данные, чем те, на которых они были обучены
В итоге авторы показывают, что модели, обученные на играх до 1000 и 1300 рейтинга могут «разогнаться» и играть на 1500 и 1600 соответственно. И это всё без разных трюков, вроде перебора ходов в будущем («поиск», который мы особенно активно обсуждаем последнюю неделю).
Но интересно, что модель, обученная на играх с рейтингом до 1500, не может статистически значимо превзойти своих «учителей» и играет примерно на 1500+-. Авторы работы выдвигают гипотезу, что причина в разнообразии данных, а вернее - в его отсутствии. Чем лучше игроки, тем более похожи их ходы друг на друга (и на оптимальные, если их перепроверять специальной программой, которая играет лучше всех людей). Их ошибки становятся всё более редкими, и скорее всего похожими друг на друга.
[вообще у меня вопрос к авторам, у них модель как будто бы хуже получилась, чем та, что смотрела на игры до 1300 рейтинга. Но может это реально погрешность, всё же находится в рамках доверительного интервала.]
Для проверки гипотезы вводится метрика, оценивающая разнообразие ходов из одного и того же состояния для игроков с определённым уровнем (если вам интересно, через оценку энтропии распределения ходов). Гипотеза подтверждается, действительно ходы становятся менее разнообразными -> выигрыш от агрегирования разных мнений становится меньше, мудрость толпы перестаёт давать существенный прирост.
Но феномен всё равно очень интересный. Удивительно, как простая функция для обучения, «предскажи следующий ход», ведёт к такой стратегии и результату, превосходящему качество исходных данных.
Остаётся вопрос - насколько разнообразные данные порождают лучшие эксперты в своих областях у человечества? И можно ли там получать сверх-человеческие результаты за счёт мнения толпы 😀
UPD: забыл написать (и это не исследуется в статье), что бОльшие модели лучше извлекают информацию из данных, и авторы экспериментировали с 50М модельками (очень крохотные). Возможно, модели покрупнее и видевшие больше данных могли бы, например, делать скачок от игр с 1800 рейтинга к навыку игры на 2200. А может и нет - посмотрим, будет ли продолжение.
÷÷÷÷
От себя добавлю про интерпретированность.
Народ построил модели, обучал, получил, удивился.
А потом - оказывается ошибка уникальна, а правильные ходы завязаны со всем и поэтому они правильные и выше лучшего не прыгнешь.
По мне - так это иллюстрация фразы Гора родила мышь.
Я не оспариваю успехи в программировании со стороны ИИ. Но радость от прорыва все равно не чувствую
Ии рулит