Когда мы обсуждаем "палочную систему" в полиции, ругаем дурацкие корпоративные KPI и хороним бихевиоризм в психологии, мы занимаемся одним и тем же: преодолеваем ограничения обучения с подкреплением. Ибо что ты у этого обучения попросишь, то и получишь: "вы этого хотели -- вот вам!". А хотят-то не этого, не хотят выполнения KPI, хотят "сделайте мне красиво!", просто сформулировать не могут -- принципиально не могут, в этом проблема.
В искусственном интеллекте налетели на ту же проблему: стоит сформулировать, за что компьютерный агент получает подкрепление, и он немедленно научается максимизировать это подкрепление, а не выполнять задуманную задачу. Скажем, решили добавить чуть-чуть очков за попутное поражение целей в ходе гонки. Агент немедленно перестал финишировать гонку, но стал поражать цели, аккуратно дожидаясь их возникновения. Если вы готовы заплатить за каждую дохлую крысу, то в первые три дня люди переловят почти всех крыс, а через полгода вы обнаружите множество крысиных ферм, где будут этих крыс разводить. Неожиданенько, да?
Вот статья исследователей искусственного интеллекта, где обсуждается ровно этот вопрос: что делать с агентами, которые (гады!) максимизируют награду, а не выполняют задачи --
https://openai.com/blog/faulty-reward-functions/. Первым же пунктом там стоит: не нужно прямо специфицировать награду, а нужно имитировать, как закончил бы эту задачу человек. Ха-ха три раза! Человек бы (его так обычно сегодня и учат) сразу предложил бы установить KPI, связанный с решением задачи, так что это не помогает. Нужно сразу же говорить: "как закончил бы эту задачу человек, не испорченный современным менеджментом с засильем KPI -- а тот человек, который действительно хочет решить задачу". Вторым пунктом там стоит, что нужно получить от человека обратную связь, оценивающую качество работы. В компаниях это означает, что есть недочеловеческие подразделения, которые используют максимизацию KPI, и какие-то человеки, которые не связаны KPI, и поэтому могут проверить недочеловеков. Но в современных корпорациях где таких возьмёшь? Там ведь KPI снизу доверху!
Третий ход уже интересней: "It may be possible to use transfer learning to train on many similar games, and infer a “common sense” reward function for this game. Such a reward function might prioritize finishing the race based on the fact that a typical game has such a goal, rather than focusing on the idiosyncrasies of this particular game's reward function. This seems more similar to how a human would play the game" -- в современных компаниях это означает, что неопытные сотрудники будут слепо следовать максимизации достижения своих KPI, а вот опытные будут пытаться следовать здравому смыслу и житейскому опыту. Свежо предание, только кто им это даст? Сначала им нужно будет придумать, как обдурить систему с KPI. Ну, её и дурят повсеместно, чисто из опыта.
В любом случае интересно посмотреть, как машинное обучение будет преодолевать теоретические ограничения тупого бихевиоризма, которым пропитаны сверху донизу крупные компании. Ибо проблемы проблемами, но бихевиоризм работает, и работает хорошо -- даже когда заказ цели неправильный, эта неправильная цель ведь достигается!
Вот видео из текста по ссылке, там хорошо видно, как агент немедленно сходит с маршрута гонки, как только находит способ резкого поднятия своих показателей согласно установленной ему системы KPI (
https://www.youtube.com/watch?v=tlOIHko8ySg):
Click to view
Ничего не напоминает из корпоративной жизни?
UPDATE: Дискуссия в фейсбуке --
https://www.facebook.com/ailevenchuk/posts/10208983427076943