Принципиальная неустойчивость ИИ при управлении по KPI: vinfdsc

vinfdsc

Принципиальная неустойчивость ИИ при управлении по KPI

Dec 07, 2022 12:08

Вот последние десятилетия модно всех работников переводить на ключевые показатели деятельности − KPI. Если много работаешь − много получаешь. Плохо работаешь − тебя увольняют или направляют на переобучение.

Что будет, если такую же схему внедрить для оценки действий некоего фантастического ИИ, который превосходит человека? (пока такого нет и не предвидится)

Этот ИИ будет очень умным. Он пытается любыми способами максимизировать KPI. Допустим, в KPI написано, что он должен обслуживать пару престарелых: мужчину и женщину.

И одно из главных условий KPI − это условие того, чтобы и бабушка, и дедушка не подавали на ИИ жалоб.

Что сделает ИИ, чтобы бабушка и дедушка не подавали жалобы?

Проще и гарантированнее всего убить их: тогда они точно не поддадут никаких жалоб.

Как бы мы ни строили KPI, если ИИ пытается всё сделать эффективно, с минимумом затрат, он всегда будет искать "нечестный" способ повысить KPI до максимума.

Если мы скажем: "не убивай дедушку, бабушка расстроится", - ИИ убьёт и бабушку, чтобы не расстраивалась лишний раз.

Если мы скажем: "не убивай одних людей, другие расстроятся". Но люди всегда расстраиваются. Чтобы их не расстраивать, проще всего их убить. Всех.

Как бы мы не старались, ИИ найдёт лазейку понять наши правила не так. Например, мы запретим ему убивать людей, тогда он может попробовать лишить их чувств (как в фильме "Отроки во вселенной").

В общем, проблема в том, что "нечестные" способы всегда эффективнее честных для достижения формальной оценки, а не выполнения реально необходимых работ. Всегда все силы ИИ будут направлены не на наше реальное удовлетворение, а на выполнение KPI.

Таким образом, даже небольшая ошибка в формировании ключевых показателей деятельности приводит к существенному отклонению от получаемого результата. Что является признаком неустойчивой концепции управления.

Значит, такая концепция управления непригодна для ИИ общего назначения, которые могут негативно повлиять на людей.

Повторюсь, пока таких ИИ нет и не предвидится.

безопасность