Weapons of Math Destruction

Dec 17, 2020 17:22

Прочитал (спасибо wildest-honey!) книжку про риски применения математических алгоритмов в разных областях. Автор вводит вынесенный в название книги термин WMD, который каким-то образом даже определяет: это такая мат. модель, которая много на что влияет, широко распространена, но никому не понятна, и при этом у неё отсутствуют вменяемые механизмы обратной связи - уже по определению видно, что книга написана не для восхваления математических моделей. А дальше автор рассматривает разные примеры, ругает их - иногда за дело, а иногда я даже не мог понять, за что именно она прицепилась конкретно к этой модели. Зачастую было просто карикатурно, когда автор начинает описывать какую-то контору, нагнетая атмосферу осуждения: у них женщин притесняют, они CO2 в атмосферу выбрасывают, у них кофе невкусный, и - вы не поверите! - у них есть ещё и (ужасные, конечно же) математические модели. Какая разница, был ли расистом человек, допустивший ошибку subprimes? Автору есть разница, мне - нет.

То есть, читать советую только по диагонали, со включенным фильтром провокаций и манипуляций. Но читать, потому что тема, конечно, важная, и фактов она там накопала достаточно. Постараюсь пересказать то, что заинтересовало лично меня.

1. Самая главная, наверное, тема - это совместимость «справедливости» и «эффективности». Классический пример: у нас есть какой-то алгоритм, предсказывающий качества человека по его окружению. Например, чем больше у заключённого знакомых рецидивистов - тем больше шанс, что он тоже вернётся в тюрьму. Чем больше у офисного работника друзей офисных работников - тем больше шанс, что и он сможет прижиться в офисе. Эффективность таких алгоритмов иногда хромает, но предположим, что они работают. Очевидно же, что они «несправедливые» (кавычки здесь и везде, где будет использоваться это слово, чтобы не писать каждый раз «найдётся человек, считающий справедливым нечто, не совместимое с» - зачастую таких людей будет очень много, то есть мы не только о фриках говорим), в том смысле, что эти алгоритмы не дают шанса вырваться из порочного круга.
У нас есть прекрасный друг, родившийся и выросший в очень плохом пригороде Парижа, он регулярно для шутки «включает гопника», разговаривая так, как говорили у них на раёне - он оттуда вырвался. Потому что боженька дал ему мозгов, потому что ему повезло с интересами (заинтересуйся он вместо компьютеров синтезом наркотиков, вырваться было бы сложнее), потому что ему нравилось пахать в школе - повезло, одним словом. Таких мало. И очень жаль закрывать им путь такими вот «эффективными» алгоритмами.

В этом месте автор упоминает презумпцию невиновности. И мне это кажется интересным, потому что мы все, наверное, поддерживаем принцип: не доказана вина - считаем, что не виноват. Но в чём состоит цель и смысл презумпции невиновности в терминах эффективности и справедливости? Это именно возможная жертва первым ради второго - мы скорее согласны выпустить на свободу преступника, вина которого не доказана, ради того, чтобы случайно не посадить за решётку невиновного. А как только мы меняем термины «свобода / тюрьма» на «работа / безработица», то уже не все согласны жертвовать эффективностью ради справедливости.

2. Лично у меня в этом вопросе нарисовалось мнение о разделении ролей частного бизнеса и государства. Глупо обвинять частную компанию в том, что она оптимизирует свою прибыль - понятно, что есть какие-то высокодуховные исключения, но для простоты лучше считать, что бизнес создаётся с целью получения прибыли, точка. Поэтому конечно же нужно иметь в виду, что компании используют и будут использовать критерий эффективности, а критерий справедливости придёт к ним только в том случае, если от него будет зависеть эффективность: например, если покупатели дружно скажут «не хотим покупать кроссовки, сделанные детьми во Вьетнаме», то Nike перестанет нанимать детей во Вьетнаме. Но не надо ждать, что он сделает это во имя идеала. Во имя не поддержанного / не востребованного обществом идеала он разорится, потому Reebok будет продолжать продавать свои, сделанные вьетнамскими детьми кроссовки дешевле.

Другое дело - государство (для любителей вычёркивать это слово заменим его на «массовую гражданскую инициативу» - не обязательно быть государством, чтобы поднять волну против вьетнамского детского труда). Оно может учитывать критерии справедливости, чтобы потом пытаться влиять на выбор критериев частными компаниями. Либо законом / запретом (вариант государства), либо личным выбором / бойкотом (общество).

Красивый пример из книги с компанией, которая устраивала своим работникам рабочие недели по 29 часов, потому что начиная с 30-часовой недели работодатель обязан оплачивать работнику медицинскую страховку. Наивно ждать от работодателя филантропии, ещё наивнее ждать появления кофейни, где будет кофе на 30 копеек дороже, зато работники - со страховкой (никто не будет проверять 100500 критериев перед каждым заказом кофе, все смотрят только на цену). Но вполне можно остановится один раз, подумать, принять решение - мы готовы всегда платить дороже за кофе, в обмен на знание, что у работников будет страховка? И если да - то принять такое решение.

3. Ещё одна сквозная (и переплетающаяся с предыдущей) тема - это самореализующиеся пророчества. Вот предположим, мы забили на «справедливость» и применяем «эффективный» алгоритм, говорящий нам о вероятности рецидива. Этот алгоритм не выпустит досрочно человека из дурного пригорода, где каждый второй сидел (нам в школе рассказывали, что в Донецкой области каждый десятый сидел, а у каждого третьего проблемы с алкоголем), он останется в тюрьме подольше, подольше пообщается с рецидивистами, они его научат - и алгоритм окажется прав! Другой алгоритм скажет, что бедный человек чаще не возвращает кредит - ему на автомате повышают ставку, что очевидным образом снизит шанс, что человек сможет его выплатить. Алгоритм снова прав!

Проблема здесь не только в «справедливости» (иначе я бы не выносил это в отдельный пункт), а и в положительной обратной связи, которая приводит модель в соответствие с реальным миром, но делает это не настройкой модели, а изменением окружающего мира. Откуда, собственно, важность степени распространения модели в определении WMD - судя по описанному автором, у нас уже есть модели, покрывающие все Штаты (кредитная история), если не весь мир (профилирование Фейсбука). На эту тему было несколько прекрасных серий в  Black Mirror - общество, в котором нет возможности отмыться от единожды поставленного на тебя клейма «лузер».

При этом очень сложно не впасть в критику, когда ты сравниваешь существующий неидеальный алгоритм с идеальным, но несуществующим. Нужно всегда понимать, какая у нас есть реальная альтернатива. Если мы прикроем автоматический рейтинг на выдачу кредитов, означает ли это, что все досье будут разбирать мудрые специалисты? Нет, конечно. Это означает, что львиную долю досье разбирать вообще не будут. А оставшиеся передадут людям, квалификация которых зачастую позволит в лучшем случае воспроизвести ошибки автомата: Жан-Поль? - бери кредит! Мохамед Али? - следующий!

4. Проблема отсутствия обратной связи. В классических моделях у нас всегда есть возможность ошибиться, но при этом система должна знать, что она ошиблась - как минимум для того, чтобы поставить под сомнения / проанализировать другие её решения, а в лучшем случае - для того, чтобы улучшить настройки алгоритма. Во многих системах такую обратную связь сделать невозможно или неподъёмно сложно. Да, в случае с советами покупки на amazon всё просто - у нас тут же есть индикатор, показывающий, сколько покупок совершено по нашим рекомендациям. А в системе рейтинга учителей? Вот посчитали мы учителя плохим и уволили его - как кто может узнать, что это была ошибка? Не дали кредит - можно теоретически проследить, вдруг кто-то другой даст кредит, и посмотреть, вернётся ли кредит в итоге (сложно, но можно). А с работником? Не наняли - и что? Отслеживать, вдруг его наймёт кто-то настолько похожий на нас, чтобы сравнения имели смысл?

В итоге у нас имеется какое-то количество моделей, результативность которых покоится на каких-то вложенных в них их создателями аксиомах, но которая не проверяется регулярно. Никакого backtesting не предусмотрено даже в теории.

5. Дальше несколько очевидных проблем, но я всё равно хотел бы их отметить.

Проблема proxy, когда нужную нам категорию сложно измерить, и мы поменяем её на прокси. Ну вот то же наличие друзей рецидивистов как прокси отношения человека к преступлению. Прокси от прокси - почтовый индекс человека (плюс данные о количестве рецидивистов с этих почтовым индексом) как прокси количества друзей-рецидивистов (а то какой же дурак будет положительно отвечать на вопрос, который оставит тебя в тюрьме ещё на год).

И снова, прокси - это лучше, чем ничего. Особенно, если не задумываться о «справедливости». Но в отдельную категорию я вынес из-за приведённых в книге примеров алгоритмов, использующих прокси там, где у нас есть нормальные данные. Вот тот же почтовый индекс вместо (да или хотя бы вместе) кредитной истории - для оценки вероятности выплаты кредита.

Сюда же «коллективная ответственность». Нам редко нравится, когда нас принимают не за тех, кто мы есть, а за тех, на кого мы похожи. Ты - русский, а значит алкоголик, оккупант, коммунист.

6. Другая проблема, просто она тоже называется «прокси», заключается в том, что мы вообще пытаемся описать сложную вещи простым индикатором. Например, строим «рейтинг ВУЗов». Очевидно же, что у каждого свои критерии, и параметров там десятки. Но нет, как пошла мода на эти пузомерки, так она и раскручивается. При том, что она попутно ещё и запускает механизм самореализации: чем круче по рейтингу ВУЗ, тем больше туда идёт абитуриентов, тем более строгий отбор, и в итоге там остаются более способные студенты (аналогично с преподавателями, со спонсорами и пр.) - ура, в следующем году рейтинг будет ещё выше!

7. Проблема малой выборки. Отличный пример с алгоритмом оценки учителя по оценкам учеников. Если у тебя миллион учеников, то по среднему уровню можно что-то понять. А если их всего 20? У кого-то брата в тюрьму посадили, у кого-то родители разводятся - всё это влияет на успеваемость, и совершенно от тебя не зависит! Более того, современные алгоритмы учитывают не просто оценки учеников (это показывает общий уровень класса: если к тебе умные дети пришли, то их высокие оценки через год - это не только твоя заслуга), а отклонение реальных оценок после года обучения от оценок, предсказанных по данным начала года. Тут волятильность на порядки выше (автор вообще проходится по тому, что это уже не переменная, а шум, который при усреднении должен выходить в ноль - но это к вопросу об уровне аргументации автора), а количество учеников всё так же мало. В итоге в книге рассказывают об учителе, получившем 9/100 в одном году и 96/100 в другом - по его словам он ничего особенного не делал ни в первый, ни во второй год, это просто разброс ошибки метода.

8. Проблема данных. Классическое «дерьмо на входе может давать только дерьмо на выходе». В случае с теми же учителями и оценками учеников - в начале года учитель получает детей от преподавателя, учившего их в прошлом году, и кто сказал, что тот преподаватель нарочно не завысил оценки? То ли просто добрый, то ли себе рейтинг вытягивал, то ли у него критерии другие. Так мы постепенно сваливаемся в идею единого экзамена, анонимной проверки, всеобщего ЕГЭ - здравствуй, проблема прокси. Вместо оценки способностей к математике мы оцениваем способность выбирать правильные ответы из предложенных.

9. Отдельная тема - Америка. Книга американская, написанная на американских реалиях. Не об Америке, но по упомянутым деталям можно восстанавливать какие-то пласты американской жизни, и получается забавно.

Например, среднее состояние у 40% беднейших американцев −14800$. Это не тире это минус - долг. И это не просто «кредит на недвижимость», ему как раз соответствует сама недвижимость, результат должен быть положительным. В книге чётко проговаривают - это за счёт отрицательного баланса на кредитных карточках. В редких случаях кредит на обучение (купленный за него актив сложно учитывать в бухгалтерии).

Или вот. Автор гневно рассказывает о практиках университетов, привлекающих абитуриентов только ради денег: 80% их бюджета идёт на рекламу и прибыль владельца, на сдачу пытаются как-то учить. О ужас, говорит автор, директор одного такого университета за год заработал 25 миллионов - в приличном ВУЗе такую зарплату может иметь разве только тренер футбольной или баскетбольной сборной. Я такой: чего?!!

Расовая политика и расовая сегрегация - из Франции очень интересно читать об этом. Здесь вообще вопрос в анкете «ты белый или чёрный» запрещён, а в Америке, похоже, он не просто популярен, но и наверняка имеются какие-то правила, что отвечать, если у тебя две бабушки-негритянки, один дедушка белый, а второй - мексиканец. Может, конечно, у них расы так и не смешиваются, несмотря на заявленный плавильный котёл. Но то, что есть достаточно точные расовые статистики и расовая география, меня удивило и в книге, и в анализах недавних президентских выборов. Очень интересно, конечно!

Смысл расовой статистики в Америке при этом понятен - из этой же книги следует, что в 60 лет средний белый американец более чем в 10 раз богаче среднего чёрного американца. Сложно, конечно, представить такое общество. С другой стороны, интересно, что было бы видно во Франции, если бы подобная статистика существовала?

10. Давно слышал выражение «преступление без жертвы» и не до конца понимал логику. Какая разница, думал я, есть жертва или нет, осознаёт ли она, что она жертва - если есть нарушение. Здесь красиво разжевали: если у нас есть программа, управляющая полицейскими патрулями, то она скорее будет направлять машины в кварталы, где чаще происходят правонарушения. Чем больше там будет полицейских - тем больше будет обнаружено преступлений, которые без этих патрулей никто не заметил бы: подростки с пивом, марихуана и т.п. И даже если мы активно против потребления алкоголя малолетними и курения марихуаны, очень сложно считать, что преступность в этом квартале выросла только потому, что там теперь ездит больше машин, и там арестовывают больше людей. Не преступность выросла, а обнаружение тех самых «преступлений без жертвы».

Читатель (я!) в этом месте практически приготовился сказать: ну так и здорово, если мы проедем по бедному кварталу и арестуем кучу подростков с пивом и негров с косяками. А автор практически задаёт вопрос читателю - а почему не направить те же патрульные машины в богатый квартал, чтобы они там арестовывали джоггеров, перебегающих пустую улицу на красный свет? Или припаркованных вторым рядом напротив булочной. И вот это тоже сильный момент чтения, когда ты осознаёшь на собственной шкуре, что да, есть не просто нарушения, а именно нарушители, к которым ты более или менее толерантен.

11. В очередной раз проехались по «теории разбитых окон» - верной теорией, не опровергнутой, но которую применяют там, где её применять нельзя. Этот сдвиг настолько систематический, что для простоты можно считать, что теория неверна.

12. Упомянули мой любимый парадокс Симпсона, и я, наконец-то, понял, как к нему нужно относиться. В книге разбирают пример с тестом математики, результаты которого снизились за какой-то период. Сразу сделали вывод: ужас-ужас, наша система образования никуда не годна. Но при этом если сделать анализ по социальным группам, то в каждой группе результаты за тот же период выросли. Грубо говоря, если у нас есть с одной стороны богатые и умные, а с другой - бедные и тупые, то образовательная система научилась лучше учить и тех, и других. Но за это же время она настолько демократизировалась, что если раньше учились только богатые и умные, то сейчас могут учиться и бедные тупые - в итоге общий средний результат падает, но вывод из этого следует совершенно противоположные первой реакции.

13. Передёргиваний в книге полно, но в основном эмоциональные, когда читателя настраивают на определённое восприятие, а потом вываливают факты. Фактическую липу (и то, по французским меркам - может в Америке всё и не так) я увидел только одну, в истории про автомобильную страховку. Пишут, что страховщики нарочно вставляют совершенно нерелевантный критерий почтового индекса, чтобы собрать побольше денег с бедняков. Типа, те и так тупые и забитые, они даже не будет проверять, есть ли страховка дешевле. А что критерий лишний - ну так если он приносит бабки, зачем от него отказываться?
По крайней мере во Франции рынок автомобильной страховки жутко конкурентный. И мне сложно представить себе контору, которая выставляет нереальные тарифы в надежде, что никто не будет искать дешевле. Тем более сейчас, когда есть и покупка страхования online, и брокеры, бесплатно сравнивающие тарифы и подыскивающие самую выгодную для тебя компанию.

Зато в книге есть очень важная мысль про парадокс страховки, не грех и повторить. Оптимизация страхового портфеля очевидным образом осуществляется сегментизацией. Легко представить себе компанию A с общим на всех тарифом и компанию B с низким тарифом для хороших (безрисковых) клиентов и высоким тарифом для плохих. Очевидно, что в свободном рынке очень скоро все хорошие клиенты будут у B, а все плохие - у A. Более того, A в итоге разорится. То есть, компании просто по определению должны стремиться к наитоньчайшей сегментизации своего портфеля (ограничение возникает, когда стоимость поддержки каждого сегмента не покрывает выигрыша от сегментации). Парадокс в том, что сегментизация в пределе приводит к исчезновению страховки, когда каждый клиент платит только за свой риск, никакой взаимопомощи. Собственно, эту тему мы регулярно видим в обсуждениях пенсионных систем - должна ли пенсия быть страховой (общие накопления для обеспечения минимального уровня на случай катастрофы), либо накопительной (каждый сам за себя, что отложил - то и твоё).

assurance, математика, knigi

Previous post Next post
Up