Лукавая цифра или как статистикой манипулируют (это про парадокс Симпсона)

Sep 04, 2021 19:03


Антивакцинаторы возбудились данными по Израилю. Не мудрено: ведь перед нами страна, где квалифицированное большинство взрослых привито, а оказывается и она все равно болеет. И по сети хлынул поток дезы - отчасти созданный жуликами нов основном честными, но плохо знающими математику людьми.
А оказывается что вопреки заверениям большинства сетевых комментаторов, которые совершенно уверены, что их собственная голова и здравый смысл лучше всех академий разберутся в любой путанице, в реальности дело обстоит не так. И слушать надо профессионалов. Потому что и в математике бывают парадоксы - например парадокс Симпсона.
Короче я приведу статью профессионала, биофизика Есилевского, который тоже не выдумывал порох а воспользовался статьей другого профессионала (профессионалы очень даже не против воспользоваться чужой статьей и не изобретать велосипеды, в отличие от сетевых магистров которые свято верят только в ... см.выше)

В последнее время одним из основных тезисов этих граждан стала мантра: «В Израиле привитые болеют так же часто, как не привитые». Корни этого бреда лежат традиционно в методичках кремлевских троллей, но речь сейчас не об этом. Это, естественно, ложь, но ложь по-своему интересная.

В отличии от других утверждений антиваксов, которые являются просто очень наглым враньем, фейк про Израиль базируется на интересном статистическом казусе- парадоксе Симпсона.

Суть его очень проста: «Если у вас есть две сильно различающиеся группы, в которых наблюдается одинаково направленная зависимость, то при объединении этих групп в одну, направление этой зависимости меняется на противоположное».



Парадокс Симпсона: в синей и красной группе зависимость Y(X) возрастающая, но если их объединить, то в целом по обеим группам она становится убывающей (судя по всему автор имеет в виду линейную регрессию, показанную пунктиром)
Объединенная выборка в таком случае имеет бимодальное («двугорбое») распределение, для которого привычные формулы статистических моментов (среднего, дисперсии и т. д.) теряют смысл и начинают давать ерунду. /такое распределение вы получите, если измерите средний рост взрослых людей не отделяя мужчин от женщин/

Вернемся к Израилю. В прекрасной англоязычной статье Джефри Морриса данные по заболеваемости привитых и непривитых из Израиля дотошно разбираются в контексте парадокса Симпсона. Дальше я не буду изобретать велосипед, а просто процитирую эту статью.

Для начала давайте посмотрим на общую больничную статистику по Израилю по состоянию на 15 августа:



Упс! Различий в частоте тяжелых случаев заболевания среди вакцинированных и не вакцинированных практически нет. «Шок, сенсация, вакцины бесполезны, максимальный репост!» Конечно же, нет. Даже человеку, совершенно не знающему статистики, очевидно, что надо учитывать общее количество вакцинированных и невакцинированных, чтобы делать какие-то выводы. В Израиле вакцинировано 78,7% населения, и в числах это выглядит так:



Сразу же видно, что невакцинированные тяжело болеют в 3 раза чаще, чем вакцинированные, т. е. вакцины работают. Но остается другой непонятный момент. Если посчитать эффективность вакцины против тяжелого течения болезни по всей популяции, то получатся весьма скромные 67,5%. Какая-то глупость. В клинических испытаниях Pfizer заявлялась эффективность больше 95%, а тут только 67,5%.

Вот тут и начинает работать парадокс Симпсона. Дело в том, что для коронавируса вероятность тяжелого течения болезни очень сильно зависит от возраста. Для людей старше 50 лет вирус опаснее в десятки раз, а для людей 80+ - в сотни раз! В результате вся популяция распадается на две условные группы: условно молодые и условно пожилые. Эти группы кардинально разные в плане рисков, а именно это и является предпосылкой к появлению парадокса Симпсона.

Если учесть молодых и пожилых отдельно, то получается такая картина:



Сразу видно, что среди молодых число непривитых намного больше. 85,7% из числа всех непривитых - молодые.

Теперь посмотрим на риски тяжелого течения заболевания. Для непривитых фиксируется 91,9 случаев тяжелого течения на 100 000 для пожилых и всего 3,9 - для молодых. Разница в 23,6 раз. Для привитых такой же анализ дает 13,6 случаев тяжелого течения на 100 000 для пожилых и 0,3 для молодых. В абсолютных цифрах меньше, но отношение уже в 42,5 раз!

Давайте выдохнем и сформулируем этот парадоксальный момент еще раз. Среди непривитых пожилые тяжело болеют в 23,6 раза чаще, чем молодые. Но среди привитых пожилые тяжело болеют в 42,5 раза чаще, чем молодые! Если смотреть на эти цифры в отрыве от контекста, то опять получается, что вакцинация усугубляет риски для стариков! Естественно, это неправильно. Засада в том, что мы сравниваем две несравнимые группы с совершенно разными характеристиками, то есть считаем ту самую «среднюю температуру по больнице», сравнивая морг с реанимацией. Ожидаемо, мы получаем полную ерунду, которую можно превратно интерпретировать в рамках антивакцинаторского дискурса «вакцины бесполезны».

На самом деле корректный анализ тут можно проводить только внутри возрастных групп по строчкам таблицы, а не по столбикам. Если это сделать, то получится следующее:



Эффективность вакцины в предотвращении тяжелого течения болезни для молодых - 91,8%, а для пожилых - 85,2%. Это уже намного ближе к значениям, полученным в клинических испытаниях. Пожилым вакцина помогает чуть меньше потому, что для них вирус в десятки и сотни раз более смертоносен, и сам по себе риск тяжелого течения огромен.

Вот мы и увидели парадокс Симпсона во всей красе. При реальной эффективности не менее 85%, кажущаяся эффективность по всей популяции получается 67,5%. Причина в некорректном суммировании двух несопоставимых групп с кардинально разными характеристиками.

Приведу еще одну таблицу из статьи Морриса, где показано намного более детальное сравнение разных возрастных групп:



Видно, что если сделать еще более дробное деление по возрастам, то эффективность вакцины внутри большинства возрастных групп еще больше повышается. Наименьшей она оказывается для группы 80−89 лет (81.1%), а для еще более старых людей 90+ опять повышается до 92,4%. Тут уже начинают работать более хитрые факторы, связанные с сопутствующими заболеваниями. Грубо говоря, современная израильская медицина может дотянуть многих хронических больных до 90 лет, но, увы, не до 100. Чтобы дожить до 100 лет нужна уже, грубо говоря, особо удачная наследственность, которая дана не всем. Поэтому среди группы 80−89 будет больше людей с серьезными сопутствующими патологиями, чем среди долгожителей 90+. В целом же эффективность вакцины очень высокая - 80−90% у пожилых и под 100% у молодых.

Мораль

Статистические закономерности часто бывают контринтуитивными и противоречащими бытовой логике. Если пытаться интерпретировать сложные и многофакторные статистические данные с позиций «кухонного эксперта», который прогуливал математику начиная с 6-го класса, то ничего хорошего не получится. Так и в случае с вакцинальной статистикой - профаны-антиваксы считают «среднюю температуру по больнице», получают, естественно, ерунду, но не видят никакой ошибки. На основе этих неправильных расчетов они делают в корне ошибочный вывод о том, что «вакцины неэффективны» и носятся с ним как с писаной торбой.

Все приведенные тут расчеты по-хорошему тривиальны и доступны неглупому школьнику. Просто их надо делать аккуратно и с пониманием того, что именно мы считаем. Другими словами, важно не просто манипулировать циферками, а еще и понимать, что за этими цифрами стоит - знать предметную область и владеть методикой статистического анализа данных. Иначе вы будете получать смешную ерунду.

Как обычно профессионал отличается от любителя, полагающего себя профессионалом, не столько ловкостью обращения с компьютерами и программными пакетами, сколько пониманием: какой пакет где применять и главное - как понимать полученные результаты. Вот последнее приходит с опытом и к сожалению не ко всем. А один из основателей прикладной математики в СССР несколько раз подчеркнул в своем учебнике "Результатом расчета никогда не может быть ЧИСЛО. Им всегда должно быть ПОНИМАНИЕ". И сколько я ни пытался внушить это своим молодым сотрудникам - их все равно всегда неудержимо влекло ЧИСЛО,оно манило их как дудочка крысолова, они демонстрировали большую изобретательность в получении волшебного ЧИСЛА. Новот с пониманием у большинства дело продвигалось медленно.

Ну этот так, старческое брюзжание. Надеюсь фокусы со статистикой - стали понятны?

До чего все же тупые эти студенты! Объясняешь им, объясняешь, уже и сам наконец понял, а они всё равно не понимают

статистика, эпидемия, жулики

Previous post Next post
Up