Четвертый всадник математического апокалипсиса

May 13, 2020 18:42


Как известно, бывает ложь, большая ложь и статистика. В связи с коронавирусной угрозой народ еще придумал рисовать графики. И графики присоединились к этой троице в качестве стажера.

На Комконе я планировала разобрать, как графиками пугают и успокивают. Прошло два месяца, за это время случилось много разного: оказалось, что covid-19 отлично передается человек-человек (и гораздо более бодро, чем изначально казалось), что если перегрузить госпитали всеми подряд с положительным мазком, пытаясь так побороть вспышку, то твоему здравоохранению конец, шведский министр здравоохранения велел всем двигаться в Вальгаллу прочь от экономического кризиса (но тот оказался быстрее) и многое, многое другое.

«Ну вот теперь точно неактуально писать про графики!» - думала я. Пока не встретила его - график, достучавшийся мне до самого сердца. Собственно, вот он, разбежавшийся по всем интернетам:



Я встретила его в перепостах постов Навального, ссылавшегося на Волкова. Найти в тексте источник этого графика дальше не очень углубленный гуглинг по картинке не дал.

Это, впрочем, лиричная придирка. Цифры на графике правильные. Нарисован он только криво как иллюстрация конкретной мысли (всёплохо-мысли) и даже не пытается притворяться объективным.



Отступление. Никто почему-то не комментирует, что отложено на оси У. Это так называемая «скользящая сумма» за 14 дней. Это не накопительный график, к которому мы привыкли и который выглядел бы так:



Я оригинальный график перерисовала, чтобы сравнивать графики, нарисованные в одном стиле. И добавила на график еще Чехию. У нее интересный положительный кейс с маленьким числом выявленных случаев и низким числом на 10 000 населения. Понятно, что она сама довольно маленькая - но об этом дальше. На мой взгляд, мой получился даже более тревожным:



Итак, первое, что с ним не так: даты на оси Х. Пока миллионы ученых по всему миру ломают копья, как бы так поудачнее выбрать «день 0», автор графика решил этим пренебречь. Плюс в отрисовке оригинального графика удачно прикрыто, что первые случи в России сильно позже многих других стран.

Фикс: используем на оси Х дни от набора в 100 заболевших.



Всё еще не особо уютно (случаев больше всех!), но по сравнению с соседними наборами - видно, что график не загибается вверх так резко, как в Испании и Италии. Кстати, довольно интересно, что в таком развороте данных - Италия, где был мрак и ужас, по набору случаев в скользящем 14-дневном окне идет в том же темпе, что и спокойная Германия, но в Германии быстрее начинается падение числа случаев.

Посмотрите, кстати, на Великобританию. Так выглядит плато.

Далее: страны, отображенные на графике, имеют очень широкий разброс по численности населения. В России - 140 миллионов. Самая маленькая из стран сравнения - Испания, в ней чуть меньше 47 миллионов.

Фикс: отнормировать абсолютное число случаев на 10 000 населения страны.



Оп, совсем другая картина.

Что видно на этом графике?

1. Не плато. Оставайтесь дома. Посмотрите на Великобританию, вот у них - плато.

2. График растет, но есть шанс, что он показывает «сглаженную кривую». Это не уверенность, это надежда.

3. Сглаженность роста может быть, несомненно, связана с манипуляцией с данными. А может быть - со своевременными мерами. Как бы тут узнать, кроме как подождать еще пару месяцев.

Заметьте: это не пост про то, что всё хорошо. Это пока науке неизвестно - мы еще далеко не на плато. Это пост про грубое передергивание.

Бонус-трек: график по открытым данным Москвы о смертности.





В целом на коронавирусный вклад похоже (хотя и не точно). Кто-нибудь, может, выскажет предположение, что случилось в Москве в марте 2018 и вызвало похожий всплеск?

Кстати, помните, как под Москвой леса горели? Вот их видно на графике гораздо лучше, если не делать ему обрезку по «коронавирусному» месяцу:



В общем, не болейте. Помните мудрость доктора Хауза :-)

Previous post Next post
Up