Увлекательная статистика.
Вместо эпиграфа.
- Не читайте по утрам советских газет.
- Так других же нет.
- Вот никаких и не читайте!
О жонглировании статистическими данными.
Заходим на РБК и читаем заголовок:
Смертность в Москве в апреле выросла на 20% за последние десять лет. Статью можно не читать - заголовок вполне точно передаёт её содержание.
Визуализируем. График смертности в апреле по годам (чёрный). С маленькой ремаркой. Я привёл количество смертей к миллиону населения. То же и во всех последующих картинках.
И ещё одна ремарка. На всех картинках вертикальная ось начинается не от нуля, обратите на это внимание. Иначе это выглядело бы как-то так, не наглядно.
В приведённых к населению данных апрель 2020 года выбивается уже не на 20%, а на 14%, что, тем не менее, много. “Естественные” колебания в пределах 6%. Значит, ещё 8% откуда-то добавилось.
На этом статья заканчивается и читатель делает железобетонный вывод, что на нас напал вирус-убийца и косит наши ряды.
Мы газет не читаем, поэтому включаем голову. Во-первых, статистика такого рода имеет смысл только на достаточно больших временных промежутках. Понятно, что данные за конкретный день в значительной степени случайны и могут сильно плавать, а данные по годам плавают гораздо меньше и уже о чём-то говорят.
Для начала посмотрим не только апрели, а все подряд месяцы, начиная с января 2010 года (синий).
Видно, что апрель 2020 года действительно имеет довольно высокий показатель, однако даже в тройку призёров не входит, что вряд ли было бы возможно при нападении вируса-убийцы.
Интересней всплеск слева. Помните адскую жару и смог летом 2010 года? Месячное количество смертей тогда увеличилось в полтора раза (!) относительно среднего показателя и держалось на таком уровне два месяца подряд.
Помните, тогда московская мэрия потратила кучу денег на установку бесплатных кондиционеров пенсионерам, многодетным и прочим нуждающимся? Я тоже не помню. Забыл, наверно. Хотя, судя по тому, что происходит сейчас, надо было просто обязать всех поставить дома кондиционеры. За свой, конечно, счёт. И штрафовать ослушавшихся.
Ладно, мы отвлеклись.
Укрупним масштаб с месяца до трети года, взяв интервал в четыре месяца (красный). Первая треть 2020 года находится на девятом месте из 31. И опять выделяется всплеск в 2010 году, на 30% выше среднего. Всё последующее лежит в одном и том же коридоре.
Даайте предположим, что треть года с одной стороны достаточно длинный промежуток, чтобы по нему можно было о чём-то судить, а с другой, что трети одного года между собой неравноправны. Обычно в холодные месяцы смертность выше, чем в тёплые. Вероятно, по причине сезонных заболеваний, дающих осложнения.
Смотрим на первые трети года, то есть, с января по апрель за 11 лет (оранжевый). 2020 год на шестом месте из одиннадцати. По абсолютному значению чуть ниже среднего.
Наконец, график по годам (коричневый). 2020 года пока нет, все предыдущие лежат в довольно узком коридоре, кроме, опять же, 2010, в котором смертей было на 13% больше обычного.
За вычетом 2010 года максимальное отклонение от среднего значения вверх произошло в 2016 году на 2.6%.
Как будет в 2020 году, узнаем через несколько месяцев.
Выводы, как обычно, делайте сами.
Здоровья вам!