Короновирус и матанализ - экспонента ли ?

Apr 19, 2020 00:56





После того, как набралась некоторая статистика по короновирусу по сети массово стали гулять оценки роста заражения. Как правило они основаны на экспоненте, но так ли это ?


Типичный пример нам предлагает тот же Фрицморген
https://olegmakarenko.ru/1827235.html
который не поленился что-то рассчитать в Excel.

Однако давайте сначала подумаем - а почему экспонента?
Ответа тут ровно два:
1) она вписывается в простую модель геометрической прогрессии
Простая модель выглядит на пальцах так
  • допустим у нас есть один зараженный в начале
  • за один день зараженный заражает одного человека
  • это повторяется
Тогда имеем:
  • в "нулевой" день - 1 человек
  • на первый день - 2 человека ( один заразил другого )
  • нв второй день - 4 человека ( двое заразили каждый по одному )
  • на третий день - 8 человек ( четверо заразили четверых )
  • И так далее
Количество зараженных человек в день Х выражается по формуле геометрической прогрессии, которую проходили еще в школе : два в степени Х Ее же можно представить и через экспоненту (1)


2) она очень легко аппроксимируется
До короновируса обычно среди большинства "прогнозистов" преобладала линейная модель. Т.е. берем набор известных точек, аппроксимируем ее линейной функцией (2)

Тем более что в том же Excel эта линейная аппроксимация уже есть в виде готовых функций. В случае же более быстрого роста такая модель не подходит и вот ей на замену приходит экспонента, потому что она тоже очень легко аппроксимируется.

Пусть у нас зависимость имеет вид константы умноженной на экспоненту в показателе которой стоит некоторый множитель, множитель перед экспонентой легко внести в саму экспоненту (3) и такой вид более простой для аппроксимации.
В самом деле: ее можно переписать как (4), а это как раз линейная зависимость. Далее мы вычисляем логарифм от известного количества зараженных и считаем а и b. Составить прогноз после этого совершенно легко.
...и он гуляет по сети, причем особенно весело смотреть на графу "отставание в днях"

Вспоминаем матанализ

В старших классах в школе преподавали основы анализа ( математического ).
Более чем уверен, что многие, кто это проходил в школе, благополучно его забыли - на практике же производные почти не используются.

Однако мы вспомним.
Итак, если у нас есть количество зараженных суммарно по дням, то первая производная будет показывать число заражений в день. А вторая - скорость изменения числа зараженных в день

Экспонента тут выделяется тем, что какую производную от нее не возьми - она останется экспонентой (5)
Т.е. и десятая производная от е в степени х останется е в степени х
Если же в экспоненте стоит линейная функция, то множитель при х переходит в множитель перед экспонентой (6)

Вот и давайте положим нашу "экспоненту" на хирургический стол и препарируем ее по матанализу.
А именно давайте взглянем на вторую производную. Для ее получения надо от прироста текущего дня отнять прирост предыдущего.
Для данных я буду брать Москву, как самый тяжелый регион России


Итак, вот график того, что получилось.


Как можно видеть на экспоненту он совсем не похож. Более того - это и не может быть экспонентой вида (4) ибо она строго положительная, а тут есть отрицательные точки. И даже если мы их выкинем - то все равно экспонентой она не станет.
Зато этот график очень напоминает то, что интернет-эксперты любят аппроксимировать - курсы валют. Чтобы показать что "в среднем" доллар растет - тут самое место применить линейную аппроксимацию вида (7) и она тут подойдет в первом приближении.

Лирическое отступление - Метод Наименьших Квадратов

Чтобы аппроксимировать функцию обычно применяется Метод Наименьших Квадратов.
Суть этого метода можно наглядно показать следующим образом : Надо так подобрать аппроксимирующую функцию, которая не обязана проходить через экспериментальные точки, чтобы сумма квадратов отклонений от нее до экспериментальных точек - на картинке это зеленые отрезки к реальным данным в виде красных точек - была минимальна. Поскольку отклонения могут быть как вверх так и вниз, то берут их квадрат, который всегда будет положителен.



Как я уже говорил, в Excel функция линейной аппроксимации встроена и легка в использовании.
Сумма квадратов таких отклонений называют Ошибкой.

Идем от старшей производной

А теперь пора опять вспомнить матан: если вторая производная выражается линейной функцией вида (7) то какой функцией будет выражаться первая производная ?
Правильно! - квадратичной, вида (8)

Квадратичная функция по другому называется Квадратный Трехчлен - ее в школе изучают и о ней ходит много шуток. Если оставить только старшую степень то график будет представлять параболу и тоже знаком школьникам.
Собственно оригинально у меня идея этого поста и возникла когда я аппроксимировал количество новых заражений квадратичной функцией при обсуждении с друзьями.
И вот аппроксимировать квадратичную функцию для большинства людей будет проблемой - в школе это не проходят ( в отличии от геометрической прогрессии ) и встроенной функции в Excel нет ибо в подавляющем большинстве аппроксимаций ограничиваются линейной.
Однако с помощью Excel коэффициенты для аппроксимации совершенно нетрудно посчитать
Вот видео, которое объясняет как это делать

image Click to view



Для тех, кто отучился первый курс технического ВУЗа - это линейная алгебра в части матриц и операций с ними. Excel позволяет как рассчитать обратную матрицу, так и делать умножение матрицы на вектор встроенными функциями - надо только рассчитать элементы матрицы через суммы различных степеней и произведений X и Y.
Изначально я аппроксимировал квадратичную функцию по данным до 12 апреля включительно в Москве.
Вот результаты.



Как можно увидеть при аппроксимации квадратичной функцией ошибка ... меньше! Т.е. она лучше описывает динамику процесса.
Потом, уже 18 апреля, я взял ту же функцию и ранее рассчитанную экспоненту и еще раз проверил - как можно видеть - разрыв от экспоненты по ошибке только увеличился и составляет где-то 2.5 раза.

Переходим к кубам

Если первую производную Y' описывает квадратичная функция вида (8), то какая будет описывать саму Y ?
Правильно! - кубическая, вида (9)

Если оставить старшую степень то это тоже известно школьникам - это гипербола. Аппроксимация кубической функции после того, как вы поигрались с матрицами при аппроксимации квадратичной - не представляет труда. Просто будет матрица 4х4 а не 3х3 и тот же самый принцип.
Берем данные Москвы по суммарному количеству зараженных по 15 апреля включительно и вычисляем коэффициенты для кубической аппроксимации и аппроксимации экспонентой. А потом выводим на график.



Как наглядно видно - куб очень точно отражает реальные данные. А еще лучше посмотреть на ошибку - она отличается почти на два порядка в пользу кубов.
Почему все это я вспомнил? А потому что куб отличается от экспоненты гораздо меньшей скоростью роста.
Т.е. если у нас на 20 апреля 20 754 зараженных, то через неделю экспонента дает 67 599 а куб - 41 128. А еще через три недели экспонента уже дает 1 962 966 а куб - 212 023. Разница уже почти на порядок.

По факту на графиках мы видим а-ля гиперболу, а НЕ экспоненту.
Разумеется за приведенным кубом нет никакой модели с моей стороны - модели эпидемий гораздо более сложные с точки зрения математики. Более того - как куб так и экспонента растут неограниченно, а количество зараженный на Земле не может превышать всего населения -реальная формула должна этот предел учитывать, как и перегиб на уменьшение.
Данный пример наглядно показывает, что в глубине может лежать то, что не видно на поверхности, но даже уже простым анализом это видно - что сейчас рост вовсе не экпоненциальный.

Аналогично можно посмотреть и случай всей России - и там куб тоже будет сейчас описывать лучше экспоненты, с ошибкой на порядок меньше



Сегодня Фрицморген вставил график изменения прироста по дням, но этот прирост выражался в процентах т.е. отношение количества новых к количеству заражений за предыдущий день.
https://olegmakarenko.ru/1837346.html

Такой график не дает никакой информации, а смотреть надо на абсолютные значения в динамике - по ним наглядно видно, что рост продолжается и точка перегиба еще не достигнута - пандемия продолжается в России хотя и не экспонециальными темпами.



В самом деле, если, на примере Москвы, рассчитать такое отношение для экспоненты то мы получим что такое отношение должно равняться Е в степени a минус один и оставаться константой.
Однако если посмотреть на динамику этих коэффициентов с начала, то окажется что а падает, а b наоборот растет.
Более того, если мы рассчитаем a по скользящему окну в десять дней назад относительно текущей даты, то он колеблется но вовсе не снижается.



Все это свидетельствует только о том, что модель экспоненты очень хреново подходит для описания динамики, а не о том, что "экспоненциальный рост" замедляется.

Вывод:
Пользуйтесь самоизоляцией и освежайте то, чему вас учили на уроках математики.

Добавление:
Специально для тех, кто упирается в полулогарифмическую шкалу: Я взял аппроксимированные экспонентой данные по Москве по суммарному количеству зараженных ( из раздела кубов ), округлил до целых чисел, вычислил сначала первую, а потом и вторую производную
Далее я просто построил график



Как можно видеть, поскольку оригинальные данные считались по экспоненте, то и во второй производной она никуда не делась.
Построение графика в полулогарифмической шкале недостаточно для констатации факта экспоненты.

математика. короновирус

Previous post Next post
Up