Как регрессии могут нас обманывать

Mar 05, 2019 14:44

     Регрессионно-корреляционный анализ является одним из самых популярных инструментов, которыми пользуются, в том числе и студенты, пишущие дипломную работу (или магистерскую диссертацию).
     При этом, у такого инструмента, при всей его эффективности, есть недостаток, который мы всегда должны не упускать из виду. Это не единственный недостаток, но довольно важный, поэтому я хотел его тут проиллюстрировать с помощью данных, привычных тем, кто занимается анализом тех или иных процессов, происходящих на железнодорожном транспорте.
     Предположим, мы ходим оценить - существует ли какая-то устойчивая связь между показателем оборота вагона рабочего парка и скоростью доставки одной грузовой отправки. Интуитивно, мы понимаем, что такая связь должна быть, но пока, на секунду забудем об интуиции и обратимся к регрессионному анализу. Если мы возьмём данные о скорости доставки и обороте вагона за период с 2010 по 2018 гг. и построим диаграмму рассеяния, то получим примерно то, что изображено на рис. 1.



Рис.1

Линия аппроксимации всех точек облака лежит почти горизонтально, т.е. никакой связи - ни положительной ни отрицательной между показателями - формально говоря - нет. Во всяком случае, получившееся уравнение регрессии и близкий к нулю показатель «R-квадрат» (коэффициент детерминации) свидетельствуют в пользу того, что никакой связи между скоростью доставки груза и оборотом вагона не существует.
     Но если немного прищуриться, то можно заметить, что это не однородное облако, а внутри него можно различить два разных облака и что-то нам подсказывает, что именно здесь и «зарыта собака».
     Давайте посмотрим на ту же диаграмму чуть-чуть внимательнее, теперь получится то, что изображено на рис.2.



Рис.2

Определённо, здесь два разных облака, причём, в первом (слева) находятся точки соответствующие данным за 2010-2013 годы, а во втором (справа) точки, соответствующие данным за 2014-2018 гг.
     И здесь студент (исследователь), который изучает этот вопрос, в дополнение к режиму «учёный» должен включить режим «эксперт». Под учёным обычно понимают человека, который делает исследование, а под экспертом - человека, который знает что-то про тот рынок, который мы исследуем (иногда эти навыки находятся в одном человеке, иногда это два разных человека). Так вот, как только режим эксперта в вашей голове, уважаемый читатель, активирован, Вы сразу задаёте себе вопрос - что такого произошло на стыке между этими двумя периодами? И сразу же вспоминаете, что именно с 2014 г. РЖД изменило методику учёта общей скорости доставки груза, после чего (после изменения) скорость доставки резко подскочила вверх. Если в 2013 г. скорость доставки (для всех видов отправок) составляла 223 км/сут., то в 2014 она равнялась уже 299,2 км./сут.
     Соответственно, в данном случае нам нужно рассматривать два эти облака как две самостоятельные совокупности, так как это сделано на рис.3.



Рис.3

В этом случае мы видим, что между оборотом вагона и скоростью доставки груза есть устойчивая отрицательная связь (линия аппроксимации имеет отрицательный наклон). И эта отрицательная связь, судя по высокому значению коэффициента детерминации («R-квадрат»), судя по всему, не случайна.
     Таким образом, вместо первоначального вывода «связи нет», мы приходим к выводу, что во-первых, связь есть, во-вторых, она отрицательная, и в третьих, зависимый показатель (а в данном случае зависимый показатель - это оборот вагона, а независимый - скорость) в довольно большой степени (примерно на 80%) обусловлен скоростью.
Так сильно могут меняться выводы, если помимо формальных аналитических инструментов, мы используем экспертное знание. (Впрочем, у экспертного знания есть другие минусы и связанные с ним риски, но это тема отдельного поста).
     Здесь будет неправильно делать вывод, что остальные показатели, влияющие на оборот вагона влияют в сумме только на 20% (я отдельно напишу пост о влиянии других показателей, например, рабочего парка на показатель оборот вагона). Здесь речь идёт лишь о том, что при прочих равных условиях (т.е. в ситуации, когда все остальные показатели - рабочий парк, время простоя под грузовыми операциями, время простоя на технических и промежуточных станциях и т.п. - не изменились), зависящий показатель не только связан с независимым, но и и детерминирован им примерно на 80%. (Если взять квадратный корень из коэффициента детерминации, то получим коэффициент корреляции, а он тоже отвечает за связь между переменными). Конечно, если этот пост будет читать математик, то он скажет, что, строго говоря, писать, что показатель А на 80% определяет показатель В - это немного упрощённо и вульгарно, но экономисты, которые не так строго относятся к вот этому всему, зачастую используют именно такую формулировку
     Более того, если мы посмотрим на эти два облака, то можем предположить, что если бы методика учёта скорости не изменилась, то правое облако располагалось примерно там же, где и левое, и что весьма вероятно, что «настоящая» скорость доставки грузовых отправок железнодорожным транспортом, очищенная от «улучшений» была бы примерно на 76-115 км/сутки или на 34-46% ниже той, что сейчас показывают отчёты РЖД, формируемые по новой методике. Но это так, к слову. Пост посвящён не этому. А тому- как регрессии могут нас обманывать. Или - не только регрессии?

P.S. Разумеется (и это подчёркивается во всех учебниках по статистике) само наличие корреляции между двумя показателями совершенно не обязательно свидетельствует о наличии причинно-следственной связи. Например, на два фактора может влиять третий фактор (или группа факторов) и поэтому между факторами может наблюдаться корреляция. А там, где речь идёт об обороте вагона есть много факторов, которые сложным образом влияют друг на друга. Но об этом- в другой раз.
   

Статистика транспорта, Заметки, Занимательная статистика

Previous post Next post
Up