Intro to Statistics, Part 2

May 25, 2020 21:05

В прошлой серии у нас были две прискорбные ситуации, которые, тем не менее, у эмпириков возникают постоянно. В одной верная нулевая гипотеза отвергалась, и мы принимали негодную торговую стратегию или негодное лекарство (типа плацебо) за годное. Это, увы, неизбежно, само тестирование «на 5%ном уровне значимости» по определению означает, что такое будет происходить в 5% случаев, когда нулевая верна. Вторая ситуация была обратная: видно, что торговая стратегия или там лекарство годные, но либо выборка маленькая, либо данные кривоватые, и отвергнуть нулевую не получается. Вот в этом, втором, случае говорят, что у теста не хватает мощности. Силенок ему не хватает нулевую отвергнуть, даже если верна не нулевая, а альтернативная.

Поэтому введем понятие мощности. Это будет вероятность того, что нулевая отвергнется при условии, что альтернативная верна. То есть если мощность теста 60%, то он будет в 40% случаев объявлять годную стратегию/лекарство негодными. Англоязычные люди называют мощность power, а (1-power) называют false negative, а русскоязычные статистики говорят об ошибках первого и второго рода, и я их постоянно путаю, рода эти.

Так вот, вернемся к первой проблеме. Если отвергать нулевую при p-value<0.05, то 5% случаев, когда этого делать не стоило, дадут false positive, негодную вещь назовут годной. Кто уже догадался, почему данную проблему нельзя зарулить почти в ноль, объявив, что отвергать нулевую будем, только если p-value<0.0001? Правильно, у такого теста сразу сильно упадет мощность - у нас будет мало false positives, но овердофига false negatives. Или, если по-русски, тест, который зарежет все плацебо, также зарежет овердофига годных лекарств. И этот выбор всегда стоит и принципиально неустраним: если хочешь, чтобы негодные вещи не получали благословение науки, зарежешь также массу годных, на которых этого благословения не хватит. Если делать более высоким, труднопреодолимым порог значимости (уменьшая p-value, при котором отвергается нулевая гипотеза, и допуская, что в испытаниях может быть и просто бешеный, ураганный фарт, так что не надо быть легковерным) - то тогда понизится мощность теста, перестанешь принимать альтернативную гипотезу, когда надо бы.

Вообще мощность теста - это сильно потаенный параметр. О том, при каком p-value отвергаем нулевую, написано в каждой статье - правда, не написано, сколько раз автор пытался отвергнуть эту нулевую в пользу разных интересных альтернативных гипотез: если один, то «отвергаем при p-value<0.05» означает, что фартануть ему могло с вероятностью 5%, а если сто раз пытался - то вероятность фарта почти 100%.

А вот о мощности теста ни в одной статье не пишут - ее можно посчитать, но там надо предполагать много чего, от нормальности распределения всего подряд до того, насколько на самом деле оцениваемый параметр отличается от значения, предполагаемого нулевой гипотезой. А вот это «на самом деле» - это то, что мы не знаем и знать не можем, знали бы - и не оценивали бы ничего, и не тестировали бы. Но есть верная примета: если ученые мужи заговорили о мощности, то дело дрянь и даже еще хуже. Ничего там, значит, нормально не распределено, оценки поди смещенные, и сейчас ученые мужи начнут гонять левые симуляции, тасовать тыщу раз имеющуюся выборку (называется бутстрап) и принесут поганую оценку мощности. Например, 50% - а чтобы сразу было понятно, насколько это погано, простой арифметический пример.

Допустим, в некоей области науки за отчетный период ученые произвели 2000 негодных идей и 200 годных (это, кстати, еще довольно оптимистичное представление о научном процессе). Если нулевую отвергали, когда p-value<0.05, то 100 из 2000 негодных идей покажутся нам годными (например, 100 из 2000 фуфломицинов признают нормальными лекарствами и официально одобрят). Это неизбывная проблема значимости - мы не умеем тестировать гипотезы, кроме как предполагая, что слишком сильного везения не бывает вовсе. А если мощность нашего теста 50%, то из 200 годных препаратов мы зарежем 100. Итого в научных журналах будет в данном примере опубликовано 200 статистически значимых результатов - скажем, 100 везучих фуфломицинов и 100 годных лекарств (тоже везучих).

С одной стороны, можно заметить, что научный процесс идет: в исходной выборке непроверенных идей было 9%=200/(2000+200) годных, в опубликованных работах годных идей уже 50%. С другой стороны, очевидны издержки - чтобы этого добиться, зарубили 100 годных идей (скажем, 100 полезных лекарств). Ну и если тут читают верящие в непогрешимую науку, и от 50% фуфломицинов, полученных и одобренных научным методом, у них еще не взорвался мозг - заметим, что в отвергнутых наукой средствах находятся, среди прочего, вот эти 100 зарубленных, но годных лекарств. Там же, правда, находятся и 1900 верно зарубленных фуфломицинов - то есть в «ненаучных средствах» годных 5%=100/(100+1900).

А теперь дискотека, то есть репликации. Дотошные ученые мужи в нашем примере решили перепроверить все опубликованное на новых выборках. Из 100 фуфломицинов это пережили только 5 (которым все равно шибко повезло и во второй раз - редко, но бывает), а из годных лекарств - 50 из 100 (мощность 50% поганая штука, я же предупреждал). Теперь годных лекарств в перепроверенных результатах 91%=50/(5+50) - но в абсолютном выражении они снова несут потери, зарезали уже три четверти годных (скажем, лекарство от туберкулеза оставили, лекарство от рака зарезали - ну вот не фартануло). И процент годных «ненаучных средств» возрос - 150/(1995+150)=7%. Ну и вдобавок вышел скандал: почти три четверти, (95+50)/200 опубликованных результатов оказались невоспроизводимыми. И это, заметьте, безо всякого жульничества со стороны авторов, и криминального, и почти безобидного. И да, годных результатов опубликовали 50%, а воспроизводимость (в том числе при тестировании на себе) примерно 25% (точнее, 27.5%) - видите, какая дрянь эта мощность 50%.

О способах борьбы с этой дрянью будет рассказано в заключительной серии, а пока замечу, что способ исчисления доли годных ненаучных средств и научно одобренных фуфломицинов в предыдущем абзаце называется формулой отца Байеса, и для отработки навыков его применения можно почитать вот эту вот заметку про то, как в Силиконовой долине антитела к вирусу искали https://abetterscientist.wordpress.com/2020/04/19/why-i-dont-believe-that-2-5-4-of-people-in-santa-clara-county-have-had-covid19/
Previous post Next post
Up