В критике (
http://freeresearcher.net/?p=7309) есть следующий фрагмент:
“Другой и, может быть, более простой способ посмотреть на значение «p»: если по результатам статистического теста p ≅ 0,05 (или 1/20), это означает, что если вы проведете 20 подобных исследований, вы в среднем в одном из них найдете различия, даже если их там на самом деле нет. А это уже серьезно - в среднем, каждый двадцатый научный результат, в котором разница между группами оценена с p ≅ 0,05, на самом деле ложноположителен. То есть на самом деле разницы, которую «нашли» ученые, может не быть вовсе, а может быть всего лишь результат случайных различий в выборках.”
Как заметил один из комментаторов, Паша Мазин, в этом абзаце заключена ошибка. Эта ошибка никак не влияет на критику, но она важна для правильного понимания статистики, и полезна для развенчивания “всесильности” статистики, которая часто навязывается СМИ. Мне показалось интересным разобрать эту ошибку более подробно, поскольку, как мне кажется, эту вещь даже из ученых мало кто понимает, а те кто понимают -- часто об этом забывают. Как забыл и я, когда писал критику.
Конкретнее, ошибка была допущена в этом фрагменте: “[... ] в среднем, каждый двадцатый научный результат, в котором разница между группами оценена с p ≅ 0,05, на самом деле ложноположителен”. Давайте разберем на примере, почему это не так, а дела обстоят на самом деле ещё хуже.
Представим, что мы проводим 110 статистических тестов, то есть 110 раз тестируем различия между какими-то независимыми парами групп чего-либо. Может быть это сравнения экспрессии белков в клетках легких и печени, или, опять же, количества случаев депрессии в семьях равноправных и традиционных семей -- это не важно. Просто каждое такое статистическое сравнение обозначено квадратом на картинке, всего их 110 штук.
Подпись: Мы собираемся провести 110 статистических тестов, каждый квадратик соответствует одному сравнению.
Не забывайте, что когда мы тестируем различия, мы не можем собрать данные по всем членам каждой группы. Мы только можем сделать какую-то ограниченную выборку. Приводя пример из обсуждаемой статьи, мы не можем собрать данные по всем когда-либо жившим семьям, мы можем лишь использовать ограниченное количество семей, к данным о которых у нас есть доступ. И в такой выборке всегда будет элемент случайности.
Теперь важный момент. Для этого примера мы предположим, что у нас есть суперспособность: мы можем спросить у Вселенной, в каких сравнениях различия присутствуют *на самом деле*. И Вселенная нам отвечает, например, что вот в этих 10 случаях, помеченных синим.
Подпись: Мы ещё не провели тесты, но наша суперспособность сообщила нам, что в 10 сравнениях из 110 различия есть *на самом деле* (синие квадраты), а в остальных их *на самом деле* нет (они остались белыми).
Здесь важно понять: это не результат нашего статистического теста. Это то, что *на самом деле* (в реальных условиях, в лаборатории, мы, конечно, этой информации не имеем -- об этом дальше). Наш статистический тест будет делать ошибки из-за случайной природы выборки, от этого никуда не деться. В этом примере мы как раз и хотим оценить последствия этих ошибок.
Итак, теперь мы наконец проводим наши статистические тесты. В тех 10 случаях, где различия есть *на самом деле*, мы их все обнаружим и нашим тестом, наша “p” будет меньше 0.05. Но мы теституруем не только их, мы тестируем ещё и те группы, где различий *на самом деле* нет. И теперь давайте вспомним определение “p”: “p” говорит нам какой процент сравнений покажет ложноположительные результаты, если различий *на самом деле* нет. У нас осталось 100 сравнений, в которых различий *на самом деле* нет, и, поскольку мы использует критерий p<0.05 для защитывания достоверности, в среднем как раз 5% из этих 100 сравнений будут ложноположительными, то есть 5. Мы выделим эти квадраты красным, это наши “ложноположительные квадраты".
Подпись: Мы провели 110 статистических тестов. Мы обнаружили все случаи, когда различия есть *на самом деле* (синие квадраты). Но среди тех сравнений, где различий *на самом деле* нет, мы также обнаружили 5 у которых p<0.05 (это следует по сути из определения “р”), они обозначены красным и это ложноположительные результаты. Во всех остальных сравнениях мы различий не обнаружили.
Что же получилось в итоге? Мы провели 110 сравнений и нашли p<0.05 в 15 из них. Наша суперспособность говорит нам, что только 10 из этих результатов *на самом деле* различны, а 5 -- ложноположительны. Но в реальности никакой суперспособности у нас нет. Всё что у нас есть -- это 15 значений p<0.05 из 110 сравнений. Получается, что только две трети (10 из 15) наших результатов *на самом деле* правдивы, а оставшаясь треть (5 из 15) -- ложноположительна.
Ошибка, когда люди забывают об эффекте ложноположительных, часто называется “ошибкой априорных вероятностей” (base rate fallacy), потому что процент ложноположительных результатов зависит от вероятности того, что в каждом конкретном случае различия есть *на самом деле*, а это число называют априорной вероятностью (для тех кому интересно, эта идея приходит из т.н. Байесовской математики, где априорные вероятности преобретают очень важный смысл). В нашем примере эта априорная вероятность была 1/11, так как из 110 тестов в 10 были различия *на самом деле*. Если эта вероятность меньше, например, только в 1 из 110 тестов различия есть *на самом деле*, то мы бы обнаружили в среднем 6 “достоверных” результатов, из которых 5 были бы ложноположительными, и наш уровень ложноположительных результатов было бы 80%. И сократить эту ужасную цифру может только меньший порог достоверности для “p”. Например, если бы мы в последнем случае принимали достоверность только при p<0.01, то в среднем находили мы только 1 ложноположительный результат, и процент ложноположительных результатов сократился бы до 50%.
(“Почему бы просто не сделать порог “p” очень-очень маленьким и избавить науку от всех ложноположительных результатов?” -- спросите вы. Вкратце -- если уменьшить порог “р”, то способность детектировать различий там, где они есть *на самом деле* тоже уменьшится.)
Большая проблема заключается в том, что определить априорную вероятность в реальности невозможно. Но мы точно знаем, что она должна быть довольно мала. Представьте, например, сколько химических субстанций, которые теоретически можно проверить в качестве лекарства от, например, цирроза печени, *на самом деле* помогают от цирроза печени. Мы не знаем точно, но очень, очень маленький процент. Именно поэтому важно иметь другие, косвенные указания на то, что потенциальное лекарство, вероятно, помогает. Это увеличивает априорную вероятность.
Кстати, это также причина того, что поголовное тестирование на маркеры рака (ВИЧ, гепатита, подставьте нужное) -- не самая лучшая идея: само заболевание встречается очень редко, и количество ложноположительных результатов будет намного больше реальных результатов.
В итоге, возвращаясь к оригинальной фразе из текста. На самом деле среди “результатов” в научных исследованиях (особенно тех, где достоверность признается на уровне p<0.05) ложноположительных может быть намного больше 5%. Мы не можем оценить это число, поскольку не знаем априорную вероятность, но оно, скорее всего, пугающе велико.