Intro to Statistics, Part 3

May 31, 2020 21:52

В прошлой серии были удивительные истории про мощность теста, то есть вероятность того, что годное лекарство будет-таки признано годным. Прежде чем говорить про то, как увеличить мощность, еще раз про то, почему ее так трудно измерить. Например, вот у вас есть чудо-лекарство от рака, такое, что без него выживаемость 0%, а с ним выживаемость 100% - конечно, любой, даже самый кривой, тест, опознает его как годное (то есть мощность теста будет 100%). Или вот у вас есть слабоэффективное лекарство от насморка, которое сокращает время недомогания на 20%. Вот тут уже мощность будет поганая, мало ли почему люди в ваших выборках (контрольной и подвергнутой лечению) могут выздороветь быстрее или не сообщить об оставшихся симптомах. И что, кто-то еще удивляется, почему врачи хорошо умеют лечить серьезные болезни и ни фига не могут вылечить от простого насморка?

То есть, еще раз, мощность теста нельзя посчитать как функцию только от метода тестирования и размера выборки. Она, собака, зависит от того, отличную идею мы тестируем или так себе. А мы этого не знаем, поэтому и тестируем. Замкнутый круг. И когда идея проваливается, нулевая не отвергается, мы не совсем понимаем, она провалилась от того, что идея была совсем негодной или она была годной, но слабенькой. Отсюда и все мучения.

Поэтому мощность теста можно повысить способами продуктивными: например, придумывать отличные идеи и идеально работающие лекарства, а плохоньких идей и плохоньких лекарств не придумывать. Только так люди не очень-то умеют. Еще можно придумывать новые и клевые тесты с повышенной мощностью, правильные дизайны экспериментов, способы учесть внешние, не относящиеся к делу эффекты. Только с этим у нас в науке тоже как-то так, мнэээ… но мы стараемся.

Еще мощность теста можно повысить, понизив порог, по достижении которого результат считается годным. Так иногда делают, когда выборка маленькая - начинают отвергать нулевую, когда p-value<0.1, даже если оно еще >0.05. Результат понятен - меньше годных лекарств режем, больше фуфломицинов благословляем. Тоже путь, но хотелось бы по-другому.

Ну и есть способ увеличить мощность методом грубой силы - набрать побольше выборку. Я слыхал от физиков, что у них есть правило пяти сигм - то есть p-value, при котором они все же отвергают нулевую, выражается в тысячных долях процента, они негодные идеи ошибочно годными почти не признают. Если они этим не зарезали себе всю мощность в ноль и тем не зарезали все свои гипотезы без исключения, кроме нулевой, то у них небось выборки по миллиону наблюдений. Так, понятно, могут не все: медикам для решающего теста нужны подопытные люди, а люди не электроны, их набирать в выборку дорого, да и жалко. А у экономистов другая проблема: данные стоят не то чтобы дорого, но есть только те данные, которые есть, выборку расширить обычно нельзя вообще - скажем, данные по котировкам российских акций есть только за последние 25 лет, ну вот не было в СССР акций. А в США эти данные покрывают последние лет 90, это считается очень дофига.

Так что приходится нам всем жить с научно одобренными фуфломицинами и зарезанными из-за не 100%ной мощности теста годными идеями. И это, заметьте, относится ко всем наукам, которые чуть сложнее починки часов и потому вынуждены учитывать, что в реале есть сотни факторов, которые невозможно полностью учесть и изолировать, а потому их влияние приходится моделировать как случайную везуху/невезуху.
Previous post Next post
Up