"Культ статистической значимости" - общий дайджест

Feb 12, 2024 14:31

Как обещал, публикую краткое содержание книги "Культ статистической значимости" (Макклоски, Зилиак, 2008).
Перевод известно чей. Раньше я запостил центральный для книги аргумент авторов.

=====================
0. Важность проблемы
Для научных дисциплин свойственен вопрос «какого размера? сколько?». Во многих науках о жизни и человеке этот вопрос оказался заменен на вопрос "существует ли?/так или не так?", который характерен для философских дисциплин. Эта подмена приводит к потере рабочих мест, справедливости, прибыли, качества окружающей среды и даже жизни. Имя этой подмены "статистическая значимость" - и это качественное, философское правило, которое заменило количественную, научную величину и оценку.


1. На диете “значимости” и случай с Vioxx
Со времен Фишера (1890-1962) науки, поставившие во главу угла статистическую значимость, злоупотребляют ею. Они потеряли интерес к оценке и тестированию фактических эффектов лекарств, удобрений или экономической политики. Большая проблема возникла, когда Фишер проигнорировал вопрос "размер/сколько", который был центральным для статистического теста, изобретенного Уильямом Госсетом (1876-1937), т.н. t Стьюдента. Фишер заменил центральный вопрос теста на качественный вопрос о "существовании" эффекта, под которым он подразумевал "низкую ошибку выборки по произвольному стандарту вариативности". После Фишера многие науки забыли о том, что в статистике называется "стратегией минимакса" или "функцией потерь". Вместо этого они ослепли по отношению к размеру и стремятся только к точности выборки. И в результате они утверждают, что точность выборки - это и есть нужный «чпок-эффект», величина, практическая значимость. Полосатые киты Антарктиды, а также пациенты и производители лекарства Vioxx - вот лишь некоторые из недавних жертв этого странного ритуала.

2. Статистическая значимость слепа к размеру
Отчаянно рискуя, перебегать оживленную улицу, чтобы спасти своего ребенка от верной смерти, - достойный риск. А перебегать с тем же риском дорогу, чтобы взять дополнительный пакетик горчицы для сосиски, - нет. Большинство людей согласится: потенциальные потери, если вы не успеете спасти ребенка, больше, чем потенциальные потери, если останетесь без горчицы. Но большинство ученых в экономике, медицине и других прикладных для статистики областях, похоже, не понимают этой разницы. Если они обучались только фишеровским методам (а почти всех их учили именно так), они ищут только вероятность удачного перехода улицы - вероятность выше, чем 99% или 95% или 90%, и это в ограниченных рамках выборки - игнорируя (в любой финансовой или духовной валюте) ценность приза и ожидаемых затрат на его получение. В науках о жизни и человеке науках большинство ученых смотрят на мир с тем, что мы окрестили "слепым к размеру взглядом статистической значимости".

3. Что говорят безразмерные ученые в защиту
Слепые к размеру ученые ведут себя так, будто считают, что размер эффекта не имеет значения. На самом деле, в глубине души, их волнует размер, величина, чпок-эффект (“oomph”). Но, как ни странно, они не измеряют его. Они подставляют "значимость", измеренную по методу Фишера. Затем они делают еще один шаг вперед, ограничивая свой поиск возможных ошибок только ошибками выборки. А затем они делают шаг еще дальше, сводя все ошибки выборки к одному виду ошибки - ошибке чрезмерного скептицизма, "ошибка первого типа". Их главная линия защиты этой удивительной и ненаучной процедуры заключается в том, что, в конце концов, "статистическая значимость", которую они вычислили, является "объективной". Но ведь и объективны и цифры в телефонном справочнике, и вращение колеса рулетки. Они не более релевантны для задачи выяснения размеров и свойств вирусов или звездных скоплений, или доходности инвестиций, чем статистическая значимость. Короче, ученые-статистики после Фишера не тестируют и не оценивают, действительно, по-настоящему. Они "тоценивают", вычисляют t.

4. Практика получше: бета-"Важность" против альфа-"Значимости"
Самый популярный тест был изобретен Госсетом, более известным под псевдонимом "Студент". Он был химиком и пивоваром ирландской компании Гиннесс. Госсет не считал свой тест очень важным для своей главной цели, которая заключалась, конечно же, в приготовлении хорошего пива по хорошей цене. Тест, предупредил Госсет с самого начала, не имеет отношения к тому, что важно по существу. Он не позволяет измерить то, что Госсет назвал "реальной ошибкой" и "материальной выгодой" - два термина, которые стоит возродить в современной статистической практике. Но Карл Пирсон и особенно удивительный Рональд Фишер не прислушались. В двух великих книгах, написанных и пересмотренных в 1920-х и 1930-х годов, Фишер ввел Правило Двух: если результат отклоняется от предполагаемой гипотезы на два или более стандартных отклонения от вариации своей собственной выборки, независимо от размера выгоды и ожидаемых затрат на ее получение, то он должен называться "значимым" научным открытием. Если нет, то нет. Фишер сказал ученым, страдающим страхом перед субъективностью, что, если они хотят возвести свои исследования "в ранг науки", надо обязательно использовать его правило. Позже он призвал игнорировать подходы «размер имеет значение/сколько?», предлагавшиеся Госсетом, Нейманом, Эгоном Пирсоном, Уолдом, и другими. Большинство ученых-статистиков прислушались к Фишеру.

5-6-7. Многое может пойти не так при использовании тестов на значимость в экономике
Мы и сами в нашей родной области знаний, экономике, долгое время были очарованы фишеровской значимостью и Правилом Двух отклонений. Но в конце концов мы задались вопросом, почему нельзя говорить об интеграции мировых рынков, пока корреляция цен в стране и за рубежом не окажется «в пределах двух стандартных отклонений от 1,0 в выборке». И нам показалось странным, что Министерство труда США отказывалось обсуждать безработицу среди чернокожих подростков в 30 или 40 процентов, потому что этот уровень, по очерченному определению Фишера, был «незначимым». Нам много раз, хоть и не верилось, говорили, что подобные ошибки при использовании теста Госсета в экономике редки. И в 1990-х годах мы разработали вопросник для проверки экономических статей на экономическую, а не статистическую значимость. Мы применили его к поведению наших ученых собратьев в 1980-е годы.

Мы не изучали научные труды дилетантов. Напротив, мы изучали "Американское экономическое обозрение" (AER), ведущий экономический журнал. C вопросником в руках мы прочитали все опубликованные в нем статьи, в которых использовался тест на статистическую значимость, с января 1980 года по декабрь 1989 года. Как мы и ожидали, в 1980-х гг. более 70 процентов статей совершили существенную ошибку Фишера.

Мы опубликовали статью с выводами в 1996 году. Некоторые из наших коллег ответили: "В старые времена люди совершали такую ошибку, но мы, современные утонченные люди, этого не делаем". Поэтому в 2004 году мы опубликовали повторное исследование, прочитав все статьи, опубликованные в AER в следующем десятилетии, в 1990-х годах. К сожалению, наши коллеги снова ошиблись. С 1980-х годов практика в важных аспектах стала хуже, а не лучше. Примерно в 80 процентах статей применяли ошибочную подстановку Фишера, не исследуя величины своих результатов. И менее 10 процентов продемонстрировали полноценный интерес к реальному эффекту, размеру «чпок». Иными словами, в ведущем экономическом журнале девять из десяти статей 1990-х годов вели себя так, будто размер не имеет значения для решения вопроса о том, является ли число большим или маленьким, как будто неважно, эффект достаточно большой или маленький. Звездочка значимости, мерцающая звезда *, стала тотемом, которые поклоняются верующие экономисты.

8-9-10 Много в экономике - это сколько?
Вредит ли глобализация бедным, увеличивает ли минимальная зарплата безработицу, вызывают ли мировые деньги инфляцию, подрывают ли государственные выплаты самодостаточность? Такие научные вопросы всегда имеют экономическое значение. Насколько это вредит, увеличивает, вызывает, подрывает? Размер имеет значение. Мы стремимся узнать «чпок», реальный эффект. Но это не то, что можно найти с помощью статистических методов современной экономической науки.

Экономические исследования, слепые к размеру эффекта, привели к ошибочным выводам в таких областях как паритет покупательной способности, программы по борьбе с безработицей, монетарная политика, рациональная наркотическая зависимость и минимальная заработная плате. По правде говоря, применяемая практика опорочила большинство эконометрических выводов с 1920-х годов и практически все из них, с тех пор как ошибка статистической значимости была институционализирована в 1940-х годах. Выводы исследований по фишеровским критериям иногда оказываются верными. Но только случайно.

Такое состояние экономической науки подпитывается учебниками. Не надо винить младший уровень преподавательского состава, лучше посмотрите на табель успеваемости их собственных учителей и редакторов, и рецензентов. Они игнорируют страдающие стоны мудрецов экономической профессии. Еще в 1885 прозвучало предупреждение экономиста Эджуорта, что точность выборки - это не то же самое, что искомый в исследованиях эффект, «чпок». Оно было проигнорировано, как проигнорировали и другие предупреждения.

11-12-13 Рост значимости в психологии
Что же произошло в других научных областях, например, в психологии? То же самое. В 1919 году Эдвин Боринг, известный гарвардский экспериментатор, предупредил своих коллег-психологов о путанице между так называемой статистической и фактической значимостью. Но увы. Философия «5 процентов» Фишера была в итоге кодифицирована в Руководстве по публикациям Американской психологической ассоциации. Руководство продиктовало этот ошибочный метод по всему миру тысячам академических журналов по психологии, образованию и смежным наукам, включая криминалистику.

"Мощность" - это забытая статистическая компенсация "ошибки первого рода" при проверке значимости нулевой гипотезы. Мощность приписывает вероятность "второму виду ошибки" - неоправданной доверчивости. Ведущие журналы по психометрии изучили свою мощность с помощью профессионалов в этой области. Оказалось, что в эпоху Фишера мощность большинства психологических научных исследований стала до неприличия низкой или, в более чем нескольких случаях, запредельно "высокой" - как выяснилось в ходе исследования, включавшего семьдесят тысяч наблюдений. Как и экономисты, психологи создали фетиш из оценки статистической t-значимости и отошли от мощных показателей эффекта.

Психологи и экономисты уже несколько десятилетий говорят, что люди "обучаются по Баейсу" или что люди это "детекторы сигналов Неймана-Пирсона". Мы учимся, осуществляя действия и оставаясь внимательными к сигналам. Но когда психологи и другие специалисты предлагают проверить эти самые гипотезы, они используют правило Двух Фишера. То есть они стирают свое собственное обучение и свою способность обнаруживать сигналы. Они ищут основание в попперовском фальсификационизме, философская сомнительность которого давно известна. То, что в логике называется ошибкой "утверждения по следствию"(*), грубо ввело в заблуждение психологию и другие ослепшие к размеру науки. Примером может служить гипердиагностика шизофрении.

[* ошибка утверждения по следствию - «Если эта теория верна, мы будем наблюдать X. Мы наблюдаем X. Следовательно, эта теория верна». То есть «У слона четыре ноги. У моего кота четыре ноги. Мой кот - слон.» - прим. ЕП]

14-15-16 Медицина ищет волшебную таблетку

Мы обнаружили, что медицина и эпидемиология также наносят ущерб с помощью теста Стьюдента. И возможно, с точки зрения людей, больший, чем экономика и психология. В медицине шкала, по которой измеряется эффект, очень ясна: жизнь или смерть. Сердечно-сосудистая эпидемиология, например, браво сочетает в себе ошибку «утверждения по следствию» и слепой к размеру подход статистической значимости. Вашей маме, с ее слабым сердцем, надо знать эффективность лечения. Медицинские эксперты, тестирующие t-значимость, ничего не говорят об этом.

Некоторые редакторы медицинских журналов боролись против 5-процентной философии. Но даже New England Journal of Medicine не смог привести медицинские исследования назад к Госсету и земле обетованной настоящей науки. Не смог этого сделать и Международный комитет редакторов медицинских журналов, куда входят сотни журналов по всему миру. Кеннет Ротман, основоположник эпидемиологии, заставил внести изменения в своем журнале. Но только в нем. Десятки лет назад немногие здравомыслящие люди в области образования, экологии и социологии инициировали «спор о тесте на статистическую значимость». Но грантодатели, рецензенты журналов и комитеты, решающие, кто будет профессором в области статистики верили в то, что вероятностные пространства могут рассудить - путем «суждения» лишь о том, что p < 0,05 «лучше» для переменной X, чем p < 0,11 для переменной Y. Это не так. Это зависит от «чпок» X и Y, от величины воздействия.

И в результате из-за стандартной ошибки Фишера вы получаете опасное лекарство, а в лучшем лекарстве вам отказывают. По тем же причинам страдает изучение наркозависимости и санитария. Например, вспышка сальмонеллы в Южной Каролине была изучена с помощью статистической значимости. В результате значительная часть вспышки была проигнорирована.

В другом примере ассоциация онкологов пришла к редкому консенсусу по поводу величины эффекта: десять различных исследований согласились, что данное лекарство может увеличить выживаемость пациентов на 12 процентов. Одиннадцатое исследование, опубликованное в журнале New England Journal of Medicine, отвергло этот препарат. Отклонение было основано не на величине эффекта, ограниченного доверительными интервалами, основанными на том, что Госсет назвал «реальной» ошибкой, но только по одному лишь p-значению. Авторы, следуя Фишеру, пришли к выводу, что нет «клинически значимого улучшения» выживаемости.

18-23
[Эти главы книги посвящены истории устойчивой, но ошибочной практики, с описанием роли Эджворта, Карла Пирсона, Госсета-Стьюдента, Фишера; и скорее описывают социальную динамику в науке.]

24. Что делать?
Надо вернуться в науке к размеру эффекта, к серьезному рассмотрению «реальной ошибки». Это труднее, чем процедуры Фишера, и не может быть сведено к механическим действиям. Насколько размер наблюдаемого эффекта БОЛЬШОЙ - это и есть большой вопрос, необходимый в любой науке, и на него нельзя ответить без учета контекста. Но его достоинство, по крайней мере, в том, что этот вопрос имеет отношение к науке, бизнесу и самой жизни. Фишеровские процедуры таковыми не являются.
==============
Previous post Next post
Up