"Культ статистической значимости"

Feb 11, 2024 10:31

В дискуссии к предыдущему посту о статистике комментатор подсказал важную книгу на эту тему - "Культ статистической значимости" (Макклоски, Зилиак, 2008). Отклик на мой пост о книге в фейсбуке меня несколько ошарашил, больше 130 человек запросили подробности. Я приведу центральный аргумент авторов, а затем уже дайджест содержания всей книги.
=============
Допустим, вам позвонила мама. Или подруга. Мамочка в другом смысле. Она хочет похудеть. И поручила вам - рациональному статистику, преподавателю, научному блогеру и веб-серферу - найти и выбрать для нее таблетку для похудания. [недостатки лекарственного подхода к проблеме лишнего веса выносим за скобки - ЕП]
И вот, допустим, вы проводите исследование и после ранжирования различных альтернатив сочли возможным предложить два лекарства для похудения. Мама выберет только одно из них. Две таблетки имеют одинаковые цены и побочные эффекты (сухость во рту, тошнота и т.д.), но отличаются в своей способности cнижать вес и по точности.

Первая таблетка, называемая «Чпок» (Oomph), снизит мамочкин вес в среднем на 10 кг. Фантастика! Но эффект от «Чпок» довольно непредсказуем - разница эффекта у худеющих с его помощью составляет плюс-минус 5 кг. (можно, если хотите, взять "плюс-минус Х-кг" для обозначения вообще величины «стандартной ошибки» или отклонения относительно расчетного среднего или другого значения). Если точнее, то при среднем снижении на 10 кг таблетка для похудения «Чпок» дает маме большой эффект, но с большим разбросом, дисперсией - плюс-минус 5 кг. Может, мамуля похудеет на 5 кг, а может, и в три раза больше. Ведь некоторые люди могут и хотят похудеть на 15 кг сразу. (Если вы сомневаетесь в этой части аргумента, просто спросите свою маму.)

Другое лекарство, которое вы нашли, таблетка «Точность», уменьшит вес в среднем на 2,5 кг. Но оно очень точное - плюс-минус 0,25 кг. У «Точности» такие же, как и у «Чпок», цена и побочные эффекты, но «Точность» намного более уверен в производимом им воздействии. Прекрасно! При выборе «Точности» вероятная ошибка составит плюс-минус всего 250 гр. Очень впечатляет по сравнению с пилюлей «Чпок», во всяком случае, с учетом устройства эксперимента, в котором измерялась величина отклонений по каждому лекарству.

Предположим, что дизайн эксперимента тоже постоянный; пусть правительство совместно с научными журналами совместно оговаривали статистический протокол (как, собственно, часто и происходит), так что дизайн и интерпретация экспериментов при прочих равных аналогичны.

Хорошо. Итак, какую таблетку вы выберете - «Чпок» или «Точность»? Какие таблетки лучше для мамы, чья цель похудеть? Проблема, которую мы описываем, заключается в том, что в науках о жизни и человеке, от агрономии до зоологии, включая саму статистику, в 8-9 из каждых 10 публикаций ученые отдают предпочтение «Точности», а не «Чпоку». От «Американского экономического обозрения» до «Анналов внутренней медицины».

Быть точным, повторим, не так уж и плохо.
Статистическая значимость на некотором выбранном уровне, любимый инструмент любителей точности, сообщает о точности определенного вида соотношения сигнал-шум. Этот коэффициент показывает соотношение музыки, которую вы можете четко слышать, относительно статических помех. Отношение сигнал/шум аналогично коэффициенту Стьюдента. Это полезное соотношение, особенно в тех редких случаях, когда ваша главная проблема - это шум малых выборок, а не неправильная спецификация или другие реальные ошибки. Высокое соотношение сигнал/шум при использовании случайных выборок полезно, если самая большая ваша проблема заключается в том, что выборка слишком мала. Тем не менее, соотношение сигнал/шум само по себе совершенно недостаточная основа для принятия рационального решения.

Отношение сигнал/шум вычисляется путем деления меры того, что вам интересно - звук джазовой пьесы Майлза Дэвиса, потеря жира в организме, урожайность сорта ячменя, влияние процентной ставки на капиталовложения - на меру неопределенности сигнала, например, изменчивость, вызванная статическими помехами на радио, или случайные колебания от небольшой выборки. С таблетками для похудения шум (неопределенность сигнала, вариабельность) - это случайные эффекты, например, разные люди по-разному реагируют на таблетку. В формальных терминах проверки гипотез сигнал - наблюдаемый эффект - обычно сравнивается с «нулевой гипотезой», альтернативным предположением. Нулевая гипотеза - это предположение, которое нужно проверить относительно имеющихся данных. Что позволит найти отличие от тех данных, которые бы согласовались с нулевой гипотезой - если такое отличие есть.

В примере с потерей веса («Точность» против «Чпок») можно выбрать в качестве нулевой гипотезы предположение о буквальном нулевом эффекте, так делают очень часто. То есть в эксперименте проверяется средняя потеря веса у принимающих каждое из этих лекарств против нулевой гипотезы - альтернативного предположения - что таблетка, о которой идет речь, вообще не влияет на вес. Волшебная формула для соотношения сигнал/шум:

(Наблюдаемый эффект − Гипотетический нулевой эффект) / Вариация наблюдаемого эффекта

Поставим числа из примера: (10-0)/5=2 и (2,5 - 0)/0,25=10.
Другими словами, соотношение сигнал/шум для таблетки «Чпок» 2-к-1. А у таблетки «Точность» 10-к-1. У «Точность» сигнал намного яснее, в 5 раз яснее.

Еще раз: маме-то какую таблетку? Вспоминаем, по всем другим свойствам таблетки одинаковы. «Что ж, - говорят наши коллеги, проверяющие статистическую значимость, - таблеткой с наивысшим соотношением сигнал/шум является «Точность». Точность - это то, чего хотят ученые, и то, что нужно таким людям, как твоя мама. Поэтому, конечно же, выбирайте «Точность»». Но точность - точность, обычно определяемая как высокий показатель t или низкое значение p - очевидно, неправильный выбор. Неправильно для маминого плана похудения и неверно для многих других жертв ученого, не считающегося с размером эффекта. Ученый, не видящий размера эффекта, решает, является ли что-то важным или нет - «существует ли эффект», как он выражается, глядя не на величину чего-то, а на то, насколько точно этот эффект существует. Мама хочет похудеть, а не набрать точность. Мама заботится об охвате талии. Ее мало волнует, а может быть, и совсем не волнует распределение вокруг средней величины в гипотетически бесконечно повторяющейся случайной выборке. Решение минимакс (выбор решения среди других исходя из статистического подхода к «функции потерь») очевидно: на любом континенте мира «Чпок» выигрывает у «Точности». Выберите «Чпок». Выбор таблетки похуже, таблетки «Точности», хотя ее значимость статистически выше, на самом деле, максимизирует неудачу - ex ante и реальную неспособность мамы дополнительно похудеть, до 12,25 (15-2,75) кг снижения веса. Вы должны были выбрать «Чпок».

Давайте сделаем пример жестче. Пусть все значения для пилюли «Точность» сохраняются, но поменяем данные для «Чпок». Пусть эффект в ее случае еще неопределеннее. Раньше она снижала вес на 10 кг, с отклонением плюс-минус 5 кг. Предположим, что разброс еще больше, плюс-минус 7 кг. Соотношение сигнал/шум для “Точность” по-прежнему 10,0 к 1,00. А у «Чпок» коэффициент упал до 1,43 к 1,00. По произвольно установленному критерию, по правилу Двух Фишера - эти данные слишком зашумлены. Это дает очень неточную оценку среднего значения для «Чпок» - если ваше представление о «точности» равно расчету случайного отклонения по выборке. 1,43 это намного меньше, чем 1,96. В соответствии с конвенцией значимого порога в 5%, эффект статистически незначим - и потому не подлежит публикации в журнале и одобрению правительства. Но мы снова спрашиваем, какую таблетку выбрать маме, цель которой во всем этом - похудеть, а не подчиниться философии науки, ограниченной установленными правилами? «Чпок» обещает снижение веса от 3 до 17 кг. А «Точность» от 2,25 до 2,75 кг. Несмотря на статистическую незначимость, выбрать надо опять «Чпок».
Previous post Next post
Up