Проверка статистической гипотезы. Доверительные интервалы: tairyfails

tairyfails

Проверка статистической гипотезы. Доверительные интервалы

Nov 20, 2018 23:41

Статистические методы нужны там, где на результаты измерений, испытаний, наблюдений влияют случайные факторы. На практике это не всегда необходимо. Некоторые величины можно определить достаточно точно. Например, когда мы измеряем вес предмета, или длину отрезка. В этих измерениях вклад случайных факторов удаётся уменьшить настолько, что точность, которая нас устраивает, заметно его превышает.

Но часто мы имеем дело с измерениями, где результат “плавает”. Рассмотрим такую ситуацию. Вы работаете над аппаратом, и в нем часто перегорает одна из лампочек. Вы думаете, что, возможно, проблема в том, что слишком высока температура в зоне расположения лампы. Вы решаете переместить лампу в другое место крепления, где охлаждение лучше. Вы проводите по 15 испытаний для каждого из двух вариантов крепления, заставив в каждом испытании аппарат проработать один и тот же период времени T. В первом варианте лампа перегорела в 11 случаях из 15. Во втором - в 4 из 15. Следует ли заключить из этого, что место расположения влияет?

На самом деле, в подобной ситуации у вас не будет много времени для раздумий над этими испытаниями. Ведь на очереди другие гипотезы. Возможно, уровень питающего напряжения слишком высок. Возможно, при установке лампа повреждается. Будет много факторов, которые, гипотетически, могут влиять. И важно знать простые рецепты, позволяющие тестировать эти гипотезы.

Модельная задача - тест монеты на «справедливость»

Но прежде чем разобраться с описанной ситуацией, рассмотрим максимально упрощённую проблему. Допустим, я ставлю вам такую задачу - есть монета и я хочу понять, является ли она справедливой, т.е. можно ли ей честно играть в орел-решку.

Давайте, прежде всего, перепишем задачу на языке физики и математики. То, что я выше назвал “формулировкой задачи” это описание проблемы на языке житейской логики, это ненадёжная почва, и полезно сразу постараться дать более физико-математическое описание. Например: “можно ли считать бросание монету процессом, результат которого - случайная величина, с равной вероятностью орел или решка?”.

Видимо, следует провести с монетой некие испытания. Я ограничу вас бросанием монеты,хотя можно придумать и другие подходы. Итак, мы бросаем монету N раз, выпало K решек и N-K орлов. Например, вы сделали 30 бросков, из них решек было 13. Как трактовать результаты? Доказали ли вы, что монета справедлива? А может быть, наоборот, вы получили свидетельство того, что вероятность отклоняется от 50%? Нужно придумать процедуру.

Например, можно посчитать вероятность получения 13 решек при 30 бросках справедливой монеты, и если эта вероятность гораздо меньше 100%, сделать вывод о том, что если бы монета была справедливая, такой исход мы вряд ли бы получили. Но подобный критерий сложно сформулировать как универсальный.

Чтобы получить определённую процедуру, предположим, что конкретная математическая модель монеты верна. А именно, мы говорим: предположим, гипотеза верна и монета справедлива. Т.е. вероятность выпадения решки равна 0.5. Тогда мы имеем случайную величину с определенными свойствами и можем использовать методы статистики для вычисления вероятности тех или иных событий. А пока мы находимся в ситуации неопределённости - “может, монета справедлива, а может нет” - у нас нет математического объекта, с которым можно проводить операции.

Итак, мы предположили, что монета справедлива: а именно - результаты её бросков независимы, вероятности выпадения орла и решки равны 0,5. Давайте посчитаем вероятности получить то или иное количество выпавших решек в серии из N бросков.

Можно, конечно, посмотреть формулу в курсе комбинаторики, но давайте посмотрим, как можно рассуждать, если нужно быстро вспомнить её. В серии N=1 все тривиально - возможно два исхода: 0 решек или 1 решка. Вероятности - по 0.5. N=2. Исхода уже три, может выпасть 0, 1 или 2 решки. В каждом из двух бросков выпадает равновероятно орёл или решка, броски независимы, поэтому каждая из 2*2 комбинаций равновероятна: оо, ор, ро, рр. Как видно две из них дают 1 решку, одна 0 решек и одна - 2 решки. Получаем вероятности P{0 решек в 2 бросках}=¼, P{1 решка в 2 бросках}=2/4, P{2 решки в 2 бросках}=¼. При N=3 число равновероятных комбинаций снова удваивается, их 8 - ооо, оор, оро, орр, роо, рор, рро, ррр. Видим, что одна комбинация даёт ноль решек, по три комбинации - одну или две решки, и одна - три решки. Получаем вероятности: P{0 в 3}=⅛, P{1 в 3}=⅜, P{2 в 3}=⅜, P{3 в 3}=⅛. Здесь уже можно увидеть закономерность. В знаменателе формулы стоит 2^N. А в числителе - элементы треугольника Паскаля, они же биномиальные коэффициенты C(n, m) .

1

1 1

1 2 1

1 3 3 1

. . .

Почему они? В треугольнике Паскаля каждый элемент равен сумме верхних соседей (это одно из возможных определений этого ряда чисел). А в нашей задаче комбинацию с М решками в N бросках можно получить из комбинаций N-1 бросков двумя способами: взять комбинацию с М решками из N-1 бросков, и тогда в Nм броске нужен обязательно орёл. Или взять комбинацию М-1 решек из N-1 бросков, и тогда в Nм броске нужна решка. Как видно, это как раз рекурсивное правило треугольника Паскаля.

Таким образом:

P{m решек в n бросках} = С(n, m) / 2^n (1)

Если мы приняли гипотезу о “справедливой” монете, мы можем посчитать распределение результатов эксперимента с серией из N бросков. В вашем случае N=30. Теперь давайте посмотрим возможные процедуры тестирования гипотезы.

Посчитать вероятность получения выпавшего в опыте числа решек. Проблема этого теста видна, если вычислить вероятность выпадения 15 решек из 30 - это 14%, довольно немного. При этом здравый смысл подсказывает, что такой результат эксперимента прекрасно согласуется с гипотезой о справедливости монеты. Можно заметить, что чем больше число бросков N, тем меньше вероятность получить ровно N/2 решек. Р{1 решка при 2 бросках} = 50%; Р{5 решек при 10 бросках} = 25%. Р{50 решек при 100 бросках} = 8%. За счёт того, что вариантов исходов становится больше, вероятность конкретного исхода падает.

Теперь посмотрим второй вариант: посчитать среднеквадратичное отклонение для данного распределения вероятности и посмотреть, попадает ли наш эксперимент “внутрь” этого диапазона. Здесь вопрос - почему именно сигма? Почему не два сигма? Или пол-сигма?

Мы видим, что вычислять вероятность конкретного исхода малопродуктивно - непонятно, с чем её сравнивать. Зайдём с другой стороны - какой исход из общих соображений точно согласуется с гипотезой (о справедливой монете)? Для 30 бросков это 15 решек. Это наиболее вероятный результат. Чем дальше результат эксперимента от 15, тем больше сомнений в справедливости гипотезы (хотя ещё раз отметим: тем не менее в принципе все эти исходы остаются вероятными).

Теперь мы сделаем следующее. Мы построим вправо и влево от наиболее вероятного исхода диапазоны так, чтобы суммарная вероятность получить исход из данного диапазона была 99% (эти исходы я выделил зелёным). “за бортом” останутся максимально отстоящие от наиболее вероятного исходы, я их выделил красным. Ясно, что вероятность получить один из этих “красных” исходов - 100%-99%=1%. И проверка на согласие эксперимента и гипотезы будет состоять в следующем - если мы получили исход из зелёного интервала, мы считаем гипотезу согласующейся с экспериментом. Если из красного - не согласующейся.

Рис. 1. Разделение возможных исходов опыта на согласующиеся и не согласующиеся со статистической гипотезой. Синим показано распределение вероятностей, которое следует из статистической гипотезы «вероятность выпадения орла 50%, решки 50%».

Есть один занудный, но практически важный момент - наше распределение дискретно, и ровно 99% вероятности для конкретного диапазона не получится. По смыслу критерия зелёный интервал - это наиболее широкий симметричный интервал, суммарная вероятность исходов внутри которого меньше либо равна 99%.

Вероятность получить один из красных исходов 1%. Т.е. иногда они будут выпадать. Но если в двух экспериментах подряд выпал красный исход, а эксперименты независимые, вероятность такого совпадения (если монета справедлива) уже 0,01%. В такой ситуации разумнее кажется предположение о том, что мы неверно выбрали гипотезу. Но при этом важно понимать, что абсолютной уверенности в правильности гипотезы мы никогда не достигнем. Новые эксперименты будут только увеличивать степень нашей уверенности в гипотезе.

Это вообще свойство статистических гипотез - они не проверяемы с абсолютной достоверностью. Сам смысл вероятности таков, что измерить её в прямом смысле слова нельзя. Если у вас выпало 70 решек из 100, разумно предположить, что вероятность выпадения решки 70%. Но в принципе такой результат можно получить и при вероятности 50%, и при вероятности 20%.

Теперь обратим внимание, что в определённый момент мы ввели вероятность 99%. Величину, дополняющую её до 100%, называют уровнем значимости P. Например, пишут P=0.01.

Почему я взял 1%? Можно ли взять 3%? 10%? Если P будет слишком большим, тест справедливой монеты “на справедливость” часто будет давать отрицательный результат, поскольку “красная” зона станет широкой, и результат эксперимента будет часто туда попадать (примерно в 1 случае из 10 для P=10%). Ясно, что это плохо. Тогда, возможно, нужно выбирать P как можно меньше? Какая проблема возникнет, если P будет слишком маленьким?

Проблема в том, что если Р будет слишком маленьким, “плохая монета” будет “проходить” тест. Как же быть?

Я нарисую следующую картинку (рис. 2) - у нас могут быть справедливые и несправедливые монеты. И для каждой возможно два результата теста на справедливость - “прошла” или “не прошла”. Очевидно, что две ситуации, отмеченные галочкой нас устраивают, а две, отмеченные крестиком, нет.

Справедливая монета (вероятность выпадения орла и решки 50% в любом броске)

Несправедливая монета (любая другая)

Прошла тест

V

вероятность = 1-P

X

(«ложное срабатывание»)

Вероятность растет с уменьшением P.

Не прошла тест

X

вероятность = P

(«пропуск»)

V

Рис. 2. Два возможных типа ошибок при тестировании статистической гипотезы на соответствие конкретной выборке, и их связь с уровнем значимости P.

Из каких всё-таки соображений выбирать Р? Это зависит от того, какая из двух нежелательных ситуаций - крестиков вас устраивает. Давайте их подробнее рассмотрим.

Есть ситуация “справедливая монета не прошла тест”. Назовём её “пропуск”. Вероятность такой ситуации равна уровню доверия. Т. е. если мы выбрали уровень доверия Р=0.05, то примерно один раз из 20 тест справедливой монеты “на справедливость” будет давать отрицательный результат.

Другая нежелательно ситуация - “несправедливая монета” прошла тест. Назовём её “ложное срабатывание”. Оценить вероятность этой ситуации сложнее, поскольку “несправедливая монета” - очень широкий класс объектов. Что это? Просто монета со смещенным центром масс и, скажем, Р=40%? Или более сложный объект, броски которого, скажем, зависят от предыстории?

Возьмём для примера “жёсткий” вариант - наша “несправедливая” монета на обеих сторонах имеет орла. Наверное, сложно придумать более несправедливый случай. Назовём такую монету “двуличной”, чтобы выделить её среди других вариантов несправедливых монет. У двуличной монеты вероятность выпадения решки в любом броске Рр=0. Как такая монета будет проходить тест?

Пусть мы провели N бросков. Получили, естественно, ноль решек. Теперь забудем о том, что мы знаем о “несправедливости” этой монеты и реализуем введенную нами ранее процедуру теста. Что мы должны формально сделать? Предположим, гипотеза о справедливости монеты верна. Тогда наиболее вероятный исход - N/2. Подсчитаем вероятность всех исходов, отличающиеся от наиболее вероятного так же или больше, чем результат опыта. Ну, результат опыта отличается от наиболее вероятного дальше некуда - мы получили 0. Есть только ещё один исход, отличающийся так же - это N. Итак, мы должны просуммировать вероятности получить 0 или N решек при броске справедливой монеты и сравнить с уровнем доверия. Воспользуемся формулой (1), которую мы вывели выше - Р{0 или N решек} = 0.5^N + 0.5^N = 2*0.5^N = 0.5^(N-1). Отсюда следует неравенство: 0.5^(N-1)>P.

Итак, критерий прохождения теста «двуличной монетой»: N<1+log0.5 P. Таким образом, здесь мы получили условие на число бросков: если оно слишком мало, двуличная монета “обманет” тест. Необходимое число бросков растёт, если уровень доверия уменьшается. Так, если P=0.25, нам достаточно 2 бросков, чтобы “поймать” “двуличную” монету. Если P=0.01, понадобится 7 бросков. Если Р=0.001, понадобится 10 бросков. Чем меньше Р, тем больше нужно сделать бросков, чтобы тест “отсеивал” несправедливые монеты.

Это оценка для одного характерного случая. Ясно, что в случае несимметричной монеты (например, с вероятностью выпадения решки Pp=40%) понадобится гораздо больше бросков, чтобы получить отрицательный результат теста. Ситуация усложнится, поскольку результат теста станет случайной величиной (двуличная монета - предельный случай, для которой результат теста предопределен, поскольку сам объект ведёт себя детерминированно). Но качественно тенденция будет так же.

Итак, резюмируем.

Мы ввели процедуру проверки статистической гипотезы. В процессе проверки мы отвечаем на вопрос: «Согласуется ли результат опыта с данной статической гипотезой?» Мы не можем однозначно определить при помощи опыта, что гипотеза верна. Общая схема процедуры проверки статистической гипотезы:

1. Формулируем статистическую гипотезу - описываем поведение нашего объекта как случайную величину. Пример статистической гипотезы - «монета при любом броске дает с вероятностью 50% орла, с вероятностью 50% решку».
2. Исходя из статистической гипотезы рассчитываем вероятности всевозможных исходов (как на рис. 1)

3. Находим наиболее вероятный исход - исход, вероятность которого максимальна (показан красной стрелкой на рис. 1). Считается, что этот исход в любом случае согласуется с гипотезой.

4. Находим диапазон исходов, центр которого соответствует наиболее вероятному исходу, а ширина такова (зеленый диапазон на рис. 1), что суммарная вероятность этих исходов равна 1-P, здесь P - уровень значимости.
5.Если результат эксперимента попадает в этот диапазон, эксперимент согласуется с гипотезой.

Если зафиксировать число бросков и варьировать уровень значимости Р.

· При уменьшении уровня значимости Р растёт вероятность ложного срабатывания (более строго - расширяется класс объектов, для которых очень вероятно ложное срабатывание).

· При увеличении Р растёт вероятность пропуска. Собственно, само Р и можно трактовать как вероятность пропуска.

Отсюда видно, что универсального рецепта нет. Как же сделать выбор? Можно подойти следующим образом к этой проблеме - попытаться оценить, что для вас страшнее - “пропуск” или “ложное срабатывание”? Часто это легко понять. Возьмём конкретный пример: пусть речь идёт о тестировании на наличие опасных объектов на рамке в метро или аэропорту. Что в данном случае менее желательно? Ясно, что пропуск: если опасный объект был, а рамка его не засекла, это проблема. А нежелательное срабатывание - не страшно; если рамка сработала, а опасных вещей нет, меня досмотрели и отпустили, я только потерял время. А как придумать обратный пример, когда ложное срабатывание неприемлемо?

Например, если в той же ситуации рамка будет предпринимать активные действия. Например, стрелять на поражение автоматически.
Доверительные интервалы

Теперь вернёмся к постановке проблемы о справедливой монете. Мы сформулировали постановку задачи так: проверить, совместимы ли результаты испытаний с гипотезой о справедливости монеты (о том, что с равной вероятностью выпадают орёл и решка). Но ведь идеальных монет не существует. Ясно, что у реальной монеты вероятность решки может немного отличаться от 50%, но если отличие мало, то это допустимо. С другой стороны, хочется гарантировать, что это отличие мало. Понимая это, мы хотим зафиксировать точность. Допустим, мы хотим проверить, что вероятность решки находится в интервале 0.49<=Рр<=0.51. Как это сделать? Необходимый инструмент у нас уже есть - процедура тестирования статистической гипотезы.

Мы можем проверить, совместим ли эксперимент с гипотезой о Рр=0.4, 0.41, 0.42…. 0.59,0.6. И убедиться, что только 0.5 и, возможно 0.49 или 0.51 совместимы с результатом опыта, а все остальные несовместимы. Потому что если, скажем, Рр=0.46 совместима с результатом опыта, то правдоподобна гипотеза о том, что вероятность решки 46%; а значит, у нас нет уверенности, что вероятность решки лежит в интервале [0.49; 0.51].

Тестируя гипотезу за гипотезой с маленьким шагом по Рр, мы получаем диапазон значений Рр, которые согласуются с результатом опыта. Этот диапазон называется доверительным интервалом. Поскольку идея доверительного интервала базируется на идее тестирования статистической гипотезы, величина интервала зависит от уровня значимости. Увеличение уровня значимости сужает интервал. Увеличивая число опытов, мы сужаем доверительный интервал.

Теперь мы можем оценить вероятность не просто числом, а диапазоном.

Вернёмся к проблеме, сформулированной в начале. Допустим, в разрабатываемом аппарате часто перегорает лампочка. У вас есть несколько гипотез о причине этой проблемы. Возможно, слишком высока температура в зоне расположения лампы. Возможно, уровень питающего напряжения слишком высок. Возможно, при установке лампа повреждается. Вы решаете переместить лампу в другое место крепления, где охлаждение лучше. Вы проводите по 15 испытаний для каждого из двух вариантов крепления, заставив в каждом испытании аппарат проработать один и тот же период времени T. В первом варианте лампа перегорела в 11 случаях из 15. Во втором - в 4 из 15. Следует ли заключить из этого, что место расположения влияет?

Ответ на вопрос такого типа можно получить при помощи доверительных интервалов. Сформулируем статистическую гипотезу так. Результаты испытания (перегорела лампа или нет за время T) независимы друг о друга, в каждом случае вероятность того что лампа перегорела равна Рп. Мы не знаем ещё величину вероятности. Тогда исходя из результата серии испытаний, мы можем построить доверительный интервал вероятности перегорания лампы. Построим отдельно доверительные интервалы для каждого из двух положений лампы. Тут возможно два случая - либо интервалы имеют области пересечения, либо нет (рис. 3).

Рис. 3. При помощи доверительных интервалов можно оценить статистическую значимость различий результатов опытов.

Если интервалы не имеют области пересечения, то нет такой вероятности, которая согласуется с результатами обеих серий. Если же область пересечения есть, то есть значения вероятности, которые согласуются и с одной, и с другой серией. И вполне возможно, что вероятность перегорания лампы была все время одинаковой. Просто в силу случайного характера процесса, результаты испытаний оказались разными.

Если доверительные интервалы для вероятности перегорания лампы в условиях А и В не пересекаются, можно говорить о том, что выявленное различие статистически значимо. Таким образом, доверительные интервалы позволяют в некоторых ситуациях определить, влияют ли те или иные параметры на вероятность положительного исхода испытания.

статистика, наука, много букв