Сегодня началось испытание третьей стадии для вакцины от Модерны. В тему - интересная картинка о том, когда будут проходить подобные испытания для некоторых других вакцин, выбранных правительством США:
Если у вас всего 15 тысяч человек, а вероятность побочного действия порядка одной 15 тысячной - у вас большие шансы просто не увидеть это побочное действие. Ну не попался вам такой человек. Поэтому на пальцах - если вы хотите ловить явление имеющее частоту ниже, нужно увеличивать выборку. Confidence interval дает вашу уверенность в среднем (ну или для какой статистики вы его считаете). Этот интервал, при тестировании бесконечной популяции даст вам вообще точку. В то же время, вы сами понимаете, что если вы хотите описать всю популяцию, то вам нужен не этот интервал - ведь чем больше людей вы возьмете, тем более шансов у вас увидеть ответ ещё расширяющий разнообразие. Если вы хотите интервалом оценить реакцию, скажем, 95% наблюдавшейся популяции вам нужен prediction interval. Это, конечно, тип confidence interval, но очень своеобразный и про него обычно стараются донести что это совсем другое дело. Редкие риски отлавливают и вовсе не таким интервалом. По сути, речь идет о такой конструкции: представьте что существует 100 популяций людей у каждой очень своеобразная реация на вирус (их средние распределены не гаусово относительно общепопуляционного среднего). Если одна из этих популяций очень маленькая в процентном отношении, то набрав 15 тысяч тестов вы имеете шанс упустить всю эту популяцию целиком. Её предсказать с помощью prediction interval тяжело просто потому что prediction interval должен исходить из того что те кого ещё не наблюдали по сути похожи на тех кого уже увидели. И если это предположение неверно - интервал будет ошибочен методологически. А затем когда вы начнете давать вакцину миллионам начнете замечать эту маленькую популяцию.
P-value - это кондиционная вероятность. Оно не добавляет информации по сравнению с confidence interval. Даже CI нужно понимать, но для того чтобы переходить от этого интервала к вероятностям нужно включать priors. Что является палкой о двух концах, потому что аргументировать какой prior лучше придется не базируясь на данных полученных в данной статье, а на прошлом опыте.
Confidence interval дает вашу уверенность в среднем (ну или для какой статистики вы его считаете). Этот интервал, при тестировании бесконечной популяции даст вам вообще точку. В то же время, вы сами понимаете, что если вы хотите описать всю популяцию, то вам нужен не этот интервал - ведь чем больше людей вы возьмете, тем более шансов у вас увидеть ответ ещё расширяющий разнообразие.
Если вы хотите интервалом оценить реакцию, скажем, 95% наблюдавшейся популяции вам нужен prediction interval. Это, конечно, тип confidence interval, но очень своеобразный и про него обычно стараются донести что это совсем другое дело.
Редкие риски отлавливают и вовсе не таким интервалом. По сути, речь идет о такой конструкции: представьте что существует 100 популяций людей у каждой очень своеобразная реация на вирус (их средние распределены не гаусово относительно общепопуляционного среднего). Если одна из этих популяций очень маленькая в процентном отношении, то набрав 15 тысяч тестов вы имеете шанс упустить всю эту популяцию целиком. Её предсказать с помощью prediction interval тяжело просто потому что prediction interval должен исходить из того что те кого ещё не наблюдали по сути похожи на тех кого уже увидели. И если это предположение неверно - интервал будет ошибочен методологически.
А затем когда вы начнете давать вакцину миллионам начнете замечать эту маленькую популяцию.
Reply
Просто пришла в голову мысль, что аккуратнее тут было бы указать одностороннее значение вероятности, основаное на полученном р.
И там 30 тысяч выборка....
И про то, что трактовка р во многих медицинских исследованиях не соответствует действительности, читал )
Reply
Reply
Leave a comment