Это очень практичная медстатистика, которой может пользоваться не ученый или преподаватель, а практикующий врач, у которого в реальной жизни есть совсем немного времени на то, чтобы просмотреть статью и понять, как интерпретировать результат.
Что такое p-value, зачем и как его понимать? Адвокат дьявола.
P-value (произносится ~ «пи-валью» или по-русски «значение пи») - наиболее популярное статистическое значение, на основании которого многие врачи делают заключение, насколько результат исследования достоверный. По сути это ответ на вопрос:
Когда Рональд Фишер изобрел этот метод, он предполагал, что ученые изначально сами попытаются опровергнуть собственную гипотезу. Понимаете, не то, что вот я изобрел лекарство, и я сейчас вам всем докажу, что оно помогает, а я изобрел лекарство, и я сейчас буду себе доказывать что оно НЕ ПОМОГАЕТ. То есть вы как ученый прежде всяких дел протестуете против себя самого и стремитесь доказать, что вы не правы. Играете сами для себя адвоката дьявола.
Не совсем интуитивно, правда? Но, если подумать, - то довольно честно. Если вы сами себе уже на первом этапе докажете, что вы не правы, тихо сам с собой, то это сохранит много времени научному сообществу.
Вот, что такое величина р, которая показывает, насколько НЕВЕРНА ваша теория. Именно поэтому, чем она меньше, тем вернее ваша теория. Если же значение р получилось большое, ну, значит вы сами себе доказали, что вы не правы. Вы отвергли собственную теорию.
Например, “Количество инфекций моче-выводящих путей также значительно уменьшилось с 13.3 до 4.0 инфекций на 1000 катетеро-дней (p < 0.001)”.
Ясно, что врачи тут придумали что-то такое, что снизило количество инфекций, ассоциированных с использованием мочевых катетеров. Они стали убирать катетеры как можно раньше, не ставить их, когда можно не ставить, применяли разные стерильные техники, - их теория была такова, что это поможет предотвратить инфекции. Поэтому первое, что они сделали - стали сами своими оппонентами и посчитали значение р: чем оно выше, тем больше вероятность, что их теория неверна. Но они получили невероятно маленькое число, < 0.001. Таким образом им не удалось переубедить себя, что их теория была ошибочной. На этом основании они могут заявлять, что их рекомендации верны.
Значение р показывает, насколько неверна теория исследователей. Именно поэтому, чем оно меньше, тем вернее их теория.
В ежедневной практике значение р называют «статистическая достоверность», и просто смотрят, если р меньше 0.05 (выбор этого числа основан на традиции, но можно брать и больше, например 1 и меньше, например, 0.01), так вот если р меньше 0.05, значит результатам этого исследования можно верить, они «статистически достоверны». Никто в обычной жизни не говорит, мол, хм... у них р - 0.08, они подтвердили, что они правы в том, что их теория неверна. Потому что это очень не интуитивно и сложно для восприятия. Говорят, - нет «статистической достоверности», нет никакой разницы между группами, а та, что есть - это случай, а не закономерность.
Вроде, может показаться, у нас есть надежный инструмент для установления истины. Но, что интересно, - отнюдь. У р много проблем. И о них лучше знать до того, как попасть впросак, доказывая, что «это правильный результат, ему можно верить».
Во-первых, статистически может быть результат и достоверный, но он может не иметь никакого клинического значения. Например, статистически достоверно, что некое лекарство снижает артериальное давление. Ученые такие, мол, все, у нас р - 0.0001, зашибись, давайте рекомендовать это лекарство для лечения гипертонической болезни. А потом смотришь на собственно цифры, и оказывается, что в группе без лекарства давление 140/80, а в группе с лекарством давление 138/76. Нет, ну то есть оно конечно ниже, но клинически это не имеет никакого значения и подвергать себя возможным побочным эффектам и тратить деньги на это лекарство не стоит.
Иногда происходит подгонка результата под желаемое значение р. Даже не специально. Просто зная заранее, какое число нужно, у кого-то может дрогнуть рука.
Гипотеза должна быть адекватная. Значение р можно неправильно использовать для проверки абсурдных идей, и даже, как в одном известном исследовании, для сравнения плацебо с... плацебо.
Поэтому значение р не заменяет мозги уж совсем. Все равно, надо думать, например, так:
Исследователи получили р равное 0.03, то есть очень маленькое. Ок, можно верить, действительно, есть разница между группами. А какая собственно разница? - 140/100 и 120/80. Да, действительно, это клинически значимая разница. А что у них была за гипотеза? Телепатия снижает артериальное давление? - не, не подходит такое исследование.
Или.
Исследователи получили р равное 0.06. Нет никакой разницы между группами. А какая собственно разница между группами? 140/100 и 120/80. Хм, не смотря на то, что разница не достигла статистической достоверности, она клинически значима, возможно, здесь все-таки есть тенденция к снижению давления. А что за гипотеза? Небесные лучи снижают артериальное давление? Не-не, ерунда.
Или.
Исследователи получили р равное 0.02 - ок, есть статистическая разница между группами. А какая разница: 140/100 и 139/99. Никто этой разницы и не заметит, разница клинически не значима. А что за гипотеза? Чай из лепестков благоухающих роз снижает артериальное давление. Ну, допустим, возможно. Но нужны более веские доказательства. Это исследование клинически не значимо.
Потренироваться?
На каждое из этих реальных исследований, надо найти 3 ответа (исследования специально упрощены исключительно для того, чтобы потренироваться на р):
Исследование 1. Ссылка:
http://www.nejm.org/doi/full/10.1056/NEJMoa1508375Помогает ли действительно чем-то ацетаминофен (тайленол) больным в интенсивной терапии, когда назначается для снижения температуры, вызванной возможной инфекцией? В целом, 55 из 345 больных, которые получили ацетаминофен (15.9%) и 57 из 344 пациентов, которые получили плацебо (16.6%) умерли на протяжении 90 дней, (р =0.84).
Есть ли разница в смертности между теми кто получил и не получил ацетаминофен?
Какое практическое значение этого вывода?
Адекватна ли гипотеза?
Исследование 2. Ссылка:
http://www.nejm.org/doi/full/10.1056/NEJMoa1403789Не понятно, что лучше работает при неосложненных инфекциях кожи, Ко-тримоксазол (он же сульфаметоксазол-триметоприм, он же Бактрим) или клиндамицин. Среди тех, кто получил Бактрим поправились 77.7% пациентов, среди тех, кто получил клиндамицин поправились 80.3% пациентов (р =0.52).
Что лучше Бактрим или клиндамицин?
Какое клиническое значение этого вывода?
Адекватна ли гипотеза?
Исследование 3. Ссылка:
http://www.nejm.org/doi/full/10.1056/NEJMoa1105243Если начать лечение ВИЧ как можно раньше, помогает ли это предотвратить заражение других? Из 28 заражений, только 1 случилось в группе, которая получила лечение как можно раньше (р = <0.001).
Возможно ли, что лечение всех ВИЧ инфицированных поможет предотвратить заражение других людей?
Какое практическое применение этого исследования?
Адекватна ли гипотеза?