Этот пост я давно хотел написать, но только в отпуске нашёл время. Тема сложная, текст очень длинный, без цифр и подробностей обойтись не удастся, но разобраться важно. Мне кажется, что те, кто осилит изложение (только всерьёз, вникая в эти самые подробности, а не по диагонали), имеют шанс освободиться сразу от нескольких распространенных, но вредных способов получения, обработки и распространения информации.
Для начала вам нужно прочитать какой-нибудь текст, рассказывающий неспециалистам о том, что такое доказательная медицина (если вы хорошо знаете, что это, не бросайте читать на этом месте, пожалуйста). Например,
такой. Не обязательно именно этот, людей, всегда готовых рассказать вам, что такое двойное слепое плацебо-контролируемое рандомизированное тестирование, много и в ЖЖ, и посты на эту тему появляются часто (
например, такой или
такой).
После того, как вы это сделали, пожалуйста, зафиксируйте в памяти свои теперешние представления о том, как правильно испытывать лекарства, а как нужно относиться к протестированным иначе. Подумайте, могут ли при правильно организованном тестировании выживать коллективные заблуждения, которые через двадцать лет будут приводить всех в ужас. Запомните, какие эмоции у вас вызывают противники доказательной медицины, а какие - люди, широко распространяющие знание о ней, и есть ли у вас сейчас какие-то сомнения на этот счёт. Всё это понадобится нам в конце рассказа.
Попробуем теперь углубиться в подробности, для чего проведём один мысленный эксперимент. Представим себе тяжелую, крайне неприятную, но, к счастью, вымышленную болезнь полиболит. Уровень смертности от полиболита составляет ужасные 6%. Иначе говоря, даже при применении современных лекарств и при хорошем уходе умирает шесть человек из каждых ста заболевших. К счастью, только что свершился прорыв в медицине, и было изобретено замечательное лекарство, снижающее смертность от этой болезни до 4%, в полтора раза! Прочувствуйте этот факт. Если вам не повезло, и ваш близкий родственник заболел полиболитом, хотели бы вы, чтобы лечение проводилось с применением такого лекарства? Какую сумму вы готовы за это заплатить?
Проведём испытания нового средства. Как мы знаем из популярных текстов, нам понадобится две группы пациентов: экспериментальная (та, которой достанется новое лекарство) и контрольная (та, которая получит плацебо). Речь, конечно, не идёт о том, чтобы пациентов из контрольной группы совсем не лечить. Это было бы людоедством.
Старые, проверенные временем методы и лекарства (те, которые в итоге давали шестипроцентный уровень смертности) мы будем применять в лечении всех пациентов, вопрос в том, стоит ли добавить к ним и новое.
Чтобы мы могли исключить влияние случая и сделать статистически значимый вывод, количество пациентов должно быть не слишком маленьким. Например, представим, что в обеих группах было по сто пациентов, и в первой умерло 4 человека, а во второй 6. В таком случае мы получим результат, не являющийся статистически значимым, и доказательством служить не могущий. Здесь и далее для проверки подобных утверждений можно пользоваться так называемым
"точным тестом Фишера" (вот
онлайн-калькулятор для
проверки). В нашем случае в таблицу мы должны подставить величины 96, 4, 94, 6, после чего мы получим p-value примерно 0.75, что, как известно, означает, что наше исследование никуда не годится. Чем больше пациентов у нас будет, тем меньше шанс, что испытания закончатся подобным печальным образом. Давайте узнаем, сколько нам понадобится пациентов, чтобы с 95% вероятностью сделать вывод, который уже можно будет считать доказательством по стандартному критерию (то есть, имеющий p-value<0.05). Формулы, которые дадут нам соответствующее число, конечно, давно известны, поэтому я не буду здесь их выписывать, а тем более выводить, а воспользуюсь одним из существующих онлайновых калькуляторов, например, таким:
http://powerandsamplesize.com/Calculators/Compare-2-Proportions/2-Sample-Equality.
Получаем следующий ответ: и в экспериментальную, и в контрольную выборку мы должны будем включить по 3075 человек, всего 6150. Много это или мало? Если участие каждого пациента в исследовании будет стоить нам $150, то в сумме мы вынуждены будем потратить миллион долларов. Столько пациентов мы не сможем одновременно собрать и разместить ни в одной больнице, придётся заниматься сложными межорганизационными взаимодействиями. Если полиболит - редкое заболевание, то такого количества пациентов, одновременно болеющих этой болезнью, может вообще не существовать, а потому исследование затянется на годы.
Но ведь речь у нас с самого начала идёт о редком и ярком сценарии: лекарство не просто работает лучше предыдущих, оно работает радикально лучше. Оно спасает каждого третьего из умиравших раньше. В жизни, насколько я знаю, всё совсем не так, такие прорывы редки, поэтому доказать вот так "в лоб", что новый метод лечения работает лучше старых, ещё сложнее.
Похоже, что в картине мира, которая может сложиться в голове у неспециалиста, только что узнавшего о доказательной медицине, что-то не так, и лекарства в массе своей тестируют как-то иначе. А как?
Зададимся вопросом: а почему у врачей, применявших новое лекарство на практике, уже сложилось впечатление, что оно работает, хотя число пациентов было, казалось бы, совершенно недостаточным для такого вывода? Конечно, может быть, им просто хотелось в это верить, но, может быть, дело и не только в этом. Давайте зададим им этот вопрос, и узнаем, что "у большинства больных болезнь протекала гораздо легче, а улучшение наступало быстрее".
Попробуем формализовать и протестировать это самое "гораздо легче". Нам известно, что полиболит сопровождается очень высокой температурой. Помимо признака А "пациент умер" введём дополнительный признак Б: "температура пациента на восьмой день болезни превышала 38 градусов". Посмотрим, что мы можем выжать из имеющихся у нас данных, если начнем учитывать этот дополнительный признак.
Подняв истории болезни двухсот пациентов, мы узнаем, что шестьдесят из них (что составляет 30%) имели на восьмой день болезни очень высокую температуру, а ещё у 140 температура была ближе к нормальной. Из 60 человек, у которых зафиксирован "признак Б", умерли восемь, а выжили 52. Из оставшихся 140 умерли четверо, а выжили 136 человек.
Давайте убедимся, что "признак А" и "признак Б" статистически значимо связаны друг с другом. Воспользовавшись всё тем же точным тестом Фишера, получаем p value ~0.007. Это очень хороший уровень значимости, да и физический смысл такой связи также вполне очевиден, поэтому её существование кажется очень правдоподобным.
Посмотрим теперь, что происходит с "признаком Б" при применении нашего нового лекарства. Выясняется, что, если ранее пациентов, имевших высокую температуру на восьмой день болезни, оказывалось 30%, то после лечения с его использованием их всего 11%. Желающие в этом месте могут перепроверить, что цифры сходятся: смертность в первом случае можно оценить как 0.3*(8/60)+7*(4/140) = 0.06, а во втором как 0.11*(8/60)+0.89*(4/140) = 0.04.
Сколько нам нужно пациентов, чтобы на тех же условиях, что и раньше, то есть, с вероятностью 95% и статистически значимо (p=0.05) отличить 30% от 11%?
Та же страничка сообщает нам ответ: 111 пациентов в эксперименте и столько же в контроле, всего 222. Это гораздо лучше тех 6150, которые нам "требовались" изначально, собрать столько пациентов уже вполне представимо! Итак, мы можем провести исследование, в котором обращаем внимание на "признак Б", доказываем, что лекарство на него значимо влияет, а на основании этого делаем (правильный) вывод, что лекарство и жизни тоже спасает, и даже можем с хорошей точностью вычислить, сколько именно. Казалось бы, всё хорошо, и отличие упрощенной картины мира доказательной медицины от реальности только в небольшой хитрости: оказывается, в жизни иногда требуется придумывать дополнительные, более чувствительные индикаторы.
К сожалению, подумав ещё немного, мы осознаём, что, вполне вероятно, точно такое же тестирование с блеском прошёл бы и парацетамол (от полиболита он не помогает никак, но температуру, тем не менее, сбивает).
....
Где подвох, понять несложно. Во втором варианте нашего исследования мы предполагаем, что "признак А" и "признак Б" связаны одним и тем же образом и в контрольной, и в экспериментальной группе. Это очень сильное предположение, оно, в каком-то смысле, вообще всегда неверно. Тем не менее, понятно, что для парацетамола оно неверно в гораздо большей степени, чем для лекарства, которое борется именно с полиболитом, а не с повышенной температурой. Предположение о том, что связь между двумя переменными в двух разных выборках одна и та же, тоже можно формализовать и протестировать статистически, но для этого опять придется делать дополнительные, более хитрые, хоть и правдоподобные, предположения, и чем дальше, тем больше подобные тесты начинают напоминать вытягивание Мюнхгаузеном самого себя из болота за волосы.
Где-то нужно остановиться. В какой-то момент должна включиться "общая сумма знаний профессии", в которую входит, например, понимание того, как выглядит "тяжелый случай" полиболита, и чем он отличается от "легкого". И если мы можем доказать, что новое лекарство снижает количество "тяжелых случаев", то будем считать, что этого нам и достаточно. Вообще, конечно, хотелось бы знать, как лекарство (любое, не только это) влияет именно на общую продолжительность и качество жизни, но если это запретительно долго и дорого даже в случае полиболита, то что уж говорить о гриппе, гайморите или перегревах. Поэтому кажется разумной идея производить и публиковать хотя бы такие результаты, доказывающие, что лекарство действует на некий более чувствительный признак, для каждого лекарства свой. Именно это, как правило, в жизни и происходит. Правда, при этом на любой такой чувствительный признак, скорее всего, найдется хитрый способ повлиять, на самом деле ничего толком не вылечив (вот как с парацетамолом и полиболитом). Но мы же не собираемся заниматься такими махинациями, правда?
А вот, к сожалению, не факт. Теперь стоит вспомнить в точности те же популярные аргументы "за доказательную медицину". Во-первых, всем исследователям присуще подсознательное стремление получить именно тот результат, на который они изначально надеются. Во-вторых, в мире просто существуют жулики. В действительности это не два принципиально разных случая, а два края непрерывного спектра.
Скажем, я своими глазами видел исследование, в котором некоторое лекарство, как утверждалось, статистически значимо улучшало результаты неких тестов интеллекта у детей с отклонениями в развитии. К сожалению, если присмотреться к постановке эксперимента (двойного слепого плацебо-контролируемого рандомизированного, не сомневайтесь), можно было заметить, что в роли тестируемого лекарства мог бы выступать любой легкий стимулятор, например, энергетический напиток "Red Bull", и показать тот же (или лучший) результат. Это само по себе ещё не означает, что авторы статьи нам врут; но это означает, что стандартизированный формат исследования никак не помогает оценить, верить ему, или нет. Всё так же нужно привлекать знания и о предполагаемом механизме действия, и о репутации исследователей. Так или иначе, с момента выхода упомянутой статьи прошло несколько лет, но, насколько мне известно, лекарство это таким способом, каким предлагалось в статье, нигде не используется, и планов таких нет.
Вот ещё интересный вопрос: а как выглядело бы лекарство, которое влияет на некий "признак Б" в нужную нам сторону, что нам успешно доказали, но на продолжительность и/или качество жизни при этом в среднем влияет отрицательно, о чём мы так и не узнали? Это возможно, по крайней мере, в двух случаях: во-первых, это "случай парацетамола" (когда лекарство действует как-то так, что предположение о тесной взаимосвязи "признака Б" со здоровьем пациента перестаёт быть верным). В каком-то смысле, это простой случай, поскольку хороший специалист сумеет заподозрить, что тут что-то неладно, прочитав описание предполагаемого механизма действия лекарства (а вот неспециалист, например, вы, не сумеет). Вы можете представить себе количество политики, споров, "серых" случаев и моральных компромиссов, которые за этим следуют.
Статья в Википедии "Доказательная медицина" почему-то ни о чём таком не упоминает (/сарказм).
Во-вторых, лекарство может вызывать редкие, но тяжёлые побочные эффекты. И вот тут всё гораздо сложнее. Что такое "редкий, но тяжёлый побочный эффект"? Это катастрофическое событие, которое в жизни обычного человека произойдет с вероятностью, скажем, 1/10000, а в жизни человека, принимавшего интересующее нас лекарство - скажем, в пять раз вероятнее. Заглянув на
полюбившуюся нам страничку, выясняем, что для проведения исследования, которое с 95% вероятностью доказало бы существование такого побочного эффекта публике, согласной только на двойное-слепое-и-тп, понадобится 100 000 человек. Как вы думаете, насколько часто проводятся такие эксперименты? Опять же, наверное, тут можно было бы сформулировать предположение о причинно-следственной связи, придумать более чувствительный прокси-признак, и т.д. и т.п. Поскольку хороших и порядочных людей в мире много, наверняка кто-то и этим занимается, кто-то это спонсирует, а кто-то даже такие статьи печатает. Вопрос в том, сколько денег и умственных сил в мире тратят на такую деятельность, а сколько - на вывод на рынок новых лекарственных средств, и как соотносятся эти величины.
В связи с этим: когда вы в следующий раз встретите человека, свободно подменяющего "исследование не выявило статистически значимой связи" на "исследование доказало отсутствие связи", запомните, что этот человек либо совсем не понимает, о чем говорит, либо врёт; в любом случае, слушать его не стоит.
А вот ещё один аспект: мы в нашем мысленном эксперименте позволили себе проигнорировать этические проблемы, связанные с тем, что половине пациентов придется давать плацебо, поскольку решили, что наше новое лекарство является добавкой к старым, а не их заменой. В случае, если бы наше лекарство было основным средством от болезни, заменяющим старые, сравнивать его с плацебо явно было бы неправильно. Но когда вообще может быть этичным сравнение с пустышкой, а не с альтернативным, уже используемым, но более старым и более дешёвым, лекарством (в конце концов, содержательный выбор ведь обычно именно в этом), и почему в таком случае во всех популярных текстах упор делается именно на плацебо-контроль?
Давайте, раз уж зашла речь об этике, прикинем на пальцах, сколько стоит наш первоначальный план исследования лекарства от полиболита в человеческих жизнях. Если бы мы каким-то образом заранее были уверены, что лекарство действует (и уверили бы в этом врачей и контролирующие организации), то 3075 человек, отнесенных к контрольной группе, мы сразу лечили бы с его помощью, что снизило бы смертность в этой группе на 2% (экспериментальную мы и так им лечили, так что для них ничего не изменилось бы). Таким образом, мы в процессе получения доказательств загубили чуть больше 0.02*3075=61 человек (в смежных дисциплинах посчитанное таким образом число называется "regret"). Подобный подсчет может показаться демагогией, поскольку использует сценарий, в котором мы каким-то образом "знаем" результат заранее, а цену ошибки не учитываем. Подсчет величины regret, однако же, даёт нам способ сравнивать различные способы постановки эксперимента. В частности, regret при проведении эксперимента по исправленному плану составляет уже 0.02*111=2.22 жизни. То есть, если мы поставим себе цель вместо "железобетонного" доказательства получить всего лишь "достаточно правдоподобное, чтобы убедить самих себя", то мы можем спасти почти 60 человек, которых убили бы, потребовав проведения эксперимента в его изначальной постановке. Это настоящие люди, ну там, бабушка чья-то, или муж, вот в чём штука. И в жизни разница ещё более разительна, поскольку всё время, пока исследование идёт, люди по всему миру продолжают умирать от полиболита, поэтому нам важно его ещё и завершить побыстрее, что с двумя сотнями человек явно проще, чем с шестью тысячами.
Тут возникает интересный вопрос. А предположим, нам вообще не нужно никому ничего доказывать. Наша задача - раздавать лекарства и вести наблюдения так, чтобы в среднем уберечь как можно больше пациентов. Если бы мы знали, что новый метод лечения не хуже старого, наш алгоритм в этом случае был бы предельно прост: всегда использовать новый метод. Так мы не узнаем, лучше он старого, или такой же, а если он лучше, не сможем доказать это даже сами себе. Ну как бы и что, подумаешь. К сожалению, так мы действовать не можем: а вдруг мы где-то просчитались, новый метод на самом деле хуже, и использовать его - вредительство. Можем ли мы, тем не менее, проводить наши исследования так, чтобы пожертвовать доказательной силой, но зато уменьшить regret как можно сильнее?
Да, и это мы можем. Но об этом в следующей серии.
Пока что я рассказал вам длинную и запутанную, как выражаются некоторые мои коллеги, историю без однозначной морали. Сама по себе она не так для вас важна (вряд ли вам настолько пригодится в жизни разбираться в том, какое лекарство каким способом тестировали, применять тест Фишера, и принимать по этому поводу принципиальные решения), важно то, какие из неё можно сделать выводы. Чтобы их сделать, вернитесь к вопросам, озвученным в самом начале: как правильно испытывать лекарства, а как нужно относиться к протестированным иначе? Могут ли при правильно организованном тестировании выживать коллективные заблуждения, которые через двадцать лет будут приводить всех в ужас? Какие эмоции у вас вызывают противники доказательной медицины, а какие - люди, широко распространяющие знание о ней, и есть ли у вас сейчас какие-то сомнения на этот счёт? И, главное, изменились ли ваши ответы на эти вопросы?
Я для себя сделал вот какие выводы, хотя вы, возможно, и сочтёте, что nonsequitur:
1) Есть вещи, о которых невозможно содержательно рассказать в двух-трёх абзацах, но можно создать ложное ощущение знания. Если кто-то рассказывает вам о сложном и спорном вопросе, в котором вы не являетесь специалистом, и через две минуты у вас появляется готовое мнение, сопровождаемое эмоциональным отношением к оппонентам, то что-то пошло не так, а этот кто-то вам не очень друг. Даже если вам нравится то, о чём он говорит. Особенно если нравится.
2) Не существует такой вещи, как "хорошая, правильная поверхностность хороших, правильных людей". Если вы изучаете некий предмет по короткой врезке в любимой газете и (в лучшем случае) по началу статьи из википедии, результат будет примерно таким же, какой покажет, например, чиновник, взявшийся тем же способом судить о вопросах регулирования вашей сферы деятельности. Представили? А в каких ещё сложных вопросах, по поводу которых неспециалист имеет мнение, он в действительности разбирается примерно так же, как в доказательной медицине? Я думаю, что во всех. Каждый из них на его жизнь почти никак не влияет, и может так никогда и не повлиять. Но то же можно сказать о каждой конкретной мине на минном поле, на которое он выйдет потанцевать.
3) Не существует протоколов, следование которым позволяло бы однозначно определить, что незнакомец говорит вам правду. Ну а тем более не существует протоколов, отказ следования которым однозначно записывал бы незнакомца в категорию "жуликов". В частности, таким протоколом не является evidence-based study, проведенное "по всем правилам". Помимо него есть и другие "антикандидаты", как-то прочие научные (и наукообразные) исследования, различные звания и регалии, использование "правильной" лексики и интонации, приведение правдивых, легко проверяемых конкретных примеров в разговоре об общем явлении, наличие статьи в "Википедии", в общем, тут уж вы сами сообразите. Верить кому-то, кто рассказывает о сложной и новой для вас области, или нет - всегда содержательное решение, без вариантов, сэкономить не получится. Мне кажется, что это вообще самый сложный и важный тип решений из всех, которые нам приходится принимать.
На этом всё, ура. Я сейчас, как уже упоминал, в отпуске, с интернетом тут так себе, поэтому читать комментарии и отвечать на них какое-то время не смогу. Не пользуйтесь этим обстоятельством, чтобы приписывать мне чужие слова и мысли, делать из моего молчания выводы, или невежливо ругаться друг с другом, спасибо пожалуйста.
Далее, чтобы уменьшить подобную вероятность, попробую загодя составить краткий список PMPAQ (predicted most probably asked questions):
Q.: Так ты что, против тщательного тестирования лекарств?
A.: Нет, я за. Я против того, чтобы сводить его к набору конкретных (и, насколько я понимаю, не самых важных) практик, обладающих, к тому же, известными и легко эксплуатируемыми недостатками. При этом я не спорю, что сами эти практики вполне полезны в рамках своей применимости, просто не нужно представлять их как штуку, обладающую одновременно свойствами панацеи и откровения.
Q.: Но ты за распространение знаний о доказательной медицине или против?
A.: В такой форме, как это делает та же "Медуза" и прочие - конечно, против. Такая полуправда хуже полного незнания.
Q.: Ты считаешь, что тебе виднее, чем специалистам? Чем врачам и фармацевтам?
A.: А я как раз специалист в каком-то смысле: вопросы analysis paralysis, чувствительности статистических методов, способов их "накрутки" и противодействия оным - то, чем я (среди прочего) занимаюсь на работе. Это, конечно, натяжка, я специалист совсем в другой области, но не думаю, что спорю здесь с профессиональными медиками: по моим наблюдениям, сторонников доказательной медицины среди научпоп-журналистов и ЖЖ-шных айтишников во много раз больше, чем среди врачей. Последним, полагаю, всё, что тут изложено, понятно давным-давно (может быть, без цифр).
Q.: Так что, получается, Плахов за гомеопатию, арбидол и прочие фуфломицины?
A.: Вообще-то я не об этом писал, но ведь все равно спросят :) В гомеопатию я не верю, поскольку в том случае, когда никакого правдоподобного механизма действия предъявить не удается, аргумент "давайте сначала отвергнем нулевую гипотезу" представляется вполне разумным, и то, что это толком никому из пропонентов, насколько мне известно, не получилось, представляется крайне подозрительным. Тут только хотелось бы отметить, что часто бирку "гомеопатия" вешают на вполне себе аллопатические средства, например, растительного происхождения, механизм действия которых совершенно понятен и ничему не противоречит, к ним это замечание не относится.
Насчет арбидола и пр. - я не за, поскольку не разбирался в теме глубоко, но по причинам, изложенным выше на N страницах, я и не против. Если точнее, я считаю, что аргумент "а предъявите исследования по канонам доказательной медицины, иначе лекарство не лекарство", высказываемый публично, является профанацией и хамством, а то, что раз за разом оказывается, что и исследования-то есть, только "какие-то не такие", считаю отягчающим обстоятельством. Википедия насчёт арбидола, в частности, сурово пишет, что одно из исследований "спонсировалось производителем". ORLY, да, это правда такая редкость, что заслуживает особого упоминания? Обратите, кстати, внимание: тот факт, что исследования есть, двойные-слепые-рандомизированные-итп (но-все-равно-какие-то-не-такие), постепенно стирается при прохождении по цепи ссылок, так, что человек, прочитавший только финальный текст в цепочке дружественных цитирований, или только аннотацию к вики-статье, будет уже абсолютно уверен, что их не существует.
Занятный феномен.