Comments | eugenegp: беспристрастность снова в бою (меморандум лжеученых, ч. 2)

eugenegp

беспристрастность снова в бою (меморандум лжеученых, ч. 2)

Feb 16, 2017 14:58

Поскольку мой предыдущий пост вызвал реакцию спонтанного самоизменения материалов Комиссии по лженауке и борьбе с фальсификацией научных исследований (http://eugenegp.livejournal.com/289318.html), я решил подробнее посмотреть на их содержание. Всё то же приложение номер 5, будем ( Read more... )

гомеопатия, общественное

Leave a comment

Back to all threads

kobak February 17 2017, 16:42:06 UTC

Спасибо за подробный ответ!

1) Понятно. Но из этого следует, что слепой эксперимент тут возможен, только когда гомеопатия (с точки зрения лечащего гомеопата) уже подействовала, но необходимо продолжать принимать гомеопатию для поддержания эффекта. Если болезнь такова, что результатом действия является полное излечение и продолжать принимать гомеопатию не нужно (ну, напр., какая-нибудь бородавка, которая в итоге отвалилась), то слепой эксперимент невозможен в принципе?

Или когда Вы в п. (3) говорите, что "наиболее убедительными представляются относительно простые, неиндивидуализированные терапевтические эксперименты - для тех патологических состояний, где возможна специфическая терапия" -- это как раз речь идет о заболеваниях, где не нужна индивидуальная гомеопатическая терапия, а можно прописать стандарнтное гомеопатическое лекарство ("at first sight", как Вы написали)? Т.е. гомеопаты считают, что с некоторыми заболеваниями это возможно, а с некоторыми нет?

3) Спасибо за ссылки. Я посмотрю, когда будет время. Что касается "интересно, в какой степени вы разделите критику их статистики?", я не очень понял о какой именно критике речь.

eugenegp February 17 2017, 16:55:33 UTC

1) Как я и написал, он возможен, если вы согласитесь тестировать "гомеопатическую терапию at first sight в исполнении конкретного гомеопата". Это вполне валидное исследование, но как легко представить, с опасностью false negative. В случае отрицательного результата оно просто загубит репутацию одного-двух гомеопатов, не больше. Остальные фыркнут и скажут, что то были "неправильные гомеопаты".

Некоторые гомеопаты (где N>1) действительно считают, что для некоторых заболеваний или симптомов можно показать отличие от плацебо стандартным назначением (или первым назначением). Я и сам имею в запасе несколько дизайнов. Одно такое я вам привел (про липкие выделения).

3) Авторы "лже-научного" меморандума раскритиковали результаты Taylor, Reilly et al. :) Может быть, еще пост напишу.

kobak February 17 2017, 17:00:09 UTC

1) Ясно.

3) Окей, я прочитаю статью Taylor et al., не заглядывая в меморандум.

kobak February 17 2017, 23:28:11 UTC

Я прочел Taylor et al. 2000. По всем пунктам согласен с кратким Комментарием, который на странице по Вашей ссылке находится под статьей. Примечательно -- и подозрительно, -- что эффект в visual analogue score, который авторы собирались обнаружить (и который был обнаружен в предыдущих их работах), был НЕ обнаружен. Но по nasal peak inspiratory flow эффект сильный. Объяснить это я не могу, хоть в гомеопатию и не верю. Проблем со статистикой не увидел. Любопытно, в чем состояла статистическая критика в Меморандуме.

(Примечание: я не очень понял средний столбец в Figure 3; там, м.б., и есть какой-то статистический сбой, напр., в третьей строке; но это непринципиально.)

Не очень понял, почему статья заканчивается абзацем "To interpret these findings as arguing for homoeopathy having an effect may now be more plausible than our previous hypothesis of serial false positive results. 3 32 For now, we conclude that this study has failed to confirm our original hypothesis that homoeopathy is a placebo." Ссылка 32 вообще ведет на эдиториал, а не на текст этих авторов, а ссылка 3 ведет на их предыдущую работу в Lancet, которая заканчивается выводом о том, что гомеопатия работает. Почему они тут пишут про "our previous hypothesis of serial false positive results", мне осталось неясно.

Посмотрел, были ли у David Reilly статьи в продолжение этой серии (1985, 1986, 1994, 2000), но ничего не нашел. Надо было им повторить эту работу один в один, но не с n=50, а раз в десять больше, как в Комментарии советовали.

eugenegp February 18 2017, 11:37:32 UTC

Предыдущие исследования были по другим симптомокомплексам (астма и сенная лихорадка). Предположение, что сильные начальные обострения повлияли на субъективный visual analogue score, мне кажется разумным. Другое возможное объяснение - меньшая реактивность конкретного субъективного симптома. Однако обращаю внимание, что эффект все равно есть, но не достигает стат.значимости.

Предыдущие работы также тестировали hypothesis that homoeopathic potencies are placebos.

Критика статистики в меморандуме выглядит так: "Критики этого исследования [7], указывают, среди прочего на несоответствие статистической мощности исследования количеству участников. В
исследовании участвовал только 51 человек суммарно в обеих группах (гомеопатия и плацебо) при расчетном количестве в 60 в каждой группе."

[7] Это ссылка на блог (!) https://apgaylard.wordpress.com/2009/05/15/homeopathy-awareness-week-and-hay-fever/
Внимательный читатель соответствующих абзацев все поймет, но мне интересно ваше мнение.

kobak February 18 2017, 15:52:36 UTC

Процитированный Вами абзац критики довольно бессодержательный.

Расчетное кол-во 60 человек в группе исходило из 80% power подтведить результат предыдущей работы ("mean difference of 15 mm between the groups on visual analogue scale scores and a corresponding standard deviation of 29"). Если посчитать power для их итогового размера выборки в 50 человек суммарно, то получится 45% (это я сейчас посчитал). Это, конечно, очень мало. Таким образом, если предположить, что d = 15mm/29mm = 0.5 это реальный effect size, то в данном иследовании был только 45% шанс это показать с p<0.05. Результат был p>0.05, т.е. эффект показан не был.

Мораль из этого такая: если Вы (или авторы работы, или кто-то еще) верите в d=0.5, то не обязательно придумывать никаких объяснений того, почему в данном случае работа этого не продемонстрировала. Напр., Вы пишете: "Другое возможное объяснение - меньшая реактивность конкретного субъективного симптома" и т.п. На самом деле никаких возможных объяснений можно не изобретать: просто study was underpowered, вот и всё. False negative. Вероятность была больше 1/2, что будет false negative.

В любом случае, к делу (я имею в виду к критике в "Меморандуме") это не относится, т.к. основной результат этой работы -- разница в nasal peak inspiratory flow. Никакие power calculations тут роли не играют, т.к. для этой метрики их не было сделано.

eugenegp February 18 2017, 16:13:39 UTC

Хорошо, что мы понимаем это совершенно одинаково.

eugenegp February 19 2017, 10:45:31 UTC

На полях: могли бы Вы ответить, почему сочли бы исследование с n=500 более показательным, чем просто репликация c хорошим р? Поясню: если при n=500 получится значимый эффект, но р=0.02 - это усилит позицию в сторону отличия от плацебо?

kobak February 19 2017, 13:13:10 UTC

Я имел в виду, что большое n нужно для того, чтобы получить маленькое p, а не по какой-то другой причине.

Могу сформулировать немного подробнее, что нужно было бы лично мне, чтобы отнестись к такой работе всерьез.

(1) Pre-registered replication. Т.е. весь план исследования во всех деталях, включая весь статистический анализ, публикуется до начала эксперимента.

(2) Открытый доступ к данным, т.е. все данные (в анонимизированном виде) выкладываются в открытый доступ.

(3) Высокий стандарт статистической значимости, т.е. никаких р=0.02. В принципе, для confirmatory study, где cherry-picking исключено из-за п. 1, вполне достаточно p<0.0001 или как-то так. Но учитывая исключительную спорность предмета исследования (гомеопатии), было бы лучше принять что-то вроде стандарта физики высоких энергий, five sigma. "Extraordinary claims require extraordinary evidence".

(4) Опять же, учитывая исключительную спорность этой темы, я бы хотел какую-то процедуру, в которой слепой анализ гарантируется какой-то independent authority. Это можно оформить по-разному. Например, все сырые данные выкладываются в открытый доступ (в согласии с п.2) до того, как independent authority вскрывает коды и объявляет, какой пациент относится в какой группе. После этого подсчитываются результаты по группам и строятся графики.

Пункты 1 и 2 -- сейчас становятся вполне стандартными в некоторых областях. Например, Вы, может быть, слышали о т.н. replication crisis in psychology. Есть целый ряд очень известных экспериментальных результатов, о которых вдруг оказалось, что они нереплицируются и на самом деле были высосаны из пальца. Вокруг этого большой ажиотаж, на кону стоят многие репутации, и люди делают pre-registered replications и публикуют все данные.

Пункты 3 и 4 -- нужны скорее именно для гомеопатии (а также для левитации, телекинеза, и т.п. эффектов, которые меинстримная наука отрицает в принципе).

Замечу, что все это сделать совсем несложно. В работе Taylor et al. разница между гомеопатией и плацебо (на nasal flow) состовляет около 20 с ст. ошибкой примерно в 5. Т.е. это уже четыре сигмы! Если это настоящий эффект, то чтобы довести до пяти сигм, достаточно уменьшить ст. ошибку с 5 до 4, т.е. увеличить выборку в 25/16 раз -- это ведь просто ерунда. Мое n=500 было огромным преувеличением. Пусть будет n=100. Главное -- pre-registered + open data + independent guarantor of blindness.

Одна-единственная работа, сделанная по таким стандартам, в случае положительного результата произвела бы фурор.

eugenegp February 19 2017, 13:41:31 UTC

Hear-hear. В смысле кто бы спорил. Triple-blinded etc.

(Вы, правда, недооцениваете уровень bias. Автор этого самого меморандума высказал мне, что даже "p=0.0000001 не стоит того, чтобы переворачивать здание современной науки")

Как Вы полагаете, какова стоимость такого исследования? Ну вот, например, первичная гипертензия, outcome через 21 день с начала.

kobak February 19 2017, 13:53:37 UTC

Понятия не имею (дисклеймер: я не имею никакого отношения к медицине). А какая? Вы имеете в виду, что стоимость очень высокая? Ну вот Taylor et al. как-то же нашли деньги на свое исследование с n=50, (и до этого еще несколько подобных работ сделали), так что, наверное, вполне возможно это повторить с n=100. Главное -- обеспечить методологическую неуязвимость, в согласии с моими пп. 1-4, но это вообще денег не стоит, просто вопрос организации.

(Что касается уровня bias, то честно говоря, если Вы мне сейчас предъявите какую-нибудь работу с p=0.0000001, я все равно не поверю в эффективность гомеопатии. Мне легче предположить, что данные сфальсифицированы, или анализ был cherry-picked, или blindness каким-то образом не была обеспечена должным образом, и т.п. У каждой из этих возможностей вероятность, я считаю, гораздо выше, чем 1 на миллион. Поэтому и нужна не просто p=0.0000001, а крайне высокая гарантия чистоты эксперимента.)

eugenegp February 19 2017, 15:25:02 UTC

> я все равно не поверю в эффективность гомеопатии. Мне легче предположить, что данные сфальсифицированы

Тогда зачем это делать? :) (Вопросы целесообразности и стоимости - http://eugenegp.livejournal.com/281030.html).

Единственное, зачем _я_ все это пишу - чувствую себя обязанным. 15+ лет назад я был гомеопатическим скептиком, к тому же с неудачным опытом лечения "гомеопатией". Когда жизнь прижала, наличие якобы "несуществующих" исследований - нет, не убедило, но сподвигло меня провести серию личных экспериментов. И начал я, конечно, с материальных потенций :).

kobak February 19 2017, 16:08:36 UTC

Зачем что делать? Я же написал, при каких условиях я был бы готов считать свидетельство эффективности гомеопатии убедительными (я имею в виду мои пункты 1-4). Условия, по-моему, вполне адекватные и Вы с ними согласились. "Я все равно не поверю" относилось к предъявлению некоей работы с p=0.0000001, которая при этом не удовлетворяет пп. 1-4. Возможно, я недостаточно ясно выразился.

Что касается Вашей записи по ссылке, то я скорее не согласен с "проломить этот порочный круг за счет массы смогли бы несколько сотен исследований высокого качества, опубликованных за короткий срок (лет за 5) - на это нужно 70-100 млн. долларов с высокой степенью координации". Как я написал выше, по-моему, всего одна работа, выполненная на максимальном уровне предосторожностей (опять же, см. пп 1-4), могла бы произвести фурор. Если эффективность гомеопатии может быть так высока, как в примере с nasal flow в Taylor et al., т.е. с запасом достаточно всего 100 человек, то это не 100 млн долларов, а почти что раз плюнуть :)

eugenegp February 20 2017, 10:45:16 UTC

Смотрите, какая история. В 80-е были проведены RCTs пресловутого Оциллококцинума. По тем стандартам, которые были приняты на тот момент. Показали значимый эффект на больших n. (Эти испытания высший авторитет в области доказательной медицины, Cochrane Colloboration, до 2005 года считал хорошими, позже перевел их в low-quality.) В те же годы были публикации в Lancet, Nature, и тп. Никого из т.н. скептиков это не убедило. Скандалы, проверки фокусниками, разрушенные репутации. ОК.

В 90-е были, например, работы Taylor-Reilly. Публикации Jonas. По тем стандартам, которые считались хорошими в 90-х. Всё то же самое.

В 2000-е мейнстрим медицинские журналы практически перестают публиковать оригинальные исследования гомеопатии. Стандарты evidence всё дальше усложняются (не из-за гомеопатии, объем фрода в основной фармакологии зашкаливает). Работа Frass et al эти новым, усложненным стандартам отвечает. И например, из обзора австралийского (который всеми распиарен) ее просто исключают, под надуманным (ну мне так же кажется) предлогом.

Вы сейчас кратко и доходчиво излагаете новые стандарты убедительности evidence, созревающие в середине 2010-х. Думаю, вы понимаете, о чем я.

kobak February 20 2017, 11:23:22 UTC

Да, понимаю. Наверное, с т.з. гомеопатов этот выглядит как несправедливое издевательство и moving target.

(А что такое "проверки фокусниками"?)

С другой стороны -- смотрите. До этого разговора с Вами я думал, что провести стандарнтное медицинское исследование гомеопатии почти невозможно, т.к. гомеопаты в этом не заинтересованы или считают такие исследования невозможными в принципе; если такое исследование все-таки сделать, то результат будет отрицательным, но гомеопаты от этого просто отмахнутся, потому что "персональная медицина", "гомеопат лечит не болезнь, а пациента" и т.п. В результате этого разговора (за который Вам большое спасибо), я понял, что ситуация СОВЕРШЕННО НЕ ТАКАЯ. Оказывается, (а) существуют заболевания и гомеопатические лекарства, которые легко поддаются стандартной методологии evidence-based medicine; (б) гомеопаты, по крайней мере некоторые, совсем не против такие исследования проводить; (в) по оценкам гомеопатов, эффект настолько сильный (у Frass et al Cohen's d=1.5, в психологии это считается "very large" или даже "huge"), что довольно скромная выборка в 50-100 человек позволяет достигнуть уровня значимости из физики высоких энергий.

Мне кажется, что если это так, то убедить всех должно быть не очень трудно. Надо вообще оставить в стороне "общепринятые" стандарты убедительности и сделать все по сверх-стандартам, которые легко разработать в паре разговоров со скептиками. Наверняка можно найти скептика с блестящей репутацией, который согласится на "пари". Ведь если эффект правда d=1.5, то с n=100 гомеопат может **гарантировать**, что результат будет положительным. Гомеопат может согласиться вообще на любые, произвольные стандарты убедительности. Специальная комиссия может ходить за ним по пятам и снимать на видео-камеру 24 часа в сутки, чтобы исключить fraud. Что угодно. Можно сделать сайт в интернете, дать людям возможность ставить ставки, собрать кучу ставок на то, что эффекта не будет, привлечь массу внимания, и -- вау -- в итоге продемонстрировать эффект.

Это я сейчас фантазирую, но Вы понимаете о чем я. Если продемонстрировать эффект гомеопатии настолько легко, как в работе Frass et al, и если бы я был гомеопатом, заинтересованным в том, чтобы переубедить научное сообщество, я (может быть, наивно?) был бы уверен в успехе.

kobak March 6 2017, 13:06:07 UTC

Вы не ответили на мой предыдущий комментарий тут -- а что все-таки такое "проверки фокусниками"?

Back to all threads