беспристрастность снова в бою (меморандум лжеученых, ч. 2)

Feb 16, 2017 14:58

Поскольку мой предыдущий пост вызвал реакцию спонтанного самоизменения материалов Комиссии по лженауке и борьбе с фальсификацией научных исследований (http://eugenegp.livejournal.com/289318.html), я решил подробнее посмотреть на их содержание. Всё то же приложение номер 5, будем ( Read more... )

гомеопатия, общественное

Leave a comment

kobak February 17 2017, 11:12:42 UTC
> Если кому интересно, в исследовании получено статистически
> достоверное долгосрочное улучшение (Long-term CGI
> improvement reached 12 points (63%, P <0.0001).

Эта Ваша фраза мне кажется misleading. Речь в Вашей записи идет о randomised, double blind, placebo controlled исследовании, и таким образом эта фраза звучит так, что разница между гомеопатией и плацебо была показана с достоверностью p<0.0001. По-крайней мере, так я понял эту фразу, когда прочитал Вашу запись.

На самом деле "Long-term CGI improvement reached 12 points (63%, P <0.0001)" относится к разнице между >1 годом после эксперимента и моментом диагноза, при этом до начала (а также после окончания) randomised double blind фазы эксперимента всем пациентам открыто прописывали гомеопатию (Prior to the randomised, double blind, placebo controlled crossover study, they were treated with individually prescribed homeopathic medications.). В этом нет ничего плохого, но "63%, P <0.0001" к сравнению гомеопатии и плацебо отношения не имеют, если я правильно понял.

Более релевантной фразой из абстракта является, на мой взгляд, следующая: "During the crossover trial, CGI parent-ratings were significantly lower under verum (average 1.67 points) than under placebo (P=0.0479)."

Или я что-то то не так понял?

Reply

eugenegp February 17 2017, 14:21:20 UTC
Ваше замечание достаточно состоятельно. Проблема, однако, заключается в довольно сложной методике, вызванной необходимостью совместить достаточно жесткие требования к доказательности "двойных слепых рандомизированных с контролем" и назначение индивидуализированной гомеопатической терапии для ADHD пациентов.

В данном исследовании гомеопатическое назначение перед началом эксперимента использовалось для скрининга участников. Среднее время гомеопатического лечения в ходе скрининга составило пять месяцев. Это привело, судя по всему, к сильному carry-over effect на этапе собственно сравнения verum vs placebo в обеих группах.

Соответственно, я затрудняюсь выставить ровно один показатель для выводов этого исследования (там внутри много интересного); но, строго говоря, вы скорее правы.

Reply

eugenegp February 17 2017, 14:24:21 UTC
Я поставил update. Всё это, конечно, упрощение по абстракту, но кому надо, прочитает статью.

Reply

kobak February 17 2017, 14:40:52 UTC
Я-то прочитал всю статью, и у меня по ней есть более содержательные вопросы (и к ней более содержательные претензии). Мой предыдущий комментарий был всего лишь реакцией на неточность в тексте Вашей записи. Неточность, как мне кажется, важную, т.к. разница между delta=1.67, p=0.048 (клинически незначительная разница, статистическая значимость на грани) и delta=12, p<0.0001 (клинически очень существенная разница, статистическая значимость бесспорна) огромная.

Более содержательные вопросы сформулирую чуть попозже.

Reply

eugenegp February 17 2017, 14:48:00 UTC
Я хотел бы предупредить, что не уверен, что буду защищать данное исследование от объективного критического разбора. Лично я бы не выставлял его на щит в качестве первой линии аргументации доказывания отличия гомеопатических препаратов высоких разведений от плацебо - из-за высокой сложности и самого исследования, и использованного терапевтического подхода и неочевидности клинического результата для широкой публики.

К данному исследованию можно придумать массу содержательных вопросов. Однако последние мои посты не об этом, а о необычном, на мой взгляд, "тщательном научном анализе публикаций", предпринятом Комиссией по лженауке и фальсификации научных исследований.

Reply

kobak February 17 2017, 15:07:07 UTC
Понял.

Вопросы такие:

(1) Зачем нужна была такая длиная фаза скрининга до начала слепой рандомизированной фазы? Судя по Figure 3, более или менее весь терапевтический эффект произошел уже в течение этих 5 месяцев, дальнейшее лечение (в т.ч. после окончания слепой фазы) никакого дальнейшего эффекта уже не оказывало. Зачем вообще нужен скрининг? Я понимаю, что авторы там пишут про индивидуальное лечение в гомеопатии, но не понимаю, зачем нужен скриниг. Мне бы казалось, что надо начинать слепую рандомизированную фазу сразу после выписывания рецепта. Что я упускаю?

(2) В данном конкретном исследовании авторы ожидали, что CGI при плацебо пойдет вверх, а при гомеопатии пойдет вниз или хотя бы останется на том же уровне. Как в первом, так и во втором этапах слепой фазы. Вместо этого, на первом этапе показатель пошел вверх в обеих группах (Figure 2), а на втором этапе в группе плацебо остался примерно на том же уровне. Авторы это обсуждают и предлагают некое объяснение, но оно мне не кажется убедительным. Лично мне наиболее вероятным объяснением того, что я вижу на Figure 2, кажутся просто случайные колебания. Кроме того, мне не совсем понятна их статистическая mixed model (почему в ней нет interaction term? почему только анализируется только второй этап, а не первый?), но это уже детали, в которые вдаваться не обязательно. В целом - Вам кажутся изображенные на Figure 2 результаты убедительными?

(3) А какие работы Вам кажутся наиболее однозначно и убедительно доказывающими превосходство гомеопатии над плацебо?

Reply

eugenegp February 17 2017, 16:30:07 UTC
1) В рамках гомеопатической доктрины отсутствие отклика или неадекватный отклик на препарат в общем случае применяется как элиминирующая или уточняющая диагностика. При индивидуальной терапии соответствие препарата конкретному пациенту должно быть установлено до ослепления, иначе гомеопат не сможет собственно подобрать работающий препарат (препараты).

Если при индивидуальном лечении вы будете проводить слепую рандомизированную фазу сразу после выписывания первого же рецепта, то вы фактически будет проверять отличие от плацебо не гомеопатии, а гомеопатической терапии at first sight в исполнении конкретного гомеопата. Такие исследования тоже возможны, но я бы категорически возражал против них в случае с ADHD (нечетким зонтиком состояний с неизвестной этиологией и разнообразной симптоматикой) - достаточно посмотреть на разнообразие препаратов, которые были назначены (речь не о том, что они разные, а о том, что с точки зрения гомеопата, они рядом с друг другом не лежали).

Продолжительность фазы скрининга, насколько я понял объяснение авторов, определилась тем, что критерием eligibility было улучшение на 50%. Столько времени в среднем понадобилось гомеопатам, чтобы встречаясь с родителями раз в месяц, и при необходимости меняя препараты, достичь такого улучшения.

2) Объяснение, данное авторами, мне кажется возможным, но не является убедительным. Рисунок 2 мне не кажется достаточно убедительным per se. Достаточно убедительной лично мне кажется совокупность рис.2 и таблицы 4. Целый ряд индикаторов, как достигших статистической значимости, так и не достигших, изменился в сторону, соответствующей терапевтической эффективности. По своему опыту (как анализа данных, так и гомеопатическому*) я полагаю, что эффект имел место.

(*Под гомеопатическим опытом я имею в виду не bias, а особенности гомеопатической терапии, при которой в многосимптомных случаях улучшение на некоторых этапах может наблюдаться не по primary или pre-defined outcomes)

3) Я полагаю, что с гипотезой, что гомеопатия является плацебо, не согласуется имеющийся массив исследований in vitro. Почти сотня работ, в том числе мультицентровых и в том числе высокого качества, эффект подтверждают, многие были реплицированы, около 70% - успешно. Несмотря на публикационный bias и репутационные риски. Это было предметом предыдущего моего поста. То, что в присутствии фокусников у Бенвениста не получился эксперимент, не может объяснять результаты https://www.ncbi.nlm.nih.gov/pubmed/15105967 и последующие. Однако, по моему мнению, эффект на клеточных биологических моделях может оказаться постоянно ускользающим и малоубедительным.

Поэтому мне наиболее убедительными представляются относительно простые, неиндивидуализированные терапевтические эксперименты - для тех патологических состояний, где возможна специфическая терапия.
Я по-прежнему считаю обладающим убедительной силой серию экспериментов Taylor et al. http://www.bmj.com/content/321/7259/471.full (интересно, в какой степени вы разделите критику их статистики?), в т.ч. по различным secondary outcomes и initial aggravation.
Мне также кажется убедительной Influence of Potassium Dichromate on
Tracheal Secretions in Critically Ill Patients* https://www.ncbi.nlm.nih.gov/pubmed/15764779

Reply

kobak February 17 2017, 16:42:06 UTC
Спасибо за подробный ответ!

1) Понятно. Но из этого следует, что слепой эксперимент тут возможен, только когда гомеопатия (с точки зрения лечащего гомеопата) уже подействовала, но необходимо продолжать принимать гомеопатию для поддержания эффекта. Если болезнь такова, что результатом действия является полное излечение и продолжать принимать гомеопатию не нужно (ну, напр., какая-нибудь бородавка, которая в итоге отвалилась), то слепой эксперимент невозможен в принципе?

Или когда Вы в п. (3) говорите, что "наиболее убедительными представляются относительно простые, неиндивидуализированные терапевтические эксперименты - для тех патологических состояний, где возможна специфическая терапия" -- это как раз речь идет о заболеваниях, где не нужна индивидуальная гомеопатическая терапия, а можно прописать стандарнтное гомеопатическое лекарство ("at first sight", как Вы написали)? Т.е. гомеопаты считают, что с некоторыми заболеваниями это возможно, а с некоторыми нет?

3) Спасибо за ссылки. Я посмотрю, когда будет время. Что касается "интересно, в какой степени вы разделите критику их статистики?", я не очень понял о какой именно критике речь.

Reply

eugenegp February 17 2017, 16:55:33 UTC
1) Как я и написал, он возможен, если вы согласитесь тестировать "гомеопатическую терапию at first sight в исполнении конкретного гомеопата". Это вполне валидное исследование, но как легко представить, с опасностью false negative. В случае отрицательного результата оно просто загубит репутацию одного-двух гомеопатов, не больше. Остальные фыркнут и скажут, что то были "неправильные гомеопаты".

Некоторые гомеопаты (где N>1) действительно считают, что для некоторых заболеваний или симптомов можно показать отличие от плацебо стандартным назначением (или первым назначением). Я и сам имею в запасе несколько дизайнов. Одно такое я вам привел (про липкие выделения).

3) Авторы "лже-научного" меморандума раскритиковали результаты Taylor, Reilly et al. :) Может быть, еще пост напишу.

Reply

kobak February 17 2017, 17:00:09 UTC
1) Ясно.

3) Окей, я прочитаю статью Taylor et al., не заглядывая в меморандум.

Reply

kobak February 17 2017, 23:28:11 UTC
Я прочел Taylor et al. 2000. По всем пунктам согласен с кратким Комментарием, который на странице по Вашей ссылке находится под статьей. Примечательно -- и подозрительно, -- что эффект в visual analogue score, который авторы собирались обнаружить (и который был обнаружен в предыдущих их работах), был НЕ обнаружен. Но по nasal peak inspiratory flow эффект сильный. Объяснить это я не могу, хоть в гомеопатию и не верю. Проблем со статистикой не увидел. Любопытно, в чем состояла статистическая критика в Меморандуме.

(Примечание: я не очень понял средний столбец в Figure 3; там, м.б., и есть какой-то статистический сбой, напр., в третьей строке; но это непринципиально.)

Не очень понял, почему статья заканчивается абзацем "To interpret these findings as arguing for homoeopathy having an effect may now be more plausible than our previous hypothesis of serial false positive results. 3 32 For now, we conclude that this study has failed to confirm our original hypothesis that homoeopathy is a placebo." Ссылка 32 вообще ведет на эдиториал, а не на текст этих авторов, а ссылка 3 ведет на их предыдущую работу в Lancet, которая заканчивается выводом о том, что гомеопатия работает. Почему они тут пишут про "our previous hypothesis of serial false positive results", мне осталось неясно.

Посмотрел, были ли у David Reilly статьи в продолжение этой серии (1985, 1986, 1994, 2000), но ничего не нашел. Надо было им повторить эту работу один в один, но не с n=50, а раз в десять больше, как в Комментарии советовали.

Reply

eugenegp February 18 2017, 11:37:32 UTC
Предыдущие исследования были по другим симптомокомплексам (астма и сенная лихорадка). Предположение, что сильные начальные обострения повлияли на субъективный visual analogue score, мне кажется разумным. Другое возможное объяснение - меньшая реактивность конкретного субъективного симптома. Однако обращаю внимание, что эффект все равно есть, но не достигает стат.значимости.

Предыдущие работы также тестировали hypothesis that homoeopathic potencies are placebos.

Критика статистики в меморандуме выглядит так: "Критики этого исследования [7], указывают, среди прочего на несоответствие статистической мощности исследования количеству участников. В
исследовании участвовал только 51 человек суммарно в обеих группах (гомеопатия и плацебо) при расчетном количестве в 60 в каждой группе."

[7] Это ссылка на блог (!) https://apgaylard.wordpress.com/2009/05/15/homeopathy-awareness-week-and-hay-fever/
Внимательный читатель соответствующих абзацев все поймет, но мне интересно ваше мнение.

Reply

kobak February 18 2017, 15:52:36 UTC
Процитированный Вами абзац критики довольно бессодержательный.

Расчетное кол-во 60 человек в группе исходило из 80% power подтведить результат предыдущей работы ("mean difference of 15 mm between the groups on visual analogue scale scores and a corresponding standard deviation of 29"). Если посчитать power для их итогового размера выборки в 50 человек суммарно, то получится 45% (это я сейчас посчитал). Это, конечно, очень мало. Таким образом, если предположить, что d = 15mm/29mm = 0.5 это реальный effect size, то в данном иследовании был только 45% шанс это показать с p<0.05. Результат был p>0.05, т.е. эффект показан не был.

Мораль из этого такая: если Вы (или авторы работы, или кто-то еще) верите в d=0.5, то не обязательно придумывать никаких объяснений того, почему в данном случае работа этого не продемонстрировала. Напр., Вы пишете: "Другое возможное объяснение - меньшая реактивность конкретного субъективного симптома" и т.п. На самом деле никаких возможных объяснений можно не изобретать: просто study was underpowered, вот и всё. False negative. Вероятность была больше 1/2, что будет false negative.

В любом случае, к делу (я имею в виду к критике в "Меморандуме") это не относится, т.к. основной результат этой работы -- разница в nasal peak inspiratory flow. Никакие power calculations тут роли не играют, т.к. для этой метрики их не было сделано.

Reply

eugenegp February 18 2017, 16:13:39 UTC
Хорошо, что мы понимаем это совершенно одинаково.

Reply

eugenegp February 19 2017, 10:45:31 UTC
На полях: могли бы Вы ответить, почему сочли бы исследование с n=500 более показательным, чем просто репликация c хорошим р? Поясню: если при n=500 получится значимый эффект, но р=0.02 - это усилит позицию в сторону отличия от плацебо?

Reply

kobak February 19 2017, 13:13:10 UTC
Я имел в виду, что большое n нужно для того, чтобы получить маленькое p, а не по какой-то другой причине.

Могу сформулировать немного подробнее, что нужно было бы лично мне, чтобы отнестись к такой работе всерьез.

(1) Pre-registered replication. Т.е. весь план исследования во всех деталях, включая весь статистический анализ, публикуется до начала эксперимента.

(2) Открытый доступ к данным, т.е. все данные (в анонимизированном виде) выкладываются в открытый доступ.

(3) Высокий стандарт статистической значимости, т.е. никаких р=0.02. В принципе, для confirmatory study, где cherry-picking исключено из-за п. 1, вполне достаточно p<0.0001 или как-то так. Но учитывая исключительную спорность предмета исследования (гомеопатии), было бы лучше принять что-то вроде стандарта физики высоких энергий, five sigma. "Extraordinary claims require extraordinary evidence".

(4) Опять же, учитывая исключительную спорность этой темы, я бы хотел какую-то процедуру, в которой слепой анализ гарантируется какой-то independent authority. Это можно оформить по-разному. Например, все сырые данные выкладываются в открытый доступ (в согласии с п.2) до того, как independent authority вскрывает коды и объявляет, какой пациент относится в какой группе. После этого подсчитываются результаты по группам и строятся графики.

Пункты 1 и 2 -- сейчас становятся вполне стандартными в некоторых областях. Например, Вы, может быть, слышали о т.н. replication crisis in psychology. Есть целый ряд очень известных экспериментальных результатов, о которых вдруг оказалось, что они нереплицируются и на самом деле были высосаны из пальца. Вокруг этого большой ажиотаж, на кону стоят многие репутации, и люди делают pre-registered replications и публикуют все данные.

Пункты 3 и 4 -- нужны скорее именно для гомеопатии (а также для левитации, телекинеза, и т.п. эффектов, которые меинстримная наука отрицает в принципе).

Замечу, что все это сделать совсем несложно. В работе Taylor et al. разница между гомеопатией и плацебо (на nasal flow) состовляет около 20 с ст. ошибкой примерно в 5. Т.е. это уже четыре сигмы! Если это настоящий эффект, то чтобы довести до пяти сигм, достаточно уменьшить ст. ошибку с 5 до 4, т.е. увеличить выборку в 25/16 раз -- это ведь просто ерунда. Мое n=500 было огромным преувеличением. Пусть будет n=100. Главное -- pre-registered + open data + independent guarantor of blindness.

Одна-единственная работа, сделанная по таким стандартам, в случае положительного результата произвела бы фурор.

Reply


Leave a comment

Up