Comments | gul_kiev: Парадокс Симпсона

gul_kiev

Парадокс Симпсона

Jun 14, 2013 18:21

Срыв башки.

Парадокс Симпсона иллюстрирует неправомерность некоторых иногда опасных для жизни обобщений. Так, например, в ходе эксперимента в группе мужчин и группе женщин, больных одной и той же болезнью, к стандартному лечению прибавили новый лекарственный препарат. Результат по обеим группам в отдельности подтверждал эффективность нового ( Read more... )

любопытно

Comments 13

staerum June 14 2013, 19:13:11 UTC

А можно пойти дальше и, сделав ещё одна разделение (например по возрасту или по историям болезни или по генетики, произвольным, в общем, образом) обнаружить снова для каждой группы неэффективность лекарства.

Мужчины всего Принимавшие Не принимавшие
Выздоровевшие 700 80
Невыздоровевшие 800 130
Соотношение 0.875 0.615

Мужчины группа 1 Принимавшие Не принимавшие
Выздоровевшие 350 70
Невыздоровевшие 700 128
Соотношение 0.5 0.546

Мужчины группа 2 Принимавшие Не принимавшие
Выздоровевшие 350 10
Невыздоровевшие 100 2
Соотношение 3.5 5

Нормировать надо, например, по общему количеству пациентов и не будет таких проблем.

gul_kiev June 14 2013, 19:31:46 UTC

> А можно пойти дальше и, сделав ещё одна разделение (например по возрасту или по историям болезни или по генетики, произвольным, в общем, образом) обнаружить снова для каждой группы неэффективность лекарства.

Именно это и высаживает.
С одной стороны, результат по подгруппам важнее агрегированного.
Но с другой - имея любые статистические данные, можно придумать, как разделить пациентов на подгруппы таким образом, чтобы получить в каждой подгруппе нужный нам результат.

> Нормировать надо, например, по общему количеству пациентов и не будет таких проблем.

По каким именно подгруппам нормировать?
По полу, возрасту, весу, цвету глаз?.. Каждый пациент в чём-то уникален. Но эффективно ли лекарство?

peric June 14 2013, 20:19:50 UTC

Политики передают привет! Давно на вооружении ;-)

http://ru.wikipedia.org/wiki/Джерримендеринг

gul_kiev June 14 2013, 20:33:44 UTC

Это тоже интересно, но всё-таки гораздо более понятно и привычно.
Парадокс Симпсона круче: при том, что в общей (суммарной) статистике лекарство вредно, при разделении пациентов на группы оказывается, что в каждой из групп оно эффективно (а не просто в большинстве групп, что не было бы фокусом).

Thread 6

netch January 22 2014, 06:39:28 UTC

Как только видишь, что размеры групп (суммы чисел в пределах столбца одной таблицы в твоём форматировании) не равны - результаты уже нельзя признавать. Нужно или сделать нормировку (допустимо при больших числах; не помню, всегда ли допустимо при 80), или требовать изначально равных значений. Но просто складывать уже нельзя.

И вот тут как раз интересно то, что при адекватной нормировке (например, пересчитать так, чтобы в каждой из контрольных групп сумма была равна 1000) приведённые тобой таблицы свидетельствуют про эффективность лекарства! После сложения пронормированных таблиц получится (извини, рамки не буду рисовать, строки и столбцы те же)

1148.49 969.19
851.51 1130.81

1148.49+1130.81 заметно больше, чем 851.51+969.19:) И в данном примере из википедии смысл оказался (не знаю, был ли заложен авторами примера) в том, что именно хитрое суммирование было применено для доказательства ложного вывода.
(На всякий случай - почему я делаю простое суммирование - да потому, что мужчин и женщин где-то поровну.)

staerum писал про нормирование, но ( ... )

gul_kiev January 22 2014, 09:06:34 UTC

Озадачивает другое. Мы можем иметь результаты тестирования лекарства с разбивкой по полу, по возрасту, по тяжести болезни - и во всех случаях иметь положительный эффект. Но мы можем не знать, что при разбивке по какому-то другому признаку (по наличию/отсутствию какого-нибудь специфического гена, например) лекарство окажется вредным для каждой из категорий.
Можем ли мы на каком-то основании предпочитать одно разбиение на группы другому для того, чтобы узнать, как оно "на самом деле"?

В примере из поста приведено разное количество участвовавших в эксперименте мужчин и женщин, хотя в популяции их количество примерно равное. Чего не скажешь обо всяких других признаках (цвет глаз, наличие гена и пр.).

netch January 26 2014, 13:56:32 UTC

Опасения понятны. Но обрати внимание, что в примере из поста было неравное количество участников двух групп, целевой и контрольной. Целевая была примерно в 2 раза больше.
У меня последние несколько дней как-то мозги не хотят в эту сторону поворачиваться, но мне кажется, что при равных группах не будет такого перекоса, как ты говоришь.
Запишу подумать это себе в todo на более спокойные времена.

olegch82 February 24 2015, 06:54:24 UTC

Я тоже когда-то удивлялся этим эффектам, но теперь понял, что все это стандартные эконометрические штучки.

Связь между X и Y может быть положительной в обоих подвыборках и отрицательной в общей выборке. Главный трюк в том, что выборки не являются независимыми (ортогональными к) левосторонней переменной.

Если есть логическая уверенность в том, что характеристика выборки (пол) не влияет на Y (способность к выздоровлению от данной болезни), то эффект в общей выборке и в частных подвыборках будет схожим.

gul_kiev February 24 2015, 07:58:56 UTC

Да, всё так, но тут возникает вот какой вопрос.
Допустим, протестировали лекарство, и оно оказалось полезным.
Можем ли мы быть уверены, что при разделении нашей выборки на разные части (мужчины/женщины, молодые/старые, белые/чёрные, голубоглазые/кареглазые, кучерявые/прямоволосые, с геном в каком-нибудь аллеле A/B) у нас не получится, что лекарство плохо влияет в каждой из частей, т.е. что оно на самом деле для всех вредно?
Впрочем, если лекарство окажется вредным в каждой из частей, это ещё не означает, что мы не можем эти части разбить ещё мельче каким-нибудь способом, и в результате получить, что оно всё-таки полезно.

Иными словами, строгие на вид способы тестирования лекарств (двойной слепой, плацебо контролируемый и т.п.) основываются на достаточно свободном (и даже очевидно неверном) допущении о том, что мы учли все признаки, которые могут влиять на эффективность лекарства, и в одной тестируемой группе находятся только люди, у которых все эти признаки одинаковы. Иначе по статистике никаких уверенных выводов сделать нельзя.

olegch82 February 24 2015, 09:02:49 UTC

Да, строго по статистике окончательных выводов сделать нельзя. Поэтому к статистике нужно прилагать здравый смысл. Смотреть на механизм воздействия лекарства на организм и отсекать факторы, которые явно не могут влиять (вроде цвета глаз и формы волос :) и контролировать на те, которые могут (аллергии, возраст).

gul_kiev February 24 2015, 14:55:55 UTC

Всё тот же здравый смысл, от помех которого мы так стремились уйти в двойном слепом и прочих методах тестирования, надеясь сделать их совершенно объективными.
Цвет глаз и форма волос задаются генами, говорят о происхождении, коррелируют с разными другими генами (возможно, не столь явно влияющими на фенотип), и потому влиять на эффективность лекарств могут.