Парадокс Симпсона

Jun 14, 2013 18:21

Срыв башки.

Парадокс Симпсона иллюстрирует неправомерность некоторых иногда опасных для жизни обобщений. Так, например, в ходе эксперимента в группе мужчин и группе женщин, больных одной и той же болезнью, к стандартному лечению прибавили новый лекарственный препарат. Результат по обеим группам в отдельности подтверждал эффективность нового ( Read more... )

любопытно

Leave a comment

netch January 22 2014, 06:39:28 UTC
Как только видишь, что размеры групп (суммы чисел в пределах столбца одной таблицы в твоём форматировании) не равны - результаты уже нельзя признавать. Нужно или сделать нормировку (допустимо при больших числах; не помню, всегда ли допустимо при 80), или требовать изначально равных значений. Но просто складывать уже нельзя.

И вот тут как раз интересно то, что при адекватной нормировке (например, пересчитать так, чтобы в каждой из контрольных групп сумма была равна 1000) приведённые тобой таблицы свидетельствуют про эффективность лекарства! После сложения пронормированных таблиц получится (извини, рамки не буду рисовать, строки и столбцы те же)

1148.49 969.19
851.51 1130.81

1148.49+1130.81 заметно больше, чем 851.51+969.19:) И в данном примере из википедии смысл оказался (не знаю, был ли заложен авторами примера) в том, что именно хитрое суммирование было применено для доказательства ложного вывода.
(На всякий случай - почему я делаю простое суммирование - да потому, что мужчин и женщин где-то поровну.)

staerum писал про нормирование, но как-то недостаточно убедительно и не сделал главного вывода:)

Если же отвлечься от данных таблиц, то основной фактор в том, что по таким сокращённым данным вообще нельзя сделать никаких выводов. Грубо говоря, правильная статистика должна давать повод для размышлений и дальнейшего анализа. Если этого повода в данных нет, то или это не первичный источник, или он специально обманывает. Под поводом для размышления я имею в виду конкретные данные с заметным разнообразием, показывающим направления дальнейшего анализа. Если речь о фармакологии, то как минимум должна быть разбивка по возрастным группам, тяжести болезни и т.п. - в идеале должна получиться плотная страница цифр. Нет такой страницы - ищи подвох или первоисточник.

Reply

gul_kiev January 22 2014, 09:06:34 UTC
Озадачивает другое. Мы можем иметь результаты тестирования лекарства с разбивкой по полу, по возрасту, по тяжести болезни - и во всех случаях иметь положительный эффект. Но мы можем не знать, что при разбивке по какому-то другому признаку (по наличию/отсутствию какого-нибудь специфического гена, например) лекарство окажется вредным для каждой из категорий.
Можем ли мы на каком-то основании предпочитать одно разбиение на группы другому для того, чтобы узнать, как оно "на самом деле"?

В примере из поста приведено разное количество участвовавших в эксперименте мужчин и женщин, хотя в популяции их количество примерно равное. Чего не скажешь обо всяких других признаках (цвет глаз, наличие гена и пр.).

Reply

netch January 26 2014, 13:56:32 UTC
Опасения понятны. Но обрати внимание, что в примере из поста было неравное количество участников двух групп, целевой и контрольной. Целевая была примерно в 2 раза больше.
У меня последние несколько дней как-то мозги не хотят в эту сторону поворачиваться, но мне кажется, что при равных группах не будет такого перекоса, как ты говоришь.
Запишу подумать это себе в todo на более спокойные времена.

Reply


Leave a comment

Up