Пишу про распространённые студенческие ошибки в работе со статистикой

Mar 09, 2016 09:41

По опыту хождения на защиты курсовых и дипломных работ по психологии подметил ряд распространённых и коварных ошибок в работах. Задумал черкнуть текст, предостерегающий от таких ошибок. Буду благодарен, если специалисты по статистике проверят.

Чтобы не вываливать сразу много, пока первые пять пунктов.

Read more... )

Общие принципы статистики, Заблуждения в статистике

Leave a comment

Comments 15

gorgonops March 9 2016, 06:37:56 UTC
Вот здесь http://stats.stackexchange.com/q/4551/3277 можно почерпнуть много интересного, самые принципиальные общие заблуждения ( ... )

Reply

carpodacus March 9 2016, 08:43:59 UTC
1) Так ведь речь и идёт про студента, который ошибается со статистической частью работы. И, увы, даже не на семинаре и экзамене, а уже на защите.

Обычно это выглядит так. Студент наслышан, что для чего-то там в данных нужна нормальность. Он берёт и закидывает всю выборку своего исследования в тест Колмогорова-Смирнова. Получает p-значение, допустим 0,200 (предположим, что это достаточно большая выборка, чтобы сюда не относился случай 1). Торжествующе пишет, что данные имеют нормальное распределение и идёт делать любые параметрические методы. То есть принцип, где именно должно быть нормальное распределения для применения параметрической статистики, он не понимает. Более того, я встречал работы, где студент проверял на нормальность, а находя её - говорил, что идёт делать, скажем, Манна-Уитни. То есть делал проверку на нормальность просто потому, что так типа надо.
Вот об этой ситуации речь.

Reply

polryby4 March 11 2016, 22:10:03 UTC
"...а уже на защите" - так тут вопросы должны быть не к студенту, а к его руководителю. И все описанное Вами студент проделывает потому, что все окружающие поступают так же, и публикаций таких полно. И руководителя, читающего работу, ничего не настораживает.

Reply

carpodacus March 9 2016, 09:16:01 UTC
2) Кроме того, вы сами делаете ошибку, не различая понятия "статистический эффект" и "причинное воздействие ( ... )

Reply


Критерий Колмогорова-Смирнова и большие выборки igraja_pe4orina March 9 2016, 07:58:40 UTC
Кстати, а что происходит с проверкой на нормальность этим тестом на больших выборках (тысячи наблюдений). SPSS уверенно выдает р=0,000 для всех переменных.

Я так понимаю, что это особенность метода.

Как можно объяснить подобный результат более предметно?

Reply

Re: Критерий Колмогорова-Смирнова и большие выборки carpodacus March 9 2016, 08:31:56 UTC
Логично же, срабатывает тот же принцип расчёта критерия, только уже в обратную сторону. Чем больше выборки, тем легче углядеть между ними различие, тем более мелкие различия расцениваются значимыми. На многотысячных выборках Колмогорову-Смирнову не угодишь, ага. Я про эту сторону не писал, т.к. студентам оно почти никогда не грозит.

Reply


ralfer March 9 2016, 20:43:11 UTC
1) вы говорите про нормальность распределения, в то в ремя как для той же регрессии и связанной с нею методами важна нормальность остатков

2) честно, я не вижу смысла в проверках на нормальность, гомогенность дисперсии, и т.п. - как вы правильно пишите, при малых выборках они чаще всего не работают, при больших сверхчувствительны, но главное - важность их минимальна, так как параметрические тесты достаточно робастны

графический анализ данных - наше все

Reply


nokh March 10 2016, 22:19:39 UTC
Прочитал не всё, но выскажусь по тому, что уже резануло ( ... )

Reply


nokh March 10 2016, 22:19:58 UTC
3) Ненормльность и непараметрика. Здесь действительно существует недопонимание. И у вас, и у авторов некоторых учебников, и у комментаторов к ним... Любой стат. анализ - это применение некоей математической модели к данным. Если модель не подходит к данным, есть 2 пути ( ... )

Reply

gorgonops March 11 2016, 02:58:48 UTC
С очень многими вашими словами можно согласиться. Только ранжирование - не огрубление шкалы, т.к. число уникальных значений (уровней шкалы) тут не уменьшается. Ранжирование это налагание равномерного в принципе распределения на данные. Да, можно сказать так, что это сведение мерной шкалы к порядковой, но - не огрубление. При ранжировании мы не "теряем" часть информации, а скорее намеренно "выбрасываем" ее.

А вот огрубление вплоть до дихотомии - это потеря инфы, и "в 95%" случаев нерекомендуема.

Reply

nokh March 14 2016, 13:30:33 UTC
Про уникальность значений порядковой шкалы после ранжирования не задумывался - хорошее уточнение. А по поводу теряем или отбрасываем - видимо зависит от степени осознания последствий: кто-то намеренно выбрасывает, а кто-то теряет:)

Reply


Leave a comment

Up