Пишу про распространённые студенческие ошибки в работе со статистикой

Mar 09, 2016 09:41

По опыту хождения на защиты курсовых и дипломных работ по психологии подметил ряд распространённых и коварных ошибок в работах. Задумал черкнуть текст, предостерегающий от таких ошибок. Буду благодарен, если специалисты по статистике проверят.

Чтобы не вываливать сразу много, пока первые пять пунктов.

Read more... )

Общие принципы статистики, Заблуждения в статистике

Leave a comment

gorgonops March 9 2016, 06:37:56 UTC
Вот здесь http://stats.stackexchange.com/q/4551/3277 можно почерпнуть много интересного, самые принципиальные общие заблуждения.

А у вас предостаточно странностей. Вот например.
--> Если общая выборка исследования дала нормальное распределение, то дальше можно сравнивать что угодно с чем угодно при помощи параметрических методов.

Во-первых, непонятно. Что значит "что угодно с чем угодно". Студент, к-рый такое произнесет, сразу должен быть выгнан с семинара или экзамена. Далее. Если распределение в совокупной выборке совсем уж нормальное, то это как раз довод в пользу того, чтобы НЕ делать никаких сравнений средних групп. Ибо если группы различаются средними, совокупное распределение все более раздвигается от нормальности по направлению к полимодальности.

Или, например, "Взаимная связь. То есть связь в обе стороны". Не придирайтесь. Сказано же "взаимосвязь", а не "взаимовлияние". "Взаимо" не обязательно означает именно эффект или движение, но может значить и просто "парность, обоюдность". Кроме того, вы сами делаете ошибку, не различая понятия "статистический эффект" и "причинное воздействие". Возьмите простой коэф. корреляции Пирсона: он не позволяет судить о направлении причинной зависимости, да; но он тем не менее основан на линейном регрессионном эффекте (это одна из его трактовок), т.е. на статистической ЗАВИСИМОСТИ Y от X. Последняя имеет одинаковую силу, X->Y = Y-> X, если ее выразить стандартизованным бета-коэффциентом (к-рый и есть r). Именно поэтому мы можем заменить слово "направленный статистический эффект" на "взаимосвязь", просто на "связь".

И так далее.

Reply

carpodacus March 9 2016, 08:43:59 UTC
1) Так ведь речь и идёт про студента, который ошибается со статистической частью работы. И, увы, даже не на семинаре и экзамене, а уже на защите.

Обычно это выглядит так. Студент наслышан, что для чего-то там в данных нужна нормальность. Он берёт и закидывает всю выборку своего исследования в тест Колмогорова-Смирнова. Получает p-значение, допустим 0,200 (предположим, что это достаточно большая выборка, чтобы сюда не относился случай 1). Торжествующе пишет, что данные имеют нормальное распределение и идёт делать любые параметрические методы. То есть принцип, где именно должно быть нормальное распределения для применения параметрической статистики, он не понимает. Более того, я встречал работы, где студент проверял на нормальность, а находя её - говорил, что идёт делать, скажем, Манна-Уитни. То есть делал проверку на нормальность просто потому, что так типа надо.
Вот об этой ситуации речь.

Reply

polryby4 March 11 2016, 22:10:03 UTC
"...а уже на защите" - так тут вопросы должны быть не к студенту, а к его руководителю. И все описанное Вами студент проделывает потому, что все окружающие поступают так же, и публикаций таких полно. И руководителя, читающего работу, ничего не настораживает.

Reply

carpodacus March 9 2016, 09:16:01 UTC
2) Кроме того, вы сами делаете ошибку, не различая понятия "статистический эффект" и "причинное воздействие".

Можно, я разъясню Вам своё понимание регрессии, а Вы откомментируете, прав я или нет? Я воспринимаю понятия «зависимая» и «независимая переменная» в регрессионном анализе лишь как вычислительный приём. Являются ли они зависимой и независимой переменной в плане реального обусловливания одного другим - вопрос не к статистической обработке. Это решается исходя из методологии исследования. Верно или неверно?

Что касается корреляции как взаимосвязи, то речь идёт о рассуждениях типа «Мы обнаружили значимую корреляцию между вербальным интеллектом и коммуникативной компетентностью. Таким образом, высокое развитие вербально-логического мышления позволяет человеку выстраивать многообразные речевые конструкции, позволяющие компетентно поддерживать диалогический контакт. В то же время, компетентное поддержание социальных связей выступает условием постоянной умственной нагрузки, стимулируя развитие интеллекта». То есть фактически слово «взаимосвязь» вызывает соблазны воспринимать его именно как «взаимовлияние», когда ни в какую сторону влияние ещё не доказано.

Reply

carpodacus March 9 2016, 09:45:46 UTC
Откорректировал мысль. Как теперь?

5. Выявляя взаимосвязь, корреляционный анализ позволяет доказать, что две переменные взаимно действуют друг на друга.

Слово «взаимосвязь» регулярно появляется в работах, организация которых не позволяет найти причин и следствий. Студенты обычно в курсе, что корреляция не означает «влияния», это слово они предусмотрительно и заменяют «взаимосвязью».

Как Вы думаете, если корреляция не способна подтвердить влияние даже в одну сторону, может ли она подтвердить влияние в обе стороны? Корреляция показывает НЕКУЮ СВЯЗЬ. Вовсе не обязательно двустороннюю.

Эта связь допускает обычное одностороннее влияние: X влияет на Y безо всякого обратного эффекта. Или наоборот: только Y влияет на X. Если Вы будете коррелировать две переменные, одна из которых заведомо первична и независима, а вторая от неё зависит - Вы тоже должны получить значимую корреляцию.

Иногда X и Y действительно могут взаимно воздействовать друг на друга. Наконец, связь вообще может быть только опосредованной каким-то третьим Z, когда X и Y непосредственно друг на друга не действуют. В учебнике Майерса рассказывается, что высота надгробий высоко коррелирует с количеством прожитых лет, поскольку чем дольше прожил человек, тем больше он разбогател и тем более роскошный памятник закажут его родственники (это касается западных стран, конечно). Корреляция показывает какую-то связь, сама по себе не различая случаев одностороннего влияния, двустороннего влияния, опосредованного влияния. И без других данных предпочесть какое-то объяснение другим невозможно.

Проблемы возникают, когда на стадии интерпретации человек воспринимает слово «взаимосвязь» как «взаимовлияние» и начинает рассуждать, почему в рамках установленной связи X способствует развитию (или ослаблению) Y, а Y, в свою очередь, стимулирует X.

Reply

gorgonops March 9 2016, 11:07:53 UTC
--> Можно, я разъясню...
Где-то согласен, но мне не нравится "лишь как вычислительный приём". Регрессия моделирует воздействие X->Y. Если она подтверждает это воздействие (статистически), то это довод в пользу вашей теории, что в реальности имеет место X->Y. Но это не довод против теории, что в реальности воздействие обратное X<-Y. Только ваша методология, а также здравый смысл, дают уверенность, что направленность в реальности именно X->Y, а не наоборот. Регрессия моделировала эту направленность и именно ее, но не опровергала обратную направленность.

--> Что касается корреляции как взаимосвязи...
Если теория / здравый смысл утверждает, что именно X->Y, а не X<-Y или Z->X,Y возможно в реальности, то использование симметричной корреляции (вроде r Пирсона), устанавливающей связь X~Y, достаточно для вывода о присутствии X->Y в реальности. И не требуется регрессия. Поэтому то, что "говорят студенты", не всегда некорректно. Другое дело, если (1) теория / здравый смысл шире допускает, что возможно в реальности и X<-Y или Z->X,Y; или если (2) симметричная мера не годится для данных (к примеру, связь не линейная). Тогда можно предъявить претензию: "корреляция (r) не есть каузация".

Reply


Leave a comment

Up