Apr 02, 2014 16:12
неправильно психологов учат статистике. Во многих учебниках можно встретить разъяснение, как следует интерпретировать величину коэффицента корреляции. Согласно этим рекомендациям, например, 0 - 0,2 это очень слабая корреляция, 0,2 - 0,5 слабая, 0,5 - 0,7 средняя, 0,7 - 0,9 высокая, а 0,9 - 1 очень высокая корреляция. Все это вредная чушь, наносящая реальный вред исследователю нереалистичными перфекционистскими установками. То, что эти рекомендации высосаны из пальца, становится вполне очевидным, если обратить внимание на равномерный характер возрастания величины коэффициента корреляции.
Решил сегодня поиграться с таблицами сопряженности, сгенерированными на основании нормального распределения. Итак, допустим у нас есть вопрос с обычной пятибальной шкалой, за которой скрывается нормально распределенная переменная с единичной дисперсией. Предположим также для простоты, что испытуемый выбирает альтернативу 1, если его мнение по латентной шкале находится в пределеах от минус бесконечности до -1.5, альтернативу 2 - в интервале от -1.5 до -0.5, альтернативу 3 - в интервале от -0.5 до 0.5 и т.д. То есть, интервалы одинаковы и равны 1 стандартному отклонению.
Теперь также представим, что есть вторая переменная, также с пятью уровнями ответа. На каждом уровне распределение ответов по первой пусть будет нормальным с единичной дисперсией, меняться будет только мера положения (центр тяжести распределения). Сгенерируем таблицу в R:
require(questionr)
low <- c(-5, -1.5, -0.5, 0.5, 1.5)
high <- c(-1.5, -0.5, 0.5, 1.5, 5)
get.dist <- function(n, m) round(n*(pnorm(high, mean = m) - pnorm(low, mean = m)))
tb <- matrix(0, 5, 5)
tb[1,] <- get.dist(100, -0.50)
tb[2,] <- get.dist(100, -0.25)
tb[3,] <- get.dist(100, 0.00)
tb[4,] <- get.dist(100, 0.25)
tb[5,] <- get.dist(100, 0.50)
cramer.v(tb)
[1] 0.1632768
tb
[,1] [,2] [,3] [,4] [,5]
[1,] 16 34 34 14 2
[2,] 11 30 37 19 4
[3,] 7 24 38 24 7
[4,] 4 19 37 30 11
[5,] 2 14 34 34 16
В этом примере максимальная разница между центрами строчных категорий достигает одного стандартного отклонения. Конечно, V Крамера это не корреляция Пирсона, но достаточно близко. Как видим, при связи 0.16 различие в процентах между строками достигает 14-20%, что уже очень неплохо. А вот таблшица с более выраженной зависимостью, центры разнесены на
tb[1,] <- get.dist(100, -2)
tb[2,] <- get.dist(100, -1)
tb[3,] <- get.dist(100, 0)
tb[4,] <- get.dist(100, 1)
tb[5,] <- get.dist(100, 2)
cramer.v(tb)
[1] 0.4762799
1> tb
[,1] [,2] [,3] [,4] [,5]
[1,] 69 24 6 1 0
[2,] 31 38 24 6 1
[3,] 7 24 38 24 7
[4,] 1 6 24 38 31
[5,] 0 1 6 24 69
тут уже связь явно очень выраженная, разница в процентах на краях достигает 37-69%, хотя мера связи равна всего 0.48. Таким образом, при интерпретации зависимостей нужно принять предложенные Дж. Коэна: 0.1 это слабая связь, 0.3 - средняя а 0.5 уже высокая
r,
методы,
хозяйке на заметку