Относительно пункта 3, я тоже когда-то этим вопросом интересовался, потом авторитетные коллеги сообщили, что упрощённая формула r=1-6... корректна лишь для случая, когда нет связанных рангов. Кендаллом, к сожалению, не интересовался.
Спасибо, о подобном я догадывался. Кстати и коэффициент Кендалла (вариант tau a) также далеко не всегда адекватен (см., например,"Ранговые корреляции", стр. 48). А вот что понимают под просто tau без литеры a, b, c совсем не понятно. Там, где говрится, что в такой-то программе рассчитывается коэффициент Кендалла следует, вероятно, понимать, что рассчитывается tau b.
Стр. 48 - это где? Оч. интересно;-) Тау без литеры - это P-Q/P+Q? где P - кол-во совпадений, Q - кол-во инверсий. Литеры обозначают введение поправок, например, на связи в рангах (Тау-би). А вообще, любые ранг. методы работают так: сначала ранжируют, потом считают. А Ч.Спирмен увековечил свое имя в статистике тем, что первым упростил формулу Пирсона для рангов. Но разработчики СПСС справедливо наплевали на его вклад, и считают по Пирсону предварительно ранжированные данные, упрямо называя полученный результат "ро-Спирмена".
Кэндел М. Ранговые корреляции. М.: "Статистика", 1975. На стр. 48 читаем: "Становится ясным, что tau a не является приемлемой мерой согласованности" Формула для tau без литеры дается на стр. 46. Однако та же самая формула в Рабочей книге социолога (М.: УРСС, 2003)фигурирует на стр. 186 уже как tau b. P-Q/P+Q - сильно смахивает на коэффициент гамма (стр. 187) А где Вы видели формулу P-Q/P+Q ?
(Пункт 1). То, что в Bivariate Correlations нельзя посчитать tau-c - который можно посчитать в Crosstabs - с натяжкой можно принять за недостаток. Очевидно, разработчики сочли, что в процедуре Bivariate Correlations редко появляются порядковые переменные с сильно неодинаковым числом значений, которые они принимают (случай для tau-c). А что такое "просто Kendall's tau"?
tau-c, как я понял, используется для расчета конкордации по таблицам сопряженности. На стр. 58 Ранговых корреляций пишут, что, например, tau-а здесь некорректен, так как никогда не достигает единицы при NxN. А вот что понимают под "просто tau" как раз и пытаюсь установить.
Вообще, все эти родственные меры легко понять. Числитель везде P-Q (число конкордантных пар наблюдений минус число дискордантных пар). Знаменатель: Gamma: P+Q Tau-a: N*(N-1)/2 = P+Q+Tx+Ty+Txy Somer's D("symmetric"): средняя арифметическая P+Q+Tx и P+Q+Ty Tau-b: средняя геометрическая их же Tau-c: (N**2)*(k-1)/2k где Tx, Ty, Txy - число пар наблюдений с одинаковыми значениями (ties) по переменной x, y, обеим x и y, соответственно; N - число наблюдений, т.е. grand total; k - число разных значений (категорий) в переменной, где таковых меньше.
Gamma, таким образом, игнорирует ties; Tau-a учитывает, но без "коррекции". Tau-c понять посложнее, здесь вносится поправка, подобная как в коэф. V-Крамера, позволяющая коэф-ту принимать крайние значения +-1 в неквадратных таблицах, можно сказать так, что это есть tau-b чуть "приподнятый", чтобы последний мог в прямоугольных таблицах доходить до +-1.
1) потому что это выбор разработчиков, посчитавших необходимым свести вместе коэффициенты для некатегиальных данных 2) потому что значимость в случае введения поправки можно посчитать только асимптотически 3) посмотрите в алгоритмы -- подсчет ведется совсем не по формуле Пирсона, поскольку ро учитывает связанные ранги, так что формула скорее близка к классической упрощенной для ручных подсчетов
Если в SPSS заменить исходные значения переменных рангами (Rank Cases...), и затем посчитать корреляции Пирсона, то они будут равны корреляциям Спирмена для тех же данных (до ранжирования). И так всегда, хоть ты тресни :-))
1) Скорее всего потому что на тех данных, для которых корректно считать просто тау, его результат численно равен тау-би. А для тех, для которых некорректно - зачем считать? 2) Не знаю 3) Потому что коэффициент Спирмена по своей сути является математическим "упрощением" коэффициента Пирсона для ситуации ранговых данных. И результат коэффициента Спирмена при соблюдении "ранговости" данных численно равен коэффициенту Пирсона. А лишние алгоритмы плодить никому не надо. Равно как, кстати, и коэффициент четырёхклеточной сопряжённости для бинарных данных.
Comments 25
Reply
Reply
Тау без литеры - это P-Q/P+Q? где P - кол-во совпадений, Q - кол-во инверсий. Литеры обозначают введение поправок, например, на связи в рангах (Тау-би).
А вообще, любые ранг. методы работают так: сначала ранжируют, потом считают. А Ч.Спирмен увековечил свое имя в статистике тем, что первым упростил формулу Пирсона для рангов. Но разработчики СПСС справедливо наплевали на его вклад, и считают по Пирсону предварительно ранжированные данные, упрямо называя полученный результат "ро-Спирмена".
Reply
Формула для tau без литеры дается на стр. 46. Однако та же самая формула в Рабочей книге социолога (М.: УРСС, 2003)фигурирует на стр. 186 уже как tau b.
P-Q/P+Q - сильно смахивает на коэффициент гамма (стр. 187)
А где Вы видели формулу P-Q/P+Q ?
Reply
Reply
А вот что понимают под "просто tau" как раз и пытаюсь установить.
Reply
Gamma: P+Q
Tau-a: N*(N-1)/2 = P+Q+Tx+Ty+Txy
Somer's D("symmetric"): средняя арифметическая P+Q+Tx и P+Q+Ty
Tau-b: средняя геометрическая их же
Tau-c: (N**2)*(k-1)/2k
где Tx, Ty, Txy - число пар наблюдений с одинаковыми значениями (ties) по переменной x, y, обеим x и y, соответственно; N - число наблюдений, т.е. grand total; k - число разных значений (категорий) в переменной, где таковых меньше.
Gamma, таким образом, игнорирует ties; Tau-a учитывает, но без "коррекции". Tau-c понять посложнее, здесь вносится поправка, подобная как в коэф. V-Крамера, позволяющая коэф-ту принимать крайние значения +-1 в неквадратных таблицах, можно сказать так, что это есть tau-b чуть "приподнятый", чтобы последний мог в прямоугольных таблицах доходить до +-1.
Reply
2) потому что значимость в случае введения поправки можно посчитать только асимптотически
3) посмотрите в алгоритмы -- подсчет ведется совсем не по формуле Пирсона, поскольку ро учитывает связанные ранги, так что формула скорее близка к классической упрощенной для ручных подсчетов
Reply
Reply
data list free / X Y W.
begin data.
1 3 1.2
2 3 3.1
2 1 1.2
2 3 1.7
4 3 2.1
end data.
weight by W.
RANK
VARIABLES=X Y (A) /RANK /TIES=MEAN.
COR RX WITH RY.
NONPAR CORR
/VARIABLES=X Y
/PRINT=SPEARMAN TWOTAIL NOSIG
/MISSING=PAIRWISE .
Reply
А если без "взвешивания"?
Reply
2) Не знаю
3) Потому что коэффициент Спирмена по своей сути является математическим "упрощением" коэффициента Пирсона для ситуации ранговых данных. И результат коэффициента Спирмена при соблюдении "ранговости" данных численно равен коэффициенту Пирсона. А лишние алгоритмы плодить никому не надо. Равно как, кстати, и коэффициент четырёхклеточной сопряжённости для бинарных данных.
Reply
Leave a comment