Kendall's tau

Apr 18, 2008 19:24

1) Кто-нибудь знает почему в SPSS через Analyze->Correlate->Bivariate... можно посчитать Kendall's tau-b, но нельзя посчитать, скажем ( Read more... )

Статистики на базе гаммы (тау/Соммер..), Корреляция ранговая, Корреляция линейная Пирсона, Корреляция Спирмена, Данные: взвешивание, Критерии для таблиц сопряженности, Корреляция Кендалла

Leave a comment

Comments 25

gear_inniu April 18 2008, 22:27:43 UTC
Относительно пункта 3, я тоже когда-то этим вопросом интересовался, потом авторитетные коллеги сообщили, что упрощённая формула r=1-6... корректна лишь для случая, когда нет связанных рангов. Кендаллом, к сожалению, не интересовался.

Reply

sociolstat April 19 2008, 07:28:38 UTC
Спасибо, о подобном я догадывался. Кстати и коэффициент Кендалла (вариант tau a) также далеко не всегда адекватен (см., например,"Ранговые корреляции", стр. 48). А вот что понимают под просто tau без литеры a, b, c совсем не понятно. Там, где говрится, что в такой-то программе рассчитывается коэффициент Кендалла следует, вероятно, понимать, что рассчитывается tau b.

Reply

adn1 April 19 2008, 10:19:53 UTC
Стр. 48 - это где? Оч. интересно;-)
Тау без литеры - это P-Q/P+Q? где P - кол-во совпадений, Q - кол-во инверсий. Литеры обозначают введение поправок, например, на связи в рангах (Тау-би).
А вообще, любые ранг. методы работают так: сначала ранжируют, потом считают. А Ч.Спирмен увековечил свое имя в статистике тем, что первым упростил формулу Пирсона для рангов. Но разработчики СПСС справедливо наплевали на его вклад, и считают по Пирсону предварительно ранжированные данные, упрямо называя полученный результат "ро-Спирмена".

Reply

sociolstat April 19 2008, 10:55:26 UTC
Кэндел М. Ранговые корреляции. М.: "Статистика", 1975. На стр. 48 читаем: "Становится ясным, что tau a не является приемлемой мерой согласованности"
Формула для tau без литеры дается на стр. 46. Однако та же самая формула в Рабочей книге социолога (М.: УРСС, 2003)фигурирует на стр. 186 уже как tau b.
P-Q/P+Q - сильно смахивает на коэффициент гамма (стр. 187)
А где Вы видели формулу P-Q/P+Q ?

Reply


gorgonops April 19 2008, 09:59:56 UTC
(Пункт 1). То, что в Bivariate Correlations нельзя посчитать tau-c - который можно посчитать в Crosstabs - с натяжкой можно принять за недостаток. Очевидно, разработчики сочли, что в процедуре Bivariate Correlations редко появляются порядковые переменные с сильно неодинаковым числом значений, которые они принимают (случай для tau-c). А что такое "просто Kendall's tau"?

Reply

sociolstat April 19 2008, 11:08:18 UTC
tau-c, как я понял, используется для расчета конкордации по таблицам сопряженности. На стр. 58 Ранговых корреляций пишут, что, например, tau-а здесь некорректен, так как никогда не достигает единицы при NxN.
А вот что понимают под "просто tau" как раз и пытаюсь установить.

Reply

gorgonops April 19 2008, 13:05:47 UTC
Вообще, все эти родственные меры легко понять. Числитель везде P-Q (число конкордантных пар наблюдений минус число дискордантных пар). Знаменатель:
Gamma: P+Q
Tau-a: N*(N-1)/2 = P+Q+Tx+Ty+Txy
Somer's D("symmetric"): средняя арифметическая P+Q+Tx и P+Q+Ty
Tau-b: средняя геометрическая их же
Tau-c: (N**2)*(k-1)/2k
где Tx, Ty, Txy - число пар наблюдений с одинаковыми значениями (ties) по переменной x, y, обеим x и y, соответственно; N - число наблюдений, т.е. grand total; k - число разных значений (категорий) в переменной, где таковых меньше.

Gamma, таким образом, игнорирует ties; Tau-a учитывает, но без "коррекции". Tau-c понять посложнее, здесь вносится поправка, подобная как в коэф. V-Крамера, позволяющая коэф-ту принимать крайние значения +-1 в неквадратных таблицах, можно сказать так, что это есть tau-b чуть "приподнятый", чтобы последний мог в прямоугольных таблицах доходить до +-1.

Reply


alexwin1961 April 19 2008, 14:03:14 UTC
1) потому что это выбор разработчиков, посчитавших необходимым свести вместе коэффициенты для некатегиальных данных
2) потому что значимость в случае введения поправки можно посчитать только асимптотически
3) посмотрите в алгоритмы -- подсчет ведется совсем не по формуле Пирсона, поскольку ро учитывает связанные ранги, так что формула скорее близка к классической упрощенной для ручных подсчетов

Reply

adn1 April 19 2008, 20:55:54 UTC
Если в SPSS заменить исходные значения переменных рангами (Rank Cases...), и затем посчитать корреляции Пирсона, то они будут равны корреляциям Спирмена для тех же данных (до ранжирования). И так всегда, хоть ты тресни :-))

Reply

придется треснуть alexwin1961 April 19 2008, 22:09:49 UTC
А попробуйте вот это:

data list free / X Y W.
begin data.
1 3 1.2
2 3 3.1
2 1 1.2
2 3 1.7
4 3 2.1
end data.

weight by W.

RANK
VARIABLES=X Y (A) /RANK /TIES=MEAN.

COR RX WITH RY.

NONPAR CORR
/VARIABLES=X Y
/PRINT=SPEARMAN TWOTAIL NOSIG
/MISSING=PAIRWISE .

Reply

Re: придется треснуть adn1 April 20 2008, 02:56:33 UTC
А зачем "weight by W"? Мы этим не пользуемся:-)
А если без "взвешивания"?

Reply


volokhonsky April 19 2008, 17:32:58 UTC
1) Скорее всего потому что на тех данных, для которых корректно считать просто тау, его результат численно равен тау-би. А для тех, для которых некорректно - зачем считать?
2) Не знаю
3) Потому что коэффициент Спирмена по своей сути является математическим "упрощением" коэффициента Пирсона для ситуации ранговых данных. И результат коэффициента Спирмена при соблюдении "ранговости" данных численно равен коэффициенту Пирсона. А лишние алгоритмы плодить никому не надо. Равно как, кстати, и коэффициент четырёхклеточной сопряжённости для бинарных данных.

Reply


Leave a comment

Up