Альтернатива PCA для проверки корреляции бинарных переменных на больших массивах: ru

simmons_fan in ru_spss

Альтернатива PCA для проверки корреляции бинарных переменных на больших массивах

Sep 12, 2010 06:51

Уважаемые коллеги,
желаю спросить ваш совет о следующей проблеме.

В статье "The Social Semantics of LiveJournal FOAF: Structure and Change from 2004 to 2005" авторы приходят к выводу о том, что у пользователей ЖЖ интересы не коррелируют с френдами. Грубо говоря, те, кто указывает в своих интересах "веб-дизайн, мат, сиськи, этноэкспедиции и ководство" не добавляют в друзья ЖЖ Артемия Лебедева.

Делалось это в R с помощью PCA. Подробно вся процедура описана на стр. 5 статьи, я же скажу лишь о получившейся матрице. 18 725 строк представляли собою количество пользователей. 2 000 столбцов состояли из: 500 самых популярных интересов у данной выборки пользователей в 2004 и 2005 годах + 500 самых популярных (по количеству френдов) пользователей из той же самой выборки в 2004 и 2005 годах. В ячейках были, соответственно, 1 (если данный интерес/пользователь был у данного пользователя) или 0.

А теперь вопрос. У меня есть похожие данные - 1200 пользователей, 500 популярных интересов + 500 популярных пользователей, т.е. таблица 1200Х1000. Имеет ли смысл пытаться скормить всё это дело SPSS или есть альтернативные методы/программы для проверки корреляции между интересами и пользователями? И вообще, корректна ли такая интерпретация процедуры PCA? Авторы написали под это дело собственную функцию в R, но т.к. на моё письмо они до сих пор не ответили, то, боюсь, R отпадает.

Заранее благодарен за советы.

Корреляционный анализ, Переменные: двоичные (бинарные), Анализ главных компонент, Анализ латентных классов/профилей