Года и факторный анализ

Dec 07, 2007 18:07

Уважаемые члены сообщества!
Представьте, у Вас есть данные на выборку людей с перечнем различных заболеваний, датой постановки диагноза. Также имеется набор годов начала употребления запрещенных препаратов.

то есть два случая выглядят так:
              |сифилис| гепатит С| героин| алкоголь
1.           |1976       |1986         |1975     | 1990 ( Read more... )

Регрессия логистическая (бинарная), Канонический корр. анализ не линейный, Регрессия Кокса, Анализ выживаемости, Кластерный анализ, Канонический корреляционный анализ, Ординация/перцептуальное картирование, Анализ главных компонент не линейный, Выборка цензурированная

Leave a comment

Comments 10

gorgonops December 7 2007, 16:46:42 UTC
Вы могли бы попробовать канонический корреляционный анализ между комплексами "Заболевания" и "Субстанции". Правда, дихотомические данные - столь же нехорошо для него, как и для факторного. В SPSS есть впрочем категориальный канонический анализ OVERALS, довольно сложный; насколько он в вашем случае поможет - с ходу трудно сказать. Хотите отдельно предсказывать каждое заболевание - логистическая регрессия.

Вы также можете анализировать сроки и риск наступления заболевания относительно сроков начала потребления тех или иных употребления субстанций. По-видимому, можно допустить что у части ваших потребляющих заболевание еще ПОКА не наступило, что говорит о цензурированном характере выборки. Тогда попробуйте актуарные таблицы (life tables) или Каплан-Мейера. Две разновидности регрессионного анализа Кокса также могут подойти, если у вас есть еще фоновые интересные вам факторы риска.

Reply

polryby4 December 8 2007, 08:03:02 UTC
Голосую за анализ выживаемости. Актуарные таблицы имеют смысл только если данных очень много, и расчет займет слишком много времени. Обычно стараются использовать Каплан-Мейера.
Сформированные подгруппы - это "употреблял"/"не употреблял"?

Reply

susociology December 9 2007, 15:50:16 UTC
да - "употреблял" / "не употреблял"

Reply


alexwin1961 December 7 2007, 21:17:32 UTC
попробуйте кластерный анализ на переменных

Reply


gorgonops December 8 2007, 03:41:51 UTC
А еще можно посоветовать наглядные карты, тем более процедуры не особо сложные: анализ соответствий или многомерная развертка. Оба покажут вам Заболевания и Субстанции во взаимном сродстве на карте сниженной размерности, хотя подходы в этих 2-х методах совсем разные. Входящие - таблица сопряженности Заболевания Х Субстанции: например частотная или содержащая иные меры сродства (подберите в Distances).

Reply


nokh December 8 2007, 05:39:52 UTC
Аналог факторного анализа для всех типов данных в SPSS есть (и похоже, только в SPSS и есть). Назавается оптимальное шкалирование (Optimal Scaling), расположен в модуле Data reduction рядом с факторным анализом. Здесь нужно выбрать: (1) являются ли все переменные номинальными или (2) есть и другие типы данных. В случае (1) проводится множественный анализ соответствий, который вам рекомендует gorgonops. В случае (2) расчитываются нелинейные главные компоненты методом Categorical PCA. Здесь есть возможность тонкой настройки типа данных (количественные, порядковые или номинальные), их сглаживания и дискретизации. Номинальные переменные на этапе дискретизации нужно не трогать, остальные обработать (я для количественных переменных обычно выбираю ранжирование). Результаты анализа даются в виде матрицы факторных нагрузок и интерпретируются аналогично факторному анализу ( ... )

Reply


kovla December 8 2007, 10:54:08 UTC
А чем вам не нравится факторный анализ на годах, это же интервальная переменная?

На дихотомных данных можно сделать latent class analysis.

Reply

susociology December 9 2007, 15:47:27 UTC
А что брать за "нулевую точку", самого старого пациента?

Reply

kovla December 9 2007, 16:52:17 UTC
Нулевая точка - это ratio level. Interval level - равные расстояния между значениями.

Reply

nokh December 9 2007, 17:16:16 UTC
Факторный анализ на годах не подойдет, т.к. во-первых, больший год не означает больший стаж, скорее наоборот и во-вторых, стартовали все в разные годы и для более молодых участников забега нужно вводить фору. Но зато по годам можно расчитать стаж наркомана. Это вполне осмысленная величина. К тому же она совпадает по направлению с неупотреблением. Т.е. "0" - не употребляет, "1" - употребляет 1 год, "5" - 5 лет и т.п. Правда между 0 и 1 для одних показателей может быть пропасть расстояния, для других - один шажок. Например для героина между 0 и 1 - пропасть, т.к. стартовать с укола в вену сложно, а для травы между 0 и 1 расстояние меньше, т.к. покурить проще, особенно если уже что-то курил. Для этого должен быть термин, может социологи подскажут как это называется когда между "категорически не хочу" и "не хочу" большое расстояние, а например, "не хочу" и "скорее не хочу" - почти одно и то же? Поэтому если делать CatPCA с использованием нулей и стажей то лучше в качестве типа данных в Define Scale... выбрать Spline ordinal (он ставится ( ... )

Reply


Leave a comment

Up