кластерный анализ на дихотомических переменных

Jun 04, 2013 01:21

Ребят, подскажите пожалуйста, мучаюсь уже второй день. В СПСС новичок.
Есть вот такой вопрос в анкете:
1. КАКИЕ ВИДЫ ПРЕСТУПНОСТИ, ПРАВОНАРУШЕНИЙ ВЫЗЫВАЮТ У ВАС И ВАШЕЙ СЕМЬИ НАИБОЛЬШЕЕ БЕСПОКО ( Read more... )

Переменные: двоичные (бинарные), Ответ множественный (Multiple Response), Кластерный анализ

Leave a comment

Comments 9

gorgonops June 4 2013, 07:51:29 UTC
> создать кластер людей, которых больше всего волнуют преступления против жизни и здоровья, против имущества и те, кого волнует организационная преступность

Если вы заранее определяете свойства, к-рые должны различать классы респондентов, то это уже не кластерный анализ, а ручная (или как-л. автоматизованная) классификация. Кластерный же анализ сам классифицирует респондентов как он хочет, исходя из похожести респондентов их профилем ответов.

> может выбрать от 1 до 3 вариантов ответа, и поэтому он может быть как в одном, так и в другом кластере

Вовсе нет. Кластерный анализ (его классические виды) не предполагает иметь в итоге пересекающиеся кластеры. То, что вопрос был на множественный ответ, не должно вас поэтому смущать. Вы можете проделать кластерный анализ и по обоим вашим вопросам сразу, т.е. на основании ответов респондентов на 22 двоичных (1 vs 0) пунктов.

Reply

bilberry_fm June 4 2013, 08:14:48 UTC
У меня просто несостыковка получается при интерпретации, получилось, что ( ... )

Reply

kovla June 4 2013, 09:02:48 UTC
Я бы не стал делать кластерный анализ по обоим вопросам сразу, потому что измеряются разные понятия. Это не неправильно, и технически возможно, но я бы предпочел разделить выборку на кластеры по каждому вопросу, и затем просто сравнить кластеры. Например, простой таблицей сопряженности (cross-tab). В качестве вводных данных я бы скормил два сета бинарных переменных (1/0), сет из 9 и 13 переменных соответственно.

С другой стороны, для бинарных переменных лучше подходит LCA, анализ латентных классов. Правда, это наверное выходит за рамки вашего обучения и требует другой программатуры (например Lem или R).

Можно обойтись без кластерного анализа и просто продемонстрировать использование регресии (в данном случае logistic regression). Например, посмотреть насколько выбор смертной казни в качестве наказания зависит от восприятия различных преступлений. То есть в качестве зависимой - одна бинарная переменная из второго вопроса, в качестве факторов - весь набор бинарных переменных из первого вопроса.

Reply

bilberry_fm June 4 2013, 09:58:24 UTC
>Я бы не стал делать кластерный анализ по обоим вопросам сразу, потому что измеряются разные понятия. Это не неправильно, и технически возможно, но я бы предпочел разделить выборку на кластеры по каждому вопросу, и затем просто сравнить кластеры.

Спасибо за идею. Но до меня все равно не доходит как определить,какая из альтернатив 1-9 и 1-13 к какому из кластеров принадлежит.

>С другой стороны, для бинарных переменных лучше подходит LCA, анализ латентных классов. Правда, это наверное выходит за рамки вашего обучения и требует другой программатуры (например Lem или R)

о, такого, к сожалению , в нашей программе не было.

>Можно обойтись без кластерного анализа и просто продемонстрировать использование регресии (в данном случае logistic regression).
Спасибо, можно попробовать, правда, для этого нужно сначала разобраться с логистической регрессией, так как на парах нам логистическую не объясняли

Reply


bilberry_fm June 4 2013, 10:02:01 UTC
а регрессия с фиктивными переменными нет?

Reply


bilberry_fm June 4 2013, 20:37:47 UTC
Всем спасибо за советы. Решили делать 2 кластерных анализа отдельно для каждого вопроса а потом их сравнить кросстабуляцией ( ... )

Reply

gorgonops June 5 2013, 07:02:15 UTC
Извините, но интерпретировать за вас содержательно результаты никто здесь не возьмется, полагаю. Это ведь не статистический вопрос. Хочу только напомнить, что если m-кластерное решение кажется вам более интерпретабильным, чем n-кластерное решение, это еще не значит, что первое решение лучше (в смысле - более естественное) чем второе. И вообще не значит, что в данных есть есть какие-то кластеры. Вот батон хлеба, он не состоит из кластеров, вы можете разрезать его на две, три части, вдоль или поперек, и какое то из этих кластерных решений покажется вам интерпретабельнее, возможно. Но кластеров-то естественных не было! Вот гантель - другое дело: состоит из двух кластеров, соединенных перемычкой ( ... )

Reply


Leave a comment

Up