Кто может подсказать, почему на одних и тех же данных с одними и теми же параметрами кластеризация порой происходит по-разному, причем отличия весьма заметны (это и центры кластеров и количество наблюдений в них). Речь идет о K-Means
В случае с K-Means очень многое зависит от того, как выбраны центры кластеров. Надо смотреть, по какому принципу конкретный статпакет их выбирает - если берёт случайным образом, значит дело в этом. Либо берёт первые N наблюдений - тогда, возможно, порядок сортировки наблюдений менялся? что-нибудь в таком духе.
центры; 15.0.1gear_inniuJune 20 2007, 08:06:52 UTC
О ЦЕНТРАХ. Вам надо смотреть не столько Help, сколько алгоритм (pdf-документ в папке Help, прилагаемый к SPSS; в 15-й версии это один большой файл, в более ранних - разрозненные файлы, смотрите quick_cluster.pdf). Там вы увидите, что по умолчанию SPSS берет за начальные кластерные центры k кейсов, являющихся наиболее "выступающими углами" облака. Находит же их так
( ... )
По моему мнению, здесь (и почти всегда), обсуждая неясности статистики или алгоритмов, надо предоставлять данные, конкретные примеры. Без этого обсуждение имеет тенденцию превращаться в болтовню. KO
возможно, нет четкой структуры в данных или она не отыскивается за то количество итераций, которое установлено по умолчанию (если центры не перестанут смещаться за, кажется, 20 итераций, СПСС выведет сообщение об этом)
Comments 18
Reply
Сейчас пытаюсь в хелпе к ней отрыть что-нить про центры кластеров.
Reply
Reply
Посмотрю еще разок и отпишу тут со всеми подробностями
Reply
KO
Reply
Reply
Reply
Reply
Leave a comment