Кластеризация

Jun 19, 2007 22:41

Кто может подсказать, почему на одних и тех же данных с одними и теми же параметрами кластеризация порой происходит по-разному, причем отличия весьма заметны (это и центры кластеров и количество наблюдений в них). Речь идет о K-Means

Алгоритма особенности/тонкости, SPSS Statistics: дефект/странность, Меры сходства/различия, Патчи, Кластерный анализ

Leave a comment

Comments 18

gear_inniu June 19 2007, 19:11:58 UTC
В случае с K-Means очень многое зависит от того, как выбраны центры кластеров. Надо смотреть, по какому принципу конкретный статпакет их выбирает - если берёт случайным образом, значит дело в этом. Либо берёт первые N наблюдений - тогда, возможно, порядок сортировки наблюдений менялся? что-нибудь в таком духе.

Reply

strider_o June 19 2007, 19:18:32 UTC
Речь идет об SPSS 15.0.1 Полная версия
Сейчас пытаюсь в хелпе к ней отрыть что-нить про центры кластеров.

Reply

центры; 15.0.1 gear_inniu June 20 2007, 08:06:52 UTC
О ЦЕНТРАХ. Вам надо смотреть не столько Help, сколько алгоритм (pdf-документ в папке Help, прилагаемый к SPSS; в 15-й версии это один большой файл, в более ранних - разрозненные файлы, смотрите quick_cluster.pdf). Там вы увидите, что по умолчанию SPSS берет за начальные кластерные центры k кейсов, являющихся наиболее "выступающими углами" облака. Находит же их так ( ... )

Reply

Re: центры; 15.0.1 strider_o June 20 2007, 08:27:37 UTC
Так, сейчас откачусь на 15.0
Посмотрю еще разок и отпишу тут со всеми подробностями

Reply


anonymous June 19 2007, 20:28:29 UTC
По моему мнению, здесь (и почти всегда), обсуждая неясности статистики или алгоритмов, надо предоставлять данные, конкретные примеры. Без этого обсуждение имеет тенденцию превращаться в болтовню.
KO

Reply

strider_o June 19 2007, 20:52:50 UTC
А еще бы здорово всем было подписываться )

Reply


alexwin1961 June 19 2007, 21:17:10 UTC
возможно, нет четкой структуры в данных или она не отыскивается за то количество итераций, которое установлено по умолчанию (если центры не перестанут смещаться за, кажется, 20 итераций, СПСС выведет сообщение об этом)

Reply

strider_o June 21 2007, 10:36:14 UTC
Итераций требуется меньше чем установленное значение. Уже тоже думал об этом.

Reply


Leave a comment

Up