Leave a comment

uborshizzza December 6 2007, 18:25:07 UTC
Да, выбор ровных границ сделан для простоты восприятия, а с точки зрения математики задачу нужно решать немного иначе. Данная задача относится к кластерному анализу, точнее, к простому варианту - анализу по одной числовой переменной (когда имеется естественная мера различия и нет игры с разными весовыми вкладами отдельных переменных).

Тут есть 2 случая:
а) данные близки друг к другу (различия между некоторыми близки или менее статистической погрешности). В этом случае имеет смысл запустить иерархический кластерный анализ, при котором два самых близких объекта объединяются в один, потом - следующие два и так далее до тех пор, пока не нужно будет объединять в один объекты, которые уже достоверно отличаются. Этот метод анализа сам определяет, на какое количество групп нужно разбить объекты.

На объемах порядка миллиона и более статпогрешность будет в 0,1%, то есть это - не рассматриваемый случай.
б) нужно объединять и объекты со статистически различающимися показателями (иначе кластеров слишком много). В этом случае количество групп задается волевым образом, а подбирается тот вариант группировки, при котором полученная классификация дает наименьшую внутригрупповую дисперсию. Называется это кластеризацией по К средним.

Популярные статпакеты делают это с полпинка - за пару минут. Так что если вдруг надо, то могу либо провести расчет, либо написать инструкцию, как это делать.

Reply

ammosov December 6 2007, 18:27:12 UTC
У меня нет ничего, кроме Excel. Не могу ничего такого сделать.

Reply

uborshizzza December 6 2007, 18:58:50 UTC
Хорошо. Завтра утром - идет?

Reply

ammosov December 6 2007, 19:01:04 UTC
Да хоть на той неделе, я все равно работаю, для души вещи делать особо некогда.

Reply

uborshizzza December 7 2007, 08:21:38 UTC
Done
Для 2 кластеров:
первая группа - от Тюменской области и выше, вторая - от Усть-Ордынский Бурятский АО и ниже

Для 3 кластеров:
первая группа - от Дагестана и выше.
вторая группа - от Тывы до Марий Эл
третья группа - от Пензенской обл. и ниже

Для 4 кластеров:
первая группа - Чечня, Ингушетия, Кабардино-Балкария
вторая группа - Модровия, карачаево-Черкесия, Дагестан
третья группа - от Тывы до Марий Эл
четвертая группа - от Пензенской обл. и ниже

Для 5 кластеров:
первая группа - Чечня, Ингушетия, Кабардино-Балкария
вторая группа - Модровия, карачаево-Черкесия, Дагестан
третья группа - от Тывы до Тюменской обл.
четвертая группа - от Усть-Ордынский Бурятский АО до Кировской обл.
пятая группа - Вологодская обл. и ниже

Reply

ammosov December 7 2007, 12:48:14 UTC
Спасибо, прокомментировал.

http://ammosov.livejournal.com/281177.html

Reply

semen_serpent December 8 2007, 11:07:43 UTC
Не поясните, что за кластеры?

Reply

uborshizzza December 8 2007, 13:21:48 UTC
Кластеры - в буквальном переводе "созвездия". Кластерный анализ=решение задачи классификации, когда нужно набор объектов разбить на несколько по возможности более однородных подгрупп.

Немного (но зато на простом языке и с указанием, как это можно делать современными программами) об этом есть в http://uborshizzza.livejournal.com/40641.html.

Reply


Leave a comment

Up