Кластерный анализ результатов голосования в КС

Oct 31, 2012 21:48

Оригинал взят у alexanderbragin в Кластерный анализ результатов голосования в КС
Дисклеймер. Автор не является профессионалом в кластерном анализе, электоральной статистике, политологии и прочих вещах о которых пойдет речь в посте. Любая конструктивная критика приветствуется. Ниже для краткости все кандидаты именуются по фамилиям.

Предмет анализа: Предпочтения избирателей в КС. Поиск кластеров (групп) избирателей с общими предпочтениями.
Входные данные: Расшифрованный протокол из 81691 голосов. На сколько я понимаю, в нем в том числе присутствуют отфильтрованные ЦВК голоса МММщиков. https://github.com/xoposhiy/cvk2012/blob/master/protocols/protocols/decrypted.csv
Метод: самоорганизующиеся карты Кохонена (SOM-карты).

Все что надо знать про SOM-карты для понимания процесса:

Карта представляет из себя двумерную сетку. По сетке распределяются бюллетени с голосами, таким образом, что:
  • В каждой ячейке сетки находятся максимально похожие бюллетени.
  • Чем ближе ячейка A к ячейке B, тем больше схожи бюллетени ячейки A c бюллетенями из ячейки B       
           Условно говоря: абсолютно одинаковые бюллетени окажутся в одной ячейке;
                                    различающиеся на пару голосов в соседних;
                                    совсем непохожие в разных концах карты;
  • Другого физического смысла координаты в данной карте не имеют.
Подробней о SOM-картах http://mathcs.emory.edu/~kthayer/ifcsoft/som.html

Результат распределения бюллетеней по кучкам. 


Здесь цветом ячейки показано насколько кластер отличается от соседних. 
Чем темнее ячейка, тем больше она отличается от соседних. Чем светлее, тем меньше различий.
Точка в  центре ячейки показывает количество бюллетеней, которые в данную ячейку уложились: чем толще точка, тем больше бюллетеней.

Теперь когда бюллетени рассортированы, фиксируем интересующего нас кандидата X и смотрим, в каких ячейках за него голосовали, а в каких нет.
На карту количество проголосовавших в данной ячейке будем наносить цветом


в интервале от темно синего(в ячейке никто не голосовал за кандидата X) до темно-красного (в ячейке все голосовали за Х).

Посмотрим что это нам даст.
Возьмем для затравки карты Гудкова старшего (слева) и Гудкова младшего (справа)




Оказывается практически все люди, голосовавшие за одного из Гудковых, голосовали и за второго. Логично.

А вот карты кандидатов Курамшина, Лаврова, Агишева и Аверьянова.





Видно, что подавляющее число избирателей голосовавших за одного из них, голосовали и за остальных.
Тоже все логично - все четверо входят в список МММ. Остальные кандидаты "списка Мавроди" имеют такой же четкий кластер в левом верхнем углу карты. По разным подсчетам в этом кластере 16908 - 17393 бюллетеней, что вполне соответствует оценкам ЦВК,
Глядя на карты кандидатов из этого списка можно легко понять за кого голосовали только МММщики, а за кого еще и нормальные люди.
Вот например, Пряников.


Видно, что своих избирателей у него достаточно мало, и они не образуют какой-либо явно выраженный кластер.

А вот Гельфанд - совершенно другая ситуация.


У победителей по гражданскому списку больше голосов от МММ ни у кого нет.

Попробуем выделить кластеры кандидатов ( а если точнее избирателей, голосующих за кандидатов)
Левые
Карта Удальцова. 


Интересно сравнить карту Удальцова с картой Гельфанда.
Избиратели Гельфанд и Удальцов на одной карте:


 

Красная область - Удальцов, Синяя - Гельфанд. Темно-синяя область - МММ за Гельфанда,  
Явно за Гельфанда и Удальцова в основном голосуют разные люди.
Тк левых прошло в КС достаточно мало, для сравнения добавил карты Удальцовой и Пономарева, не прошедших в КС.
Шеин (слева) , Удальцова (посередине) , Пономарев (справа).




У Гудковых, приведенных в начале статьи карты тоже проходит через оба места притяжения, хотя и существенно шире.

"Блок 7 дел"
По картам видно, что хорошо сработал Блок 7 дел :
Албуров, Ашурков, Наганов, Соболь (в том же порядке карты) - видно что за них голосовали именно блоком.





Наличие двух кластеров может как говорить о наличии двух групп избирателей, которые голосовали за этот блок, так и не значить ничего - такое на SOM картах иногда случается ;)

Впрочем видно что разные стороны этого кластера коррелируют с кластерами других кандидатов.
Правая часть явна коррелирует с голосами за Адагамова (слева),  Каца (справа)




"Журналисты и либералы"
Пархоменко, Дзядко и Романова:




Явно виден сильный кластер справа и хвост снизу. 
Рядом Немцов и Илларионов.




С небольшой натяжкой Пионтковский и Кара-Мурза:



Обратите внимание на провал в районе правого кластера блока 7 дел.
Особенно это видно у последних четырех.
Для сравнения Албуров (красный) и  Кара-Мурза (синий) на одной карте





"Гражданская платформа"
Лазарева - Щац.  Еще один пример устойчивой пары.


 


Чего не скажешь о паре Собчак - Яшин. Предпочтения избирателей соотнесли ее скорее с Быковым ;)
Собчак, Быков.





"Навальный"

       
 
Похоже, что за Навального голосуют и либералы, и националисты и левые.
А бюллетени в правом верхнем углу, кажется, вообще с голосами за одного Навального.
Интереснее кто за него не голосует. В левом верхнем углу сидят МММщики.
Кластер справа-сверху идентифицировать не получилось, а вот по левому посередине что-то вырисовывается.
В него примерно попадают:
Баронова, Янкаускас, Макгоева, Осенин, Сангаев, Смирнов, Щербаков, Ясин, Галямина, Колюцкий, Левченко.


Можно заметить, что этот же кластер не голосует за гражданскую платформу. Видимо это люди, целенаправленно голосующие за молодых, "не-медийных" политиков.

"Широкий фронт"
Здесь остались прочие кандидаты, за которых голосовали не компактный кластер, а достаточно широкая коалиция избирателей.
Чирикова, Каспаров, Яшин




Похожие картинки, кстати, у Гудковых в начале статьи.

Из победителей по общегражданскому списку остаются
Винокуров, Газарян, Мирзоев.





Националисты
Вообще в голосовании по куриям МММщики нанесли наибольший вред (видимо ввиду большого протестного голосования по их спискам)
Чтобы лучше увидеть реальные голоса за конкретных кандидатов, подсветим кластер-МММ.
Все ячейки которые в него не войдут будем считать реальными голосами.

Бондарик, Артемов, Константинов.





БольшАя часть голосов пришла от МММщиков. Разве что у Константинова явно видны свои избиратели.
Тор и Крылов. 



Тор и Крылов от МММ голосов не получили. Тут же видно, что за Тора и Крылова голосовали примерно одни и те же люди.
Бюллетени за Поткина и Демушкина, не прошедших в КС, находятся в том же кластере.



В целом видно, что бюллетени людей, которые в принципе голосовали по списку националистов достаточно похожи друг на друга (их кластер проще увидеть на карте Крылова). Напомню, что похожесть между бюллетенями определяется по всем 3ем спискам.

Левая курия.
Если у националистов 3 кандидата прошли с "помощью" МММ, то в левой 4 из 5!
Update: как мне подсказывают, пока однозначно можно говорить только о 2 прошедших с помощью МММ.
Николаев, Палчаев, Аитова, Гаскаров





И только Развозжаев прошел сам.


При этом его кластер хорошо коррелирует с "левыми" кластерам Удальцова, Шейна, Пономарева.

Либералы
У либералов получше, там Мавроди указаний не дал и МММщики не оказали такого влияния:
Здесь видно, что за либералов голосовали достаточно разнообразно, нет такой явной группы как у националистов.
Давидис, Долгих, Царьков.




Каретникова, Пивоваров.



Результаты.
Попробуем объединить кластеры избирателей на одной картинке.
Сюда попали кластера, которые достаточно точно различимы. Например не попал кластер националистов (он почему то оказался примерно в том же месте где и кластер левых)


В целом ничего неожиданного в данных нет, что косвенно подтверждает честность выборов.
Основные выводы:
  • МММшники в куриях навредили сильнее чем предполагалось.
  • За Навального голосуют почти все группы избирателей.
  • Кандидаты из блока 7 дел в бюллетенях встречаются вместе.
  • Существует отдельный кластер молодых политиков, в основном не прошедших в КС.
Дальнейшая работа:
  • Сделать какой-то более хитрый анализ полученных данных. У меня получилось, что-то ближе к "что вижу, о том и пою" ;)
  • Проделать аналогичную работу отдельно по куриям\общегражданскому списку. А так же построить аналогичные карты по протоколу без МММщиков.
  • Построить карты большей размерности.
  • Построить несколько раз SOM-карты по тем же данным: ввиду особенности построения, каждый раз данные располагаются на карте немного по-разному, и всегда есть шанс углядеть что-то новое.

Со своей стороны, скоро выложу пост с техническими подробностями, про то, какими инструментами я пользовался, а так же карты по всем кандидатам.
Update:
В комментах подсказывает, что по расчетам leonwolf.livejournal.com/449430.html
с помощью МММшников прошло только двое из левой курии. Прямо сейчас у меня фактов опровергающих это нет, поэтому соглашусь с критикой.

Действительно, сейчас правильней говорить, что это не кандидаты, прошедшие "с помощью МММ", а кандидаты, "у которых главный кластер избирателей это МММ". Это не значит, что только благодаря МММ-щикам они прошли, но значит что явной группы избирателей за этого кандидата не формируется.

Однако меня несколько смущают выборосы из кластера МММ. 
Особенно у Бондарика и Артемова. Явно видно что выброс сверху-справа, коррелирует с выбросом у "МММ-кандидатов" в левой курии. При этом этот выброс я в кластер-МММ не включал при подсчете количества. Есть вероятность, что этот выброс - это МММ-щики которые голосовали по куриям, но не голосовали по общегражданскому. 
Если так, то есть вероятность, что настоящих голосов за Бондарика меньше чем за Демушкина.
Наверное следующее чем займусь - посчитаю поточнее МММщиков.

оппозиция, выборы

Previous post Next post
Up