ПЖиВ

Dec 06, 2011 19:52

Сходил в воскресение в посольство на выборы; простоял в очереди час (а люди, которые при мне выходили, говорили, что стояли два с половиной часа). Напротив посольства были развешены плакаты про жуликов и воров. Результаты по Лондону: проголосовали примерно 2000 человек, 40% за Яблоко (а у ЕР - 10%). [Update: смешная статья из скандального Коммерсанта о выборах в Лондоне.]

Оказывается, на сайте ЦИК доступны результаты выборов по всем участковым избирательным комиссиям (их по России примерно 95 тысяч). И нехитрый статистический анализ этих данных показывает масштабы фальсификаций. Система изложена на сайте Эсквайра (http://esquire.ru/elections) и вот здесь в Троицком Варианте, и предварительные результаты по этим выборам уже лежат у podmoskovnik, oude-rus и shipilev. Последний из этих благородных юзеров написал скрипт для выкачивания данных с сайта ЦИК и  выложил получившуюся таблицу. Я ее скачал и немного покрутил эти цифирки в матлабе, не смог удержаться. Чтобы результаты не пропадали, выкладываю под катом несколько красивых картинок и «настоящие» результаты выборов (в т.ч. статистика жульничества по регионам).


[Update: Свежие данные доступны в очень удобном формате на сайте http://www.kartaitogov.ru/. На данный момент там обработано 65559968 бюллетеней; я обновил все графики и числа в этой записи на более новые.]

Итак, есть 95066 участковых избирательных комиссий (УИК). Посчитаем для каждой из них, во-первых, явку, а во-вторых, процент, набранный каждой из семи партий. Вот на этом графике для каждой партии отмечено распределение УИКов: по горизонтали - явка, по вертикали - результат этой партии. Одна точечка - один УИК.



Что мы видим? Мы видим, что явка колеблется где-то от 30 до 100 процентов. И если взять, например, ЛДПР, то ее результат не особо зависит от явки, то есть на всех УИКах (вне зависимости от явки) ЛДПР набирает примерно где-то процентов 15. Облако точечек расположено горизонтально. Но картинка для Единой России выглядит по-другому: есть явная корреляция между явкой и результатом, и в тех УИКах, где явка приближается к 100 процентам, результаты ЕР тоже приближаются к 100%. Это крайне подозрительно, потому что легко может объясняться вбросом бюллетеней за ЕР на некоторых участках (на этих участках одновременно возрастет и явка, и процент за ЕР).

Вот та же картинка, но вместо точек количество УИКов обозначено цветом. Разрешение по обеим осям 1%, красный цвет - 150 УИКов и выше.



Опять же: в честных выборах картинка для каждой партии должна, по идее, выглядеть как комета, летящая влево, с горизонтально вытянутым хвостом. А у кометы Единой России хвост наклонен почти под 45 градусов. [Update: после примерно десятой претензии в комментариях поясняю. Такое распределение не «доказывает» наличие вбросов. Но оно идеально *согласуется* с гипотезой о вбросах - а о том, что эта гипотеза весьма правдоподобна, мы знаем из других источников (свидетельства очевидцев, расхождение официальных результатов с экзит-поллами, огромная разница в некоторых регионах на участках с КОИБами и без и т.п.). Таким образом эти данные придают нам еще большую уверенность в справедливости этой гипотезы и, если мы ее примем, позволяют оценить масштаб фальсификаций.]

Вот те же данные в другом виде: гистограммы количества УИКов, на которых партии набрали столько-то голосов (голоса по горизонтали). По-человечески везде должны быть гауссианы, а теперь посмотрите на картинку для Единой России. В правом нижнем углу гистограмма явок по УИКам. Опять же, вместо гауссианы мы видим неожиданно большое количество УИКов с подозрительно высокой явкой. [Update: и снова пояснение. Некоторые думают, что отклонение от гауссианы может возникать и без вбросов. В принципе может, но вот сравните с европейскими выборами, там почти везде идеальные гауссианы, даже в Польше, где разделение на город и село похоже на наше. Так или иначе, дальнейший анализ предположение о гауссиане не использует.]



Всё это очень подозрительно (см. также внизу апдейт номер один) и подтверждает наши подозрения в массовой фальсификации. Можно ли как-то оценить результаты без подтасовок? Можно. Для этого можно просто отбросить УИКи с подозрительно высокой явкой. На картинке ниже слева изображены результаты каждой партии в зависимости от пороговой явки, выше которой я отбрасывал результаты. Черная кривая - ЕР, красная - КПРФ, зеленая - Яблоко. Официальные результаты - это результаты при пороге в 100% (без отбрасывания). Видно, что результы ЕР достигают минимума, а остальных партий примерно максимума при пороге около 50%. На графике справа - общее количество поданных голосов в зависимости от порога (по вертикали - десятки миллионов человек, общая явка - примерно 55 млн). Если взять порог в 60%, то мы охватим половину пришедших на выборы избирателей.



Официальные результаты по партиям: 13 12 1 19 3 49 1
Результаты при пороге 50%: 18 16 1 24 5 34 1
При пороге в 60%: 18 15 1 23 5 36 1

Здесь однако может возникнуть подозрение, что я всё чрезмерно упрощаю. В разных регионах результаты могут быть очень разные, а этот анализ этого не учитывает. Так что давайте посмотрим на отдельные регионы. Причем в каждом регионе мы будем смотреть по-отдельности на городские и деревенские результаты, потому что они в принципе могут сильно отличаться (см. ниже). На следующей картинке слева изображены кривые (зависимость результата от порога) для ЕР по всем 83 регионам РФ: красным цветом - город, зеленым - деревня (село). Кривые начинаются с порога, при котором число избирателей превышает 10000 (иначе в начале они слишком сильно скачут). Зарубежные территории здесь не изображены, а все шесть Кавказских республик объединены в одну (см. ниже).



[Update: по просьбе _ab_ выкладываю список регионов, отсортированный по количеству приписок в городах; на графике видно, что многие красные линии горизонтальны, то есть в городах фальсификаций не было. Но кое-где творилось полная жуть, конечно.]

Теперь давайте для каждого региона посчитаем индекс жульничества: возьмем официальный результат и «реальный» результат (минимум на этой кривой для города и деревни по отдельности, результаты объединяем). Можно поделить одно на другое, а можно отнять одно от другого; две получившиеся гистограммы по регионам изображены справа.

Мы видим, что регионы очень разные. Есть честные, есть жульнические. В Петербурге в результате подтасовок ЕР получила дополнительных 4% - в целом, неплохой результат. А у Москвы результат чудовищный - 16%, один из худших по стране. Хорошо бы кто-нибудь нанес эти числа на карту России. См. гистограмму ниже.

Если для каждого региона (в городе и в деревне) выбрать свой порог явки (где у ЕР минимальный результат) и потом всё просуммировать с правильными весами (см. ниже), то общий результат по стране будет такой:
16 14 1 23 4 38 1,
что почти не отличается от более простого анализа.

Итого. На самом деле у ЕР не 49%, а примерно 38%, а у КПРФ, ЛДПР и СР - на 3-4% больше, чем объявлено. То есть ЕР победила бы и без вбросов, а Яблоко не прошло бы, даже если бы вбросов не было. А результатам экзит-поллов ВЦИОМа и ФОМа (согласно которым у ЕР 49% и 46%), вероятно, доверять не следует.

[NB: ФОМовский результат на 18 вечера, который они теперь скрывают, - 43%, и 30% спрошенных не ответило на вопрос].

Update1 (7.12):

oude-rus обнаружил, что в распределении УИКов по результату ЕР есть пики на круглых числах: 65%, 70%, 85% и т.д. (т.н. «борода Чурова») Подтверждаю, плюс делаю анализ по отдельным регионам. Внизу слева - тот же график, что и у по ссылке. На графике для ЕР невооруженным глазом видны спайки на числах, кратных 5% (размер бина 0.25%). NB: эти пики становятся гораздо более заметными на гистограмме не количества УИК, а числа проголосовавших за ЕР, см. апдейт 8.



[Update (12.12): внимание, очень важно! Мы с коллегами раньше думали, что самый большой пик расположен на 50%. Графики с этим пиком разошлись по интернету и даже были напечатаны на плакатах во время недавнего митинга в Москве. Теперь выяснилось, что резкого пика на 50% нет! Выше изображена правильная кривая, пики только начиная с 65%. Подробности здесь: http://kobak.livejournal.com/102646.html. ]

Для знатоков: внизу справа - разложение кривой ЕР (бин 0.5) в ряд Фурье. Максимум на 0.2 - это как раз наши пики, потому что 1/5=0.2. И дальше видны кратные гармоники.

Дальше я сделал тот же анализ для каждого региона отдельно (кроме зарубежных территорий и Кавказа), подсчитывая суммарную высоту пиков на числах кратных 5% от 50% до 95% (высота пика = разница между значением, например, в 75% и средним между 74% и 76%). Гистограмма по регионам на следующем графике слева наверху, а слева внизу - попытка увидеть корреляцию между суммарным размером пиков и приписанным к ЕР процентам. Регион, лидирующий по размеру пиков с большим отрывом, - это Башкортостан (см. график справа), где три гигантских спайка на 75%, 85% и 95%. Там наверняка думали, что если они не будут рисовать 80, 90 и 100%, то никто ничего не заметит. Смешно! Корреляция получается 0.43 (р<0.001), а без Башкортостана 0.34 (р=0.002).



Update 2 (9.12)

Гистограмма результатов ЕР по регионам РФ (их 84, потому что есть «Зарубежные территории»). Регионы отсортированы по алфавиту (см. список в комментариях). Красная часть столбика - вбросы. Самый высокий пик - Чечня (99%), там мой анализ не способен ничего скорректировать, потому что все УИКи одинаково плохие. [Update: насчет Кавказа см. ниже.]



Иллюстрация номер 5 существенно изменилась по сравнению с первой версией, посмотрите сверху (там, где мешанина красных и зеленых спагетти). Теперь я там разделяю город и деревню. Зачем? Потому что голосовать они могут очень по-разному. На графике ниже слева изображены все УИКи по числу приписанных к ним избирателей (по горизонтали) и явке (по вертикали). Невооруженным глазом видны несколько кластеров (это тоже первым обнаружил oude_rus). Я отобрал все городские ТИКи (ТИКи Питера и Москвы, плюс все, в названии которых есть слова «городская», «пгт», «ЗАТО» или запятая), и все УИКи внутри них считаю городскими, а остальные - сельскими. Следующие два графика показывают распределения отдельно по городу и селу, и мы видим, что кластеры как раз разделились.



Глава ЦИК Чуров, между прочим, написал в свое время статью с «опровержением» построений podmoskovnik’а. Главная мысль статьи: распределение по явке не похоже на гауссово, потому что оно есть сумма двух гауссиан - городской и деревенской. В доказательство он приводил графики, построенные на неизвестно как отобранных данных: http://cikrf.ru/banners/illuziya/itogi_160908.html. Давайте проверим. На графиках внизу я разделяю гистограмму явки на две: город и деревня (городские участки - это все участки Питера, Москвы, плюс все участки ТИК, в названии которых встречается запятая или слова "городская", "пгт", "ЗАТО", "г."). Слева - количество УИКов, справа - количество проголосовавших.



Эффект, описанный Чуровым, подтвердить не удается. [Update: уточненение! На моих графиках ясно видно, что город и деревня различаются. В этом смысле Чуров с соавторами прав. И именно поэтому я провожу мою коррекцию отдельно для города и деревни в каждом регионе. Но вот такого эффекта, как у Чурова в статье, когда город и деревня описываются красивыми гауссианами с разными средними, - такого я не вижу.]

Ну и напоследок: «комета» ЕР, разложенная на 84 региона! По ссылке открывается ОГРОМНАЯ картинка, которую можно долго изучать (на большой картинке регионы подписаны). Очень рекомендую! Трудно оторваться от разглядывания.




Update:
Та же картинка, разложенная на город и село (тут видно, что корреляция явка-результат часто возникает только на селе, то есть хвост кометы - это село).
Та же картинка с разложением на город и село и отмеченными КОИБами.

Update (29.12):
Корреляция видна не только на уровне регионов, но в отдельных ТИК, причем если посчитать среднюю корреляцию по всем ТИК полурегиона (городской или сельской части региона), то она хорошо коррелирует с корреляцией, посчитанной по всему полурегиону, см. здесь: http://kobak.livejournal.com/101512.html?thread=1769864#t1769864. Это означает, что корреляция между явкой и результатом ЕР - это не артефакт объединения разных ТИК, чего можно было бы в принципе опасаться.

Update 3 (10.12)
Ответы на часто задаваемые вопросы: http://kobak.livejournal.com/102279.html.

Update 4 (11.12)
Заапдейтил первый апдейт, добавил ряд Фурье и график для Башкортостана. Обновил огромную картинку с разложением кометы по регионам, там теперь есть подписи.

Update 5 (11.12)
По поводу Кавказа: если внимательно изучить мегакартинку со всеми регионами, то станет ясно, что на Кавказе выборов почти не было и корректировать там нечего. Но сегодня я нашел решение: по неизвестной причине голосование в сельской местности Северной Осетии выглядит вполне по-человечески (при этом во Владикавказе полная жесть: почти на всех участках у ЕР *ровно* 75%). Поэтому я объединил весь Кавказ в один метарегион (это Чечня, Ингушетия, Дагестан, Северная Осетия, Карачаево-Черкесия и Кабардино-Балкария), город и деревня вместе, и провел мой анализ на этом регионе. В итоге там у ЕР получается 48%. Этот результат я считал истинным для всех шести республик.

Этот расчет дает итоговый результат для ЕР по стране 38%. Если Кавказ просто исключить (приписать ему вес 0), то этот результат не меняется, всё равно 38% (ну то есть точное число меняется, конечно, но незначительно).

По поводу суммирования (никому не нужные подробности, не читайте!): тут нужна аккуратность. В каждом регионе, городе и деревне отдельно, я нахожу «настоящий» результат за ЕР, достигаемый при определенной явке. После этого я считаю, что на всех отброшенных УИК была именно это явка, и подсчитываю общее «настоящее» число проголосовавших в этом регионе (городе/деревне). Это число является весом этого региона (два числа: для города и деревни). И дальше все суммирования происходят с этими весами.

[Update (14.12): добавил в алгоритм новое ограничение: граница по явке в деревне в каждом регионе не может быть ниже, чем граница по явке в городе. Так лучше, иначе в некоторых регионах алгоритм отсекает почти всю деревню целиком. Итоговая цифра изменилась с 37% на 38%.]

Update 6 (11.12)
Сергей Шпилькин podmoskovnik пользуется немного другим алгоритмом для коррекции (см. выше в Эсквайре или Троицком Варианте). Я тоже так посчитал. Мы строим гистограммы количества голосов за ЕР и за все остальные партии в сумме в зависимости от явки (по всей России). Они изображены слева. Видно, что где-то до 50% процентов они отличаются на коэффициент, а потом ЕР подозрительно растет. Выделим «нормальную» часть голосов за ЕР, подобрав правильный коэффициент (я минимизировал средне-квадратичное отклонение на явке от 0 до 50%). Это будет пунктирная линия справа. Разница - аномальная часть голосов за ЕР, я закрасил ее красным цветом.



Аномальную часть можно вычесть и пересчитать итоги выборов. Получится:
17 15 1 25 4 34 1
то есть у ЕР 34%. Этот анализ сделан по всей стране, поэтому к нему можно предъявить все претензии о неоднородности регионов, города и деревни и проч. Поэтому я прогнал точно такое же вычисление по всем регионам, отдельно по городам и селу (с объединенным Кавказом, см. выше). См. похожий расчет у dmitrykogan вот здесь. Техническая деталь: для каждого региона я брал явку, до которой общее кол-во бюллетеней составляет четверть от общего кол-ва бюллетеней в полругиеоние, и искал коэффициент для нормальной части голосов, минимизируя средне-квадратичное отклонение (на Кавказе я руками установил границу по явке на 75%). Объединяя все результаты с правильными весами, мы получаем:
20 17 3 28 6 32 1
16 14 1 23 4 39 1
то есть у ЕР 39%.
Update (29.12): у меня тут было несколько неаккуратностей в алгоритме, после исправления всё встало на свои места. Думаю, именно этот анализ оптимальный.

Update 7 (12.12)
vmenshov сформулировал и опроверг одну из «теорий» о возможном поведении электората, которыми некоторые пытаются объяснить наши графики (сверхактивный малый электорат оппозиционных партий и вялый, но превалирующий электорат ЕР). Такая теория не согласуется с данными. См. http://vmenshov.livejournal.com/15794.html.

Update 8 (12.12)
По жж ходят ссылки на несколько записей, где утверждается, что пики на круглых числах могут быть не свидетельством фальсификаций, а артефактом, т.е. возникают и без фальсификаций. Мы общими усилиями разобрались в ситуации, и теперь я могу утверждать наверное: резкого пика на 50% НЕТ, но все остальные пики - это не артефакт, а реальность. Подробности здесь: http://kobak.livejournal.com/102646.html. Кроме того, там есть гистограмма количества проголосовавших за ЕР в зависимости от результата ЕР, и на ней пики еще более ярко выражены.

Update 9 (13.12)
Кто-то не поленился и сделал гистограммы количества УИК по голосам за партии по ВСЕМ регионам страны с выделением городов. Размер бина 1%, так что артефактов не должно быть (ну или почти не должно быть). Рекомендую в справочных целях:
http://mikolaichuk.byethost32.com/
(ссылка больше не работает, к сожалению)

Update 10 (13.12)
Обнаружилась любопытная особенность голосования в республике Дагестан: http://gegmopo4.livejournal.com/72536.html.

Update 11 (13.12)
Вдохновленный результатами LHC, прикинул статистическую значимость пиков на круглых числах. У одного из пиков 10 сигм, у пяти пиков - порядка 17 сигм. Хихи. Подробности здесь: http://kobak.livejournal.com/102825.html.

Update 12 (14.12)
Огромное спасибо _ab_, который по моей просьбе нарисовал в какой-то специальной программе карту регионов России, где цветом отмечена моя оценка того, сколько процентов в этом регионе пририсовали за ЕР. Сам он призывает этой оценке доверять не слишком. Я отметил шесть регионов Северного Кавказа точечеками, чтобы показать, что там оценкам особенно не следует доверять.



Update: kireev взял за основу результаты dmitrykogan (см. апдейт номер 6) и тоже нарисовал карту (http://kireev.livejournal.com/714400.html). Вот она:



Update 13 (17.12)
Нашлись вполне приличные страны, где тоже есть корреляция между явкой и результатом партий (и явка распределена сильно негауссово). При этом в Германии (первая ссылка), если разложить страну на отдельные регионы, то корреляция практически пропадает и явка в каждой земле становится гауссовой. Но в Израиле (вторая ссылка) и Британии (третья ссылка) не так. Имейте в виду, что в Израиле при этом очень сложное и перемешанное общество, а в Британии мажоритарные выборы; но тем не менее.
http://jemmybutton.livejournal.com/1359.html
http://levrrr.livejournal.com/31427.html
http://users.livejournal.com/_ab_/139002.html

Update 14 (17.12)
Обработаны участки с КОИБами! Все подробности здесь: http://kobak.livejournal.com/103331.html. Ситуация только дополнительно запуталась. В среднем участки с коибами по каждому региону дают результат за ЕР ниже, чем участки без коибов. Но ниже всего на 6-7%. При этом есть регионы, где сильная корреляция явка-результат видна и на участках с коибами. Выводы можно делать разные, подробности по ссылке. oude-rus ввел термин «коибатость»: разница между результатов ЕР на участках с коибами и на участках без коибов. В рейтинге городской локальной коибатости (см. подробности по ссылке) лидируют Астрахань, Магнитогорск и Сыктывкар. На четвертом месте находится Москва.

Update 15 (19.12)
Здесь я буду собирать ссылки на разные наблюдения о региональной специфике.
* http://aillarionov.livejournal.com/368898.html?thread=19285250#t19285250 -- Тольятти и Самара (несколько кластеров в Самаре, и все честно в Тольятти).
* http://kobak.livejournal.com/103654.html?thread=1775334#t1775334 -- пояснение о Самарских кластерах.
* http://oude-rus.livejournal.com/545739.html -- Сыктывкар и КОИБы.
* http://abuzin.livejournal.com/87116.html -- Магнитогорск.
* http://kireev.livejournal.com/708953.html -- еще раз Магнитогорск.
* http://kireev.livejournal.com/709382.html -- странности с результатами Яблока по Москве.
* http://kireev.livejournal.com/701704.html -- про экзит-полл ФОМа.
* http://rksmb.org/get.php?5011 -- здесь все московские УИК расположили в трехмерном пространстве (явка, результат ЕР, результат Яблока) и разложили EM-алгоритмом на два кластера. А kireev нарисовал карту районов Москвы, раскрашенных в соответствии с долей участков каждого кластера: http://kireev.livejournal.com/715493.html. Очень полезная и очень убедительная работа.
* http://myugor.livejournal.com/20253.html?thread=52509#t52509 -- Нижний Новгород, официальные протоколы и копии у наблюдателей.
* http://oude-rus.livejournal.com/556502.html -- есть участки, где протоколы переписаны в пользу Правого дела (фальсификаторы ошиблись полем), это очень смешно.
* http://kireev.livejournal.com/720076.html и http://kireev.livejournal.com/720958.html -- Владикваказ и Кабардино-Балкария.
* http://kireev.livejournal.com/721248.html -- Пермский край и Нижегородская область на выборах 2007 и 2011, сравнение.

Update 15 (20.12)
А здесь будут ссылки на полезные сайты:
* http://russian-election.appspot.com/
* http://www.kartaitogov.ru/
* https://ruelect.com/

Update 16 (23.12)
Небезынтересно посмотреть на то, как выглядела корреляция между явкой и результатом правящей партии на предыдущих выборах. Андрей Илларионов повесил у себя хороший график: коэффициенты корреляции и регрессии на выборах с 1991 года. Там, кажется, сосчитано на уровне регионов, что не очень-то хорошо (надо по участкам считать), но динамика всё равно видна хорошо, рекомендую: http://aillarionov.livejournal.com/372563.html (эта запись почему-то исчезла, так что см. http://aillarionov.livejournal.com/371465.html).

Update 17 (29.12)
vladislav_01 взял с ruelect.com данные по Нижнему Новгороду (где они наиболее полные) и нанес их на диаграмму явку-результат:


Получилась дивная иллюстрация к тому, как возникает корреляция в результате фальсификаций. Обратите внимание, что без фальсификаций корреляция ОТРИЦАТЕЛЬНАЯ. Впрочем, должен сказать, что такая красота видна только в Нижнем Новгороде: у jemmybutton лежат картинки по Питеру и Москве, и там такой четкости нет (http://jemmybutton.livejournal.com/1359.html). Но по Москве гораздо меньше данных, чем по Нижнему (и не исключено, что в Москве все решали вбросы, которые на ruelect не видны).
Previous post Next post
Up