Алгеброй Памфилову поверить

Sep 24, 2016 15:39

Александр Киреев kireev в своём блоге обратил внимание, что результаты выборов в Саратовской области, скорее всего, были подделаны.
Для тех, кто не в курсе, кратко сообщаю - по результатам анализа протоколов на сайте ЦИК выяснилось, что на большом количестве избирательных участков был зафиксирован один и тот же процент голосов за Единую Россию - 62,2±0,04%. Графически это выглядит вот так (все картинки кликабельны):




График построен следующим образом. У podmoskovnik были взяты результаты голосования в виде текстового файла. Я работал последним архивом от 19 сентября, но можете взять и более новый. Затем загнал всё это в MATLAB, где для каждой партии по каждому участку был рассчитан процент голосов. После этого все результаты были округлены до 0,1%, и для каждого значения была вычислена частота, с которой оно встречается. Скрипт и исходники можно скачать по ссылке на Google Drive.

Обратите внимание на множество пиков на графике. Большинство из них не являются свидетельством фальсификаций.
Удивление, например, вызывает пик 50%. Появляется этот пик потому, что при делении числа голосов на число избирателей дробь 1/2 образуется ощутимо чаще, чем например 53/100. Точно так же объясняются пики 33,3% и 66,7% (n/3), 25% и 75% (n/4), n/5 и так далее. Чем больше знаменатель, тем меньше пик. Причём они общие - посмотрите на 20% или 33,3%, например.
Однако видны и другие пики. Например, у Единой России возникли пики 42,9%, 55%, 62,2% и 100%. С последним всё понятно - это горные республики, где голосуют по велению Аллаха (а ты докажи, что не Аллаха). 55% - тоже красивое число, но с натяжкой. 42,9% ещё ждёт своего исследователя.

А вот пик 62,2% имеет вполне ясное происхождение. Аналогичное происхождение имеют пики 11,8% у КПРФ и 6,1% у Справедливой России. Они появились из Саратова. Рассмотрим его подробнее.

Самым интересным (пока) оказался ОИК 163, что в Саратовской области. В нём 373 участка. И на них был продемонстрирован феноменальный с точки зрения статистики результат. Из 373 участков на 80 с лишним был показан одинаковый с точностью до 0,1% (то есть до одного человека) результат. И так три раза - за три партии. И ещё раз - за четвёртую, 60+ участков.




Или не феноменальный? Давайте попробуем оценить его вероятность.

Для начала построим распределение голосов по участкам при случайном голосовании. При помощи функции rand будем создавать виртуальных избирателей. Голосовать они будут так же, как и в Саратове - с вероятностью 62,2% он отдаст голос за ЕР, 11,8% - за КПРФ, 9,1% за ЛДПР и 6,1% за Справедливую Россию. Затем для каждого участка возьмём его реальную явку и создадим на них это количество наших рандомов. А затем построим зависимость точно так же, как и для реальной жизни. Сначала для всей России - 93231 виртуальный избирательный участок.

У нас вполне ожидаемо получилось нормальное (Гауссово) распределение. Видны пики на красивых дробях - вплоть до 1/6 (16,7%). И, конечно, максимумы на тех значениях, что взяты за базу:




А теперь - виртуальный Саратов. Контуры Гаусса угадываются, но уже слабо - сказывается малый размер выборки:




Но может быть, надо попробовать ещё раз? Возможно. Но давайте теперь оценим вероятность такого события теоретически.

Итак, у нас есть 373 участка, на них было от 51 до 2765 избирателей, в среднем - 870. Округлим до 1000.
Пусть город у нас полностью однородный - как и виртуальный Саратов. Тогда мы можем оценить вероятность того, что из 1000 человек за Единую Россию проголосовали ровно 622 человека, когда для каждого человека вероятность проголосовать была те же 62,2%.
Для этого воспользуемся функцией БИНОМРАСП в Excel.

БИНОМРАСП(622; 1000; 0,622; 0) = 0,02601

Получается, что вероятность получить на участке ровно 622 голоса из тысячи равна всего лишь 2,6%. Умножим их на 373, получим 9,69 - примерное число участков, которые должны показать такой результат. Смотрим на наш виртуальный Саратов - примерно сходится.

Но ведь у нас такой результат показали не 10-15 участков, а целых 62. При помощи той же функции оценим, какова вероятность получить 62,2% ровно на 62 участках из 373, если вероятность такого результата на одном участке - 2,6%.

БИНОМРАСП(62; 373; 0,02601; 0) = 6,087E-31

Но нас ведь устроит и результат, когда на участке больше 62 совпадений? Посчитаем...

БИНОМРАСП(63; 373; 0,02601; 0) = 6,087E-31
БИНОМРАСП(64; 373; 0,02601; 0) = 8,021E-32
БИНОМРАСП(65; 373; 0,02601; 0) = 1,037E-32

И так далее. Дальше считать уже бессмысленно, потому что результат получается на порядки меньше. Поэтому просуммируем то, что есть, и запишем ответ.

Вероятность случайного совпадения голосов на 62 или более участках из 373 со значением 62,2%±0,05% составляет приблизительно 7*10-31

казалось бы, на этом можно поставить точку. Однако у нас есть ещё три партии, у которых число совпадений ещё выше. Значит, вероятность совпадений будет ещё ниже, так что показатель степени улетит к -40, а то и -50. А мы помним, что вероятность совпадения двух событий равна произведению вероятностей каждого, а при умножении показатели степеней складываются...

Excel не хватило разрядов.

математика, политика, выборы

Previous post Next post
Up