ПЖиВ: о пиках на дробях с малыми знаменателями

Dec 12, 2011 12:29

Мне накидали кучу ссылок на численные эксперименты, которые вроде как показывают, что пики на целых числах (как у ЕР на 50%, 75% и т.п.) закономерно возникают без всяких фальсификаций. Должен признаться, что я  был этим озадачен, но сегодня мы с коллегами во всём разобрались. Результат: резкий пик на 50% - это действительно артефакт целочисленого распределения, но пики на 65, 70, 75, 80, 85 и 95% - настоящие вбросы. Подробности и графики дальше.


Итак, на известных картинках с распределением количества УИК по голосам ЕР видны пики на «круглых» числах. Вот, например (из журнала nl):



Но разные люди проделали симуляции и обнаружили, что похожие пики возникают и без всяких фальсификаций. Вот например:
http://jemmybutton.livejournal.com/1359.html
http://singpost.livejournal.com/11326.html
http://users.livejournal.com/_winnie/327776.html
Я когда это вчера увидел, то ничего не понял. Для таких же тупых, как и я, объясняю. Возьмем два случайных числа A и B, выбранных от 1 до 500 (распределение равномерное), и сосчитаем C=A/(A+B). Повторим это 100000 раз и построим гистограмму значений С c очень маленьким бином (0.0001). Результат слева:



Ожидаемый в среднем результат я нарисовал красной линией. Как видно, появляются пики на 1/2, 1/3, 2/3 и т.д. - на дробях с малыми знаменателями. Почему, спросите вы? Отвечаю: давайте посмотрим внимательно на пик на 1/2 (на графике справа). Всё становится понятно: никакое число со знаменателем меньше 500 не может попасть в интервалы примерно (0.4995, 0.5) и (0.5, 0.5005). Поэтому там наша функция зануляется. А все значения, которые «по идее» должны были бы попасть в интервал (0.4995, 0.5005) оказываются равными РОВНО 0.5. Если взять очень маленький бин, то мы видим резкий пик в этом месте. Если взять бин покрупнее, то пики пропадают.

Очень хорошо, как такое в принципе может быть - мы разобрались. Теперь давайте посмотрим на данные выборов:



Слева - всем известный график, бин 0.25%. Видны пики на 50%, 60%, 65% и т.п. Справа - тот же график с бином 0.001%. Та-та! Мы ясно видим те самые артефакты, о которых шла речь выше. Красивые пики на 1/2, 2/3... и нули между пиками. Достаточно сравнить эти две картинки, чтобы понять, что пики слева, по крайней мере некоторые, и пики справа имеют совершенно разную природу. Пики справа (а) расположены на дробях с малыми знаменателями, (б) поэтому непериодичны, (в) уменьшаются с увеличением знаменателя дроби, (г) окружены нулями с обеих сторон, (д) видны только на  хорошем разрешении. Пики слева расположены на числах, кратных 5% (ясно видны пики на 60%, 65%, 70%, 75%, 80%, 85%, 95%), имеют примерно одинаковый размер (кроме 50%), не окружены нулями и видны на нормальном разрешении. Можно посчитать спектр и увидеть пик на гармонике 1/5, у меня это сделано в основной записи. У пиков справа такого нет. Вывод: слева видны фальсификации, справа - артефакты.

Единственное остающееся подозрение на артефакт - пик на 50%, он есть и справа, и слева. Что делать? А вот что: гениальный jemmybutton растолковал мне (спасибо ему за очень полезную дискуссию!), как одним махом избавиться от всех артефактов. Нужно к количеству бюллетеней за каждую партию на каждом участке добавить случайное число равномерно распределенное на (-0.5, 0.5). Понятно, что такая маленькая добавка результатов не изменит, но наши числа станут дробными и все артефакты сразу исчезнут. Три тонкости: (1) амплитуда шума должна быть именно 1, чтобы целиком покрыть значения между целыми числами, (2) я считаю результат 100 раз с разным шумом и усредняю, (3) на участках, где ЕР набрало ровно 100% голосов, я не добавляю шум, чтобы не размывать самое правое значение на графике (это всё равно не бин, а значение на границе бина). Для сравнения: прежняя кривая (черным) и исправленная кривая (красным):



Пик на 50% исчез бесследно, остальные остались. Мораль: при вычислении любых таких гистограмм, нужно добавлять к количеству голосов шум с амплитудой в 1 голос и средним 0. Картинку в основной записи я сейчас обновлю.

На самом деле человеку, который достаточно долго копался в этих данных (а я вот уже шесть дней только это и делаю), должно быть сразу понятно, что пики выше 50% - не артефакт. Привожу еще две картинки: слева - Северная Осетия, справа - Башкортостан. Бин 0.25%. Кто-нибудь будет думать, что это артефакт округления?



P.S. Природа пиков у других партий (кроме ЕР) ясно видна на графике Северной Осетии. Видите пик у коммунистов на 20%? Естественно, если почти на всех участках для ЕР рисуют 75%, то что-то нужно и для всех остальных нарисовать, не правда ли? Кстати, в Северной Осетии эти пики возникают только во Владикавказе, в деревне всё в порядке (интересно, почему). Но во Владикавказе - беспредел.

P.P.S. Теперь с исправленными пиками я наблюдаю стойкую корреляцию между суммарной высотой пиков в каждом регионе и приписанному к ЕР проценту. Ура! См. основную запись.

P.P.P.S. oude-rus с коллегой сделали симуляцию и пришли в итоге к таким же результатам: http://oude-rus.livejournal.com/548240.html.

Update

В комментариях (в разных ветках) несколько раз звучала мысль, что имеет смысл строить не гистограммы количества УИК в зависимости от процента ЕР, а гистограммы количества проголосовавших за ЕР в зависимости от процента. Если это сделать, то резкий пик на 50% даже и не возникает, и шумовая коррекция дает только минимальный эффект (вместо пика на 50% мы видим ступеньку и потом небольшой москвоский горбик); я точно не знаю почему, но подозреваю, что дело в том, что людей на пару порядков больше, чем УИК, поэтому эффект целочисленности уменьшается. Тем не менее, для порядка сделал шумовую коррекцию (100 итераций). Вот картинка и спектр:



Но в принципе еще не известно, какой график лучше. Как сказал, vasja_iz_aa, «единицей вранья является председатель УИК, а не избиратель».

Update 2
Вдохновленный результатами LHC, прикинул значимость этих пиков. См. здесь: http://kobak.livejournal.com/102825.html.

Update 3
zuntuglo предложил построить такую гистограмму для всех регионов, кроме регионов с т.н. «особой электоральной культурой» (его список: Кавказ, Башкортостан, Татарстан, Тува, Мордовия), потому что именно в этих регионах иногда наблюдаются особо жесткие пики. Это правда. Пожалуйста, вот эта гистограмма:



Заметьте, что всплеск после 90% ушел, но пики остались.
Previous post Next post
Up