Ну что же, выборы в Думу на носу. В честь этого знаменательного события я решил написать небольшой пост о паре статистических методов, с помощью которых можно выявить являющиеся признаком фальсификации результатов голосования статистические аномалии.
Метод первый. Распределение голосов на избирательных участках.
Взгляните на график внизу, это результаты выборов в Думу в 2011 году. По оси абсцисс отложен результат партии на УИКе. По оси ординат -- кол-во голосов (в миллионах, размер бина 0.5%), от общего числа зарегистрированных избирателей на избирательных участках с такой явкой. Малый график слева-сверху это спектр Фурье.
Во-первых сразу же бросаются в глаза пики на значениях явки 65, 70, 75, 80, 85, 90, 95, 100%. Вероятность случайного возникновения таких регулярных пиков астрономически мала, и при том появление их очень просто объяснить человеческой психологией и стремлением показать "красивые" цифры в отчете. В 2011 под этими пиками находилось около миллиона дополнительных голосов за ЕР, что их итоговый результат меняет не очень сильно (примерно на 1 %). Но зато никаких сомнений в рукотворном происхождении пиков быть не может.
Во-вторых, налицо крайне необычная форма распределения. Помимо основного максимума в районе 55%, распределение имеет «плечо» со стороны больших явок и резкий пик вблизи 100%, причем при высоких явках доли голосов за все кандидатуры, кроме кандидатуры власти, начинают падать, а все потерянные ими голоса вкупе с дополнительными голосами от роста явки отходят к кандидатуре власти. Распределение голосов на честных выборах необязательно должно быть нормальным (например в Англии или Германии на выборах видна четкая корреляция между явкой и результатами разных партий) -- но подобной кластеризации вы там не найдете.
Такой же график для президентских выборов в 2012 году, имеются те же статистические аномалии что и в 2011, пусть и чуть менее ярко выраженные:
Вот более наглядная иллюстрация. По оси абсцисс отложена явка в процентах, а по оси ординат процентная доля избирателей, проголосовавших за выигравшую выборы партию/кандидатуру. Кроме российских выборов в 2011 и 2012 году также приведены результаты выборов в иных странах, в т.ч. и выборы в Уганде на которых партия власти обвинялась в масштабных фальсификациях результатов голосований. Обратите внимание на кластеры участков с высоким процентов явки и высоким же процентом голосов за партию власти (обведены красным):
Причем в самой России в недавнем прошлом гистограмма явки не имела этого ярко выраженного кластера на высоких значениях явки. На графике ниже (
источник) показано распределение явки на общероссийских выборах в период с 1995 по 2003 год (не включены национальные республики, с ними уже и тогда были проблемы):
Ну и еще одна визуализация. Совокупное количество голосов за партию власти как процент от явки. Обычно эта кривая выглядит как сигмоида, но в случае с российскими выборами в 2011/2012 и с выборами в Уганде вместо плато на правой части кривой мы имеем весьма высокий прирост.
Больше информации, с конкретными мат. методами которые помогут дать вероятность того или иного распределения голосов:
P. Klimek, Y. Yegorov, R. Hanel, and S. Thurner. Statistical detection of systematic election irregularities (2012).
Kobak D, Shpilkin S, Pshenichnikov MS Statistical anomalies in 2011-2012 Russian elections revealed by 2D correlation analysis (2012)
Метод второй. Анализ последней и первой цифры.
Начнем с анализа последней цифры. Для этого надо взять абсолютную явку и абсолютное количество голосов на всех участках, и записать последную цифру (или последние две цифры, при должном размере участков). Т.е., к примеру, если явка на участке X была 1034 человек -- мы записываем в табличку цифру 4, или цифру 34. Последние цифры явки со всех участков компилируются в один набор данных, и затем мы анализируем их распределение.
В честных выборах распределение этих цифр должно быть более-менее равномерным, ибо последняя цифра абсолютной явки является по сути случайной. Но если результаты "рисуются", то снова проявляется человеческая психология: когда людям надо выдумать некую случайную цифру, они тяготеют к определенным числам (например "красивый" ноль в качестве последней цифры); также не любят повторяющиеся цифры (напр. 22), но в то же время часто выдают последовательные цифры (напр. 12).
В качестве примера, вот анализ выборов в Нигерии по последней цифре явки. Налицо статистическая аномалия, которая может быть объяснена фальсификацией результатов на избирательных участках:
Более подробно тут: Bernd Beber and Alexandra Scacco. What the Numbers Say: A Digit-Based Test for Election Fraud (2012).
Теперь о первой цифре (или первых двух цифрах) абсолютной явки на избирательных участках. Сам метод в принципе очень похож на метод "последней цифры", вот только ожидаемое распределение берется не равномерное, а соответствующее т.н. закону Бедфорда, который описывает вероятность появления определённой первой значащей цифры в распределениях величин, взятых из реальной жизни:
Подробнее тут: Walter R. Mebane. Election Forensics: Vote Counts and Benford’s Law (2006)
Заключение
Оба вышеуказанных метода требуют доступа к данным индивидуальных избирательных участков, так что надеюсь, что в этом году все результаты по УИКам будут также выложены Центризбиркомом РФ в интернет. Скажем, в случае с крымским референдумом в 2014 году в открытый доступ эти данные так и не попали (впрочем там все равно были
крайне странные цифры общей явки в Севастополе).
График распределения голосов на этих думских выборах и без меня найдется кому сделать (вангую посты о "пиле Чурова" в топе ЖЖ). А вот анализа первых/последних цифр я в 2011/2012 году не помню, так что буду не прочь буду его в это раз сделать самому и глянуть что там и как. Если результаты будут интересными -- выложу тут.
Ну и необходимый дисклеймер, ибо некоторые, возможно, захотят прикопаться к технической стороне вопроса. Статистические методы никогда не смогут доказать наличие фальсификаций. Они лишь могут отвергнуть нулевую гипотезу (которой в данном случае является тезис "выборы были честными") с некоторым уровнем статистической значимости, и с учетом неких вводных предположений (например центральной предельной теоремы).