Пятиминутка ликбеза: выборы, графики, и что они доказывают: fat

fat_crocodile

Пятиминутка ликбеза: выборы, графики, и что они доказывают

Jun 15, 2017 02:16

Поскольку я, во-первых, не настоящий математик, а просто учебник нашел (и не читал), а, во-вторых, могу быть недостаточно нейтрален, я сошлюсь на свой разговор с математиком более настоящим (он по крайней мере читал учебник), настроенным при этом более оппозиционно.

Разговор был в сентябре 2016-го, после думских выборов. Полностью можно по ссылке прочитать, а здесь я только математическую часть оставлю, остальное поскипал (ещё исправил несколько опечаток и в одном месте склеил два своих сообщения в одно). Под катом обсуждение нескольких отдельных вопросов, остальное понятно без них.

fat_crocodile >> власти вдобавок привычно подделали их результаты наполовину

А есть что-нибудь кроме графиков?
Возможно я не следил за последними новостями математической мысли, но в 2011-м я для себя пришел к выводу, что графики не доказывают ничего.

Потому что, например, есть группы людей, с характерно высокой явкой и характерными политическими предпочтениями. Это национальные республики, тюрьмы, больницы, армия и т.п. И да, оказывается, что высокая явка скоррелирована с результатами. Ну, как бы и что?

0serg Понимаешь, корреляция явки с голосованием, в принципе, возможна. Очень маловероятна но возможна. Но поскольку протоколы тупо пишутся от руки, то на прошлых выборах возникла одна маленькая неприятность: протоколов в которых было ровно 85% голосов за ЕР кое-где неожиданно оказывалось в РАЗЫ больше чем протоколов в которых было 84% или 86%. А так, прости, не бывает. При любых корреляциях. А там вышла красивая такая "пила Чурова" и на каждой круглой цифре из числа больших - пики: 80%, 85%, 90%, 95%. Ну вот свойственно людям когда они от "нужные" цифры вписывают в протокол круглые числа брать и от них все остальное подгонять. И это никакой альтернативной версией опровергнуть невозможно.

На этих выборах ошибки прошлых учли и цифры старались круглыми не делать, так что пила расплылась. Но прости я в версию про "случайную корреляцию явки и результатов" с учетом прошлых выборов уже не поверю. Пила очень наглядно показала что у этой корреляции по крайней мере одна из основных причин - это фальсификация. Но пилу слегка придавили, а корреляция не уменьшилась - какой из этого я могу сделать вывод? Что фальсифицировать перестали, но это соразмерно компенсировалось возросшим фактором корреляции? Извини, но не верю. Особенно в свете того что в Москве и Санкт-Петербурге где хотя бы на значимой части участков были наблюдатели наблюдается совершенно иная картина чем в других регионах страны.

fat_crocodile Про пилу. Там было немного сложнее и против пилы тоже были аргументы. Примерно такие: все проценты равновероятны, если у нас очень много избирателей на участке. Десять тысяч, например. А вот если у нас избирателей всего два, то получится круглое число 50% ровно. А 84% не получится. Не все числа можно всегда получить.

0serg Про пилу: ну чего ты это мне, математику, рассказываешь? Да, там был хороший контраргумент. И ты не поверишь, его аккуратно проверили и отсеяли. На пальцах для не-математика: подобные пики имеют строго определенное распределение. Пик на 50% будет значительно больше пика на 67% и в разы больше пика на 85%. В реальных данных ситуация была другой - пики на 85% больше чем на 50%. Придумали и небольшую модификацию к визуализации который эффективно эти целочисленные пики подавляет. А пила осталась.

fat_crocodile > Понимаешь, корреляция явки с голосованием, в принципе, возможна. Очень маловероятна но возможна.

есть же корреляция голосования с территорией. Ну там "красный пояс" и так далее. Демократические и республиканские штаты в США. Значит не все УИКи одинаковы. Значит тогда может быть наверное и корелляция явки с территорией? И если у нас две переменные зависят от одной, то и между ними будет корреляция?

0serg Есть. Возможно. Просто тогда соответствующим образом взяв разбивку это можно продемонстрировать. И к нашим выборам это тоже применимо. Берем отдельно Москву и...

http://ic.pics.livejournal.com/0serg/6832593/23883/23883_800.png

куда-то исчезает большинство необычных результатов. То есть загадочным образом там где худо-бедно есть наблюдатели - загадочных участков с высокой явкой, процентами, и пилой нет. Почитай жж подмосковника, там много интересных срезов представлено. И в описываемой тобою ситуации с географической корреляцией в этих срезах менялось бы положение пиков, но необычная корреляция возникала бы только на этапе объединения результатов. А у нас по России наблюдается другая картина: есть регионы без аномальных результатов, а есть с аномальными.

fat_crocodile Ага. А так же в Крыму, Севастополе, Алтайском крае, Архангельской области, и т.п. Вот эти картинки https://drive.google.com/drive/folders/0ByFMnUnpIlriNmhaUlZoUFJteDA

Там большинство регионов "чистые" или почти чистые. Но да, у них сильно смещены пики. И разные проценты. Почему в результате должна получиться гауссиана?

Ну то есть, вот там по ссылке результаты по Ингушетии, чистые как слеза. Но если добавить их к Москве, то это будет выглядеть как очевидный вброс. Ну как же, на участках такая высокая явка и результат ЕР при этом заметно больше -- конечно это рисовали.
Мне кажется, чтобы получить общую картину более аккуратно, нужно "очистить" данные по отдельным регионам и сложить их. И посмотреть, что получится.

И это мы исходим из гипотезы гомогенности регионов. Это менее смелая гипотеза, чем гомогенность всей страны, но в общем тоже довольно сильная.

0serg Не совсем. Правильно будет сказать что на выборах в Ингушетии выбранная методика анализа не находит проблем. Но из этого НЕ СЛЕДУЕТ что выборы там были чистые.

fat_crocodile Но тот факт, что наша методика проблем не находит мы игнорируем, всё складываем, и теперь в общей массе проблемы уже находим, так, да? Это wishful thinking в чистом виде, так просто нельзя делать.

0serg Да, бесспорно, версия что в этих регионах фальсификация является тотальной и без нее результат был бы близок к результатам других регионов является в чистом виде wishful thinking. Да, Подмосковник не прав когда он использует эти цифры. Но у тебя есть лучшие предложения?

fat_crocodile Да, конечно есть лучшее, я же написал. От очень сильной гипотезы гомогенности по стране перейти к менее сильной гипотезе гомогенности по регионам. То есть получить отдельные гауссианы по каждому региону и сложить их.

0serg Так там как раз есть регионы (гомогенные по твоей гипотезе) где наблюдается аномальный хвост и "пила". Что дальше?

fat_crocodile Ну смотри, текущий вариант: вся страна гомогенная, а аномалии это вбросы, но из нашей гипотезы мы можем оценить количество вбросов и вот какие получаются результаты.
Что я предлагаю: ослабить гипотезу, требовать гомогенности только по регионам (тоже сомнительно, см. Тюменскую область с двумя явными пиками по всем партиям), внести такие же поправки на региональном уровне, поправленные результаты сложить и посмотреть, что получится.

Иначе действительно сферический конь в вакууме.

Я же не говорю, что никаких нарушений не было нигде. Я говорю, что на довольно слабых основаниях делаются очень сильные утверждения. И потом люди, ничего в этом не понимающие этими графиками трясут и говорят, что "математики доказали! все сфальсифицировано!" Мне кажется, со стороны математиков это несколько безответственно. Ну то есть "в полемическом задоре" можно и не такое сказать, но зачем же притворяться, что что-то доказано.

fat_crocodile Ещё прекрасное http://podmoskovnik.livejournal.com/175935.html

На картинке с Балашинского несколько пиков у всех партий. У всех! Но автор считает, что ну и пусть, пиков несколько, но проценты должны быть везде одинаковые. Поэтому лишнее это рисовка.

А можно было бы предположить, что это просто из разных генеральных совокупностей данные, у каждой свой пик и у каждой свой процент.

0serg Так рисуют цифры-то не только ЕР. Там же недостаточно одну цифру исправить, там весь бланк перезаполняется.

fat_crocodile Ну, там же основная объяснительная гипотеза, насколько я помню, звучит так: вот у всех честных партий красивые колокольчики. А вот ужасная форма ЕР, и всё вот это вот -- лишнее. А здесь просто не колокол, ни у кого. Здесь явно видны два пика. Но! Он решил, что второй пик хоть и при другой явке, процентное соотношение должно быть таким же, как и у первого пика. Не очень понятно, с чего бы.

Вот ещё посмотри, мужик подробно разобрал Самарскую область https://yadi.sk/i/17p-7p9_vYzNb

0serg Да я прекрасно это все понимаю. Методика Подмосковника является слабой и полной допущений. Но я помню выборы 2011 и пилу которую объяснить иначе как переписыванием протоколов невозможно. Но по пиле невозможно оценить объем фальсификаций. А по методике Подмосковника - можно. Оценка эта так себе, но в качестве первого приближения она вполне годится и далеко не факт что вообще можно получить оценку существенно лучше этой.

Вот примерно так. Ссылку https://yadi.sk/i/17p-7p9_vYzNb рекомендую ещё раз.
Подводя итог разговору:

В 2011-м году была пила. Пила -- плохо. Пила -- бяка. Против неё тоже есть красивый математический аргумент, но если посчитать, он оказывается недостаточной объяснительной силы (честный человек на моём месте сел бы и сам пересчитал, но я пока не готов, может быть в будущем). В общем в данном случае пила это хороший, надежный признак рисования результатов на отдельных участках.

Дальше 0serg говорит, что пила не позволяет оценить размер нарушений... Но это, конечно, не совсем так. Она не позволяет получить сколько-нибудь интересную оценку. В пиле несложно выделить искусственную компоненту (именно поэтому она признак фальсификации), и собственно она и будет оценкой. Но только это будут единицы процентов, может быть меньше, не о чем говорить.
Поэтому есть другой метод! Если говорить мягко, то "слабый, полный допущений". Если подробно рассматривать отдельные случаи, то он разваливается совсем. Но зато он позволяет получить большие числа.
Любой сколько-нибудь компетентный математик, интересовавшийся вопросом всё про этот метод понимает. Это не рокет сайнс, это максимум первый курс. Если это понимаю даже я -- о людях, использующих мат. статистику на практике речи нет.
А если сейчас вспоминать 2011-й год, то пилу обнаружили далеко не сразу. Сначала посчитали и получили огромные цифры. Потом долго спорили с более честными математиками. А потом наткнулись на пилу. Которая, конечно, подтверждает фальсификации, но вот только не подтверждает применимость метода оценки.

Повторю, что именно меня в этой истории с графиками огорчает:

Я же не говорю, что никаких нарушений не было нигде. Я говорю, что на довольно слабых основаниях делаются очень сильные утверждения. И потом люди, ничего в этом не понимающие этими графиками трясут и говорят, что "математики доказали! все сфальсифицировано!" Мне кажется, со стороны математиков это несколько безответственно. Ну то есть "в полемическом задоре" можно и не такое сказать, но зачем же притворяться, что что-то доказано.

Лично мне кажется, что это какой-то позор. То есть, что власть врет ладно, привычно, и у них работа такая, очень сложно без вранья. Но вот то, что врут математики пока ещё неприятно удивляет...

P.S. Не про математику, но ещё одно важное место из того же разговора, тоже цитата, но уже не моя:

Я полностью согласен с тем что фальсификации - это дело рук регионов и даже отдельных глав областей, а не систематическая разнарядка "сверху". Не помню писал ли я это, но это мое твердое мнение с тех пор как я сам работал на выборах.

Я тоже с этим согласен. В 2013 были очень чистые выборы московского мэра, а в 2014-м были ужасно грязные выборы Полтавченко. Это не тотальная система, а воля отдельных людей на конкретных местах. С которой, на мой взгляд, центральная власть старается мягко бороться. Мне кажется, это существенно меняет картинку.

политика