Володинские 62,2% в Саратове: математическое доказательство фальсификации для чайников

Sep 23, 2016 16:12


Последние дни много веселья про результаты выборов в Саратове, где более чем на четверти участков результат Единой России оказался ровно 62,2% с точностью плюс-минус несколько сотых процента. Вот тут наглядно. Особой пикантности придает тот факт, что в Думу от Саратовской области баллотировался Володин - зампред президентской администрации, куратор ( Read more... )

выборы, фальсификации

Leave a comment

kobak September 23 2016, 13:52:49 UTC
Важная оговорка номер 1: Биномиальное распределение предполагает независимость избирателей (шаров). Если избиратели голосуют не независимо, то в принципе может получиться что угодно. Можно такие корреляции подобрать, что распределение будет сколь угодно узкое. Другое дело, что такие корреляции в реальности невозможны ( ... )

Reply

a_shen September 23 2016, 14:03:36 UTC
Ещё надо бы для порядка умножить на число регионов такого размера, как Саратов

Reply

barouh September 23 2016, 14:23:12 UTC
Правильнее смотреть не регионы, а города - потому что я считаю только по Саратову, а не всей области. Но тут вопрос, что считать подобным событием в другом городе - и вероятность 107 попаданий, и вероятность попаданий в 31% случаев для городов разного размера будет разной
Если очень грубо считать, что нас интересует 100 крупнейших городов, то вероятность того, что хотя бы в одном из них получится подобное, будет не -44, а -42. Непринципиальная разница
Более того, Саратов априори (до выборов) считался как один из наиболее "подозрительных" городов - у нас нет оснований считать, что подобное случилось именно в Саратове случайно

Reply

barouh September 23 2016, 14:28:55 UTC
Если отклонения случайны, то там не должно быть никаких отрицательных корреляций. Если же есть неслучайные отклонения, то даже при их частичном погашении отрицательными корреляциями следует ожидать увеличения дисперсии, а не ее сокращения

Что касается выбора интервала, то я его выбираю не то, чтобы произвольно - это по сути мода распределения. Сначала "визуально" определяется фрагмент распределения с максимальной плотностью попаданий, и затем для него считается теоретическая вероятность. Для любого другого интервала (сильнее отстоящего от моды, которую мы условно берем за матожидание) вероятность попадания будет естественно сильно меньше

Reply

kobak September 23 2016, 14:33:41 UTC
По пункту 1 я не понял Ваше возражание. Две случайные величины могут иметь отрицательную корреляцию.

Reply

barouh September 23 2016, 15:22:01 UTC
Могут, но какова вероятность этого?

Reply

kobak September 23 2016, 15:42:00 UTC
Этого я не знаю, но это предположение и его следует оговорить. В реальности, как я написал, корреляции обычно положительные, есть работы, которые их оценивают.

Reply

barouh September 23 2016, 16:12:34 UTC
Ну просто логически: у нас есть случайные отклонения, есть фактор 1 и есть обратно коррелирующий с ним фактор 2. При большом количестве точек (испытаний) мы можем ожидать, что фактор 1 получит нулевую корреляцию относительно случайных отклонений - и соответственно никак не сможет уменьшить случайную дисперсию, зато добавит дисперсию неслучайную

Фактор 2 сможет полностью компенсировать рост дисперсии, обусловленный фактором 1, только при корреляции -1,00. При менее сильной корреляции компенсация будет лишь частичной (т.е. дисперсия все равно останется больше, чем в модели чисто случайных отклонений) - а при ослаблении отрицательной корреляции ниже какого-то уровня и вовсе выяснится, что вклад второго фактора в увеличение дисперсии сильнее, чем его компенсационный эффект по первому фактору

Сужение дисперсии за счет влияния неслучайных факторов (пусть и отрицательно скоррелированных друг с другом) может быть только случайным эффектом - вероятность которого тем меньше, чем больше точек (участков) рассматривается в анализе

Reply

kobak September 23 2016, 20:04:04 UTC
Борис, простите, я не понял Ваше рассуждение. Вот Вам две модели с дисперсией меньше биномиальной.

(1) Избиратели сплошь состоят из замужних пар, муж голосует случайно за ЕР или против, а жены все всегда строго наоборот. Результат будет иметь дисперсию равную нулю. Если жены голосуют наоброт с вероятностью 90% и точно так же с вероятностью 10%, то дисперсия будет ненулевая, но маленькая. Тут матожидание 50%, но можно подкрутить числа, чтобы получилось 62.2. Я просто принцип демонстрирую.

(2) Пусть есть участок в 1000 человек и каждый голосует за ЕР с вероятностью 0.622. Это биномиальное распределение с матожиданием 62.2% и среднекв. откл. порядка 1.5%. А теперь пусть 622 человека голосуют за ЕР с вероятностью 1, а остальные с вероятностью 0%. Опять матожидание 62.2%, а дисперсия ноль. Возможны и промежуточные варианты: 622 голосуют за с вероятностью 90%, а остальные с вероятностью 10%. Среднекв. отклонение будет меньше биномиального.

Это называется Poisson-binomial распределение, у него дисперсия всегда меньше просто биномиальной.

Reply

oude_rus September 24 2016, 19:02:56 UTC
и так 200 раз подряд!

Reply

gegmopo4 September 23 2016, 18:01:33 UTC
Следствием отрицательной корреляции на глобальном уровне является то, что при двухпартийной системе количество голосов распределяется почти поровну. Результат президентских выборов 53% против 47% намного вероятнее, чем 86% против 14%. Да, собственно, и устойчивость двухпартийной системы тем же обусловлена.

Но равновесие здесь около 50%, а не 62,2%.

Reply

wild_wolfman September 25 2016, 10:04:59 UTC
> Но равновесие здесь около 50%, а не 62,2%

В предположении, что процесс голосования и явка также однородны и равномерны.

Что в реальности, внезапно™, не выполняется.

Reply


Leave a comment

Up