Comments | eugenyboger: Традиционные графики по выборам мэра Москвы 8 сентября 2013 г.

eugenyboger

Традиционные графики по выборам мэра Москвы 8 сентября 2013 г.

Sep 10, 2013 04:28

Последние данные ЦИК по 3595 участкам.

Самая интересная картинка: гистограмма распределения процента за Собянина, взвешенная на размер участка (графа 1 в протоколе). Если совсем просто, то для каждого значения процента за Собянина (ось X) по оси Y отложена общее списочное количество избирателей на участках, на которых получился соответствующий ( Read more... )

2013, выборы, москва

Leave a comment

Back to all threads

jemmybutton September 10 2013, 07:44:59 UTC

«утверждавшие, что нормальное распределение не применимо для описания выборов вообще, российских выборов, московских выборов и т.д. очевидно окончательно оказались неправы»
Это утверждение по сути некорректно. Если в каких-то случаях удалось наблюдать симметричное распределение похожее на нормальное это не значит что подлежащие процессы обязательно будут давать что-то похожее в других случаях. Тут мы, во-первых, наблюдаем результат около 50%, который для многих распределений величин от нуля до единицы (нормальное к ним не относится по определению, кстати) будет симметричным и даже похожим по форме на нормальное (бета-распределение, логит-нормальное распределение и черта-в-ступе-распределение), а во-вторых, это распределение, предположительно, более однородных данных, чем в случае с федеральными выборами. И я не утверждаю что на федеральных выборах распределение не было перекособочено за счет каких-то манипуляций, просто исходная посылка, что оно должно быть нормальным, совершенно необоснованная.

barouh September 10 2013, 08:01:35 UTC

1. у Навального распределение тоже близко к нормальному - а его результат сильно отличается от 50%

2. это почему же локальные выборы более однородные, чем федеральные? Наоборот - отношение к местному начальству скорее зависит от состояния дороги и крыши, чем отношение к Пу. И на этих выборах был кандидат, агитация которого была очень неравномерной по территории - тут куб был, газеты и листовки были, а рядышком не было. На федеральных выборах главный канал - телевизор, который в пределах города у всех зрителей примерно одинаковый

jemmybutton September 10 2013, 08:47:45 UTC

Близко-то оно может быть, но совершенно не обязательно будет (собственно, у него, что интуитивно и должно быть, в целом «легкое» левое плечо и «тяжелое» правое). Тут надо сравнивать несколько фитов разными распределениями, а до того хорошо бы построить модель, обосновывающую выбор той или иной функции распределения. Иначе аргументация выглядит так: «мы думаем, что распределение должно быть нормальным, потому что все в природе распределено нормально, а если оно не нормальное, то это точняг фольсефекации». К'мон, это же несерьезно.

Предположительно, я же говорю. Тут труднее сослаться на «особую электоральную культуру», например, или на обширное «село». Собственно, весь вопрос о распределении сводится к той или иной агрегации избирателей в участки, т. е. к географии, по сути, а тут уж не поймешь где география сложнее, в Москве или в РФ в целом.

barouh September 10 2013, 09:19:18 UTC

1. ОК, распределение не обязательно должно быть строго нормальным и симметричным. Но если говорить о масштабе города, у распределения должен быть явный пик - и плавные снижения в обе стороны

2. Голосование в пределах города конечно более однородное, чем на федеральных выборах. Но мы сейчас обсуждаем распределения в Москве на федеральных выборах и на региональных. Объект один и тот же (особенно если собянинские выборы считать без Новой Москвы), деление на участки изменилось не принципиально. Так что однородность массива на выборах мэра не больше, чем на московских голосованиях на федеральных выборах. А за счет факторов локальных проблем и неравномерности кампании одного из кандидатов - скорее даже однородность ниже

jemmybutton September 10 2013, 09:40:02 UTC

Из каких соображений он «должен» быть? Очевидно, что смоделировать вполне «натуральные» условия, при которых распределение будет иметь несколько пиков, к примеру, совсем нетрудно (соберем сторонников одного кандидата на одном конце Москвы, а другого - на другом и это не самый нереалистичный сценарий). В какой степени выполняются условия для одного пика и симметричного распределения в реальных условиях? Что это за условия ( ... )

eugenyboger September 10 2013, 09:43:45 UTC

Ну вот в данном случае никакого значительно влияющего на выбор эксцесса не видно. Это, впрочем, не важно - для следующих выборов можно брать вот это распределение из реальных данных и фиттировать результаты прямо им.

jemmybutton September 10 2013, 09:51:25 UTC

У меня почему-то получается что и эксцесс и асимметрия достаточно заметно отличаются от нуля, ну да ладно.

barouh September 10 2013, 10:51:16 UTC

- если говорить о России, то мне неизвестны примеры бимодальных или "плоских" распределений, для которых при этом не было бы всяких других свидетельств фальсификаций. Если на всяких честных выборах мы видим одну моду и некое приближение к лог-нормальному распределению, то разумно предположить, что это и есть нормальное поведение подобных систем ( ... )

jemmybutton September 10 2013, 11:30:16 UTC

Известны всякие примеры, типа пика из Москвы за Ельцина в 96-м (http://jemmybutton.livejournal.com/pics/catalog/497/41990) и навроде там совсем не очевидно были это фальсификации или просто Москвичи и правда что-то себе там думали другое? Но в любом случае выборка (количество выборов) не особенно большая и важных параметров не меньше чем точек данных ( ... )

stepka_mipt September 10 2013, 11:58:24 UTC

абсолютно согласен. Вообще ни при каких обстоятельствах нельзя в матстате принять гипотезу - можно только выбрать уровень значимости, вычислить статистики, и заявить: "С уровнем значимости 0.05 это не Гаусс" или "Данные не противоречат гипотезе нормальности".

График в этом случае совсем не показателен - под что угодно можно подогнать гауссиану, чтобы выглядело похоже.
Автор, если есть возможность, выложи достигаемый уровень значимости тестов Шапиро-Уилка и хи-квадрат?

eugenyboger September 11 2013, 12:18:58 UTC

брр, вы вообще пробовали "под что угодно подогнать гауссиану"? Я таких красивых графиков у себя в науке очень редко видел.

chi2/ndf = 136/121 для первого графика

jemmybutton September 11 2013, 14:04:05 UTC

«chi2/ndf = 136/121 для первого графика»
А почему на самом графике другие цифры написаны?

eugenyboger September 11 2013, 14:20:37 UTC

потому что для взвешенных гистограмм руту надо явно сказать, чтобы он правильно считал ошибки. Я это изначально не сделал.

( ... )

jemmybutton September 11 2013, 14:29:12 UTC

Обновите тогда в посте, что ли?
Но вообще странноватый способ проверять распределение на нормальность. Да и обычно q-q plot изображают, так гораздо виднее что где и куда отклоняется.

barouh September 10 2013, 12:01:45 UTC

в фразе "мне неизвестны примеры бимодальных или "плоских" распределений" я забыл уточнение "в пределах города"

как только мы начинаем объединять разнородные объекты (город и сельские участки, разные регионы, или даже два города одного региона), вероятно естественное появление бимодальности - как в примере с выборами 96 года
а вот в пределах города (а советские города, по крайней мере крупные, все достаточно однородные внутри себя) мода одна - и обратных примеров, насколько я знаю, нет

фальсификации нельзя считать "просто еще одним фактором" - поскольку он принципиально масштабнее по своему воздействию, чем любой другой фактор. Он действует не отдельно на каждого избирателя, а действует сразу на большое количество голосов - притом однонаправленно

jemmybutton September 10 2013, 12:18:51 UTC

Я к тому клоню, что ничего нельзя просто так по умолчанию считать «еще одним фактором». Т. е. мы можем пренебречь чем-то и считать это случайным по отношению к интересующим нас величинам (что совершенно норм, конечно), но если что-то не сходится, то есть смысл посмотреть разные факторы, а не одни только фальсификации.

Back to all threads