Comments | andirect: Выборы президента. Предварительные итоги

andirect

Выборы президента. Предварительные итоги

Mar 07, 2012 04:23

Итак, несмотря на противодействие чуровской команды (по некоторым данным, были сделаны препятствия для автоматической скачки результатов, однако шила в мешке утаить невозможно), появились подробные предварительные результаты голосования, спасибо энтузиастам: http ( Read more... )

статистика, модели, выборы, исследования

Leave a comment

Back to all threads

Re: Несколько вопросов... andirect April 7 2012, 15:19:17 UTC

Насколько я знаю, официально итоги выборов не сводятся в один файл. Разного рода энтузиасты, придумывают автоматические скрипты, скачивающие их со страниц ЦИКа. Вверху приведена ссылка на ресурс, куда автоматически выкладываются меняющиеся итоги выборов 4 марта (нет раз и навсегда утверждённых). Это результаты работы такого скрипта, который придумал блогер Шипилев. Есть ресурс, на котором результаты выкладываются систематически: http://stat.golos.org/elections , правда у них информация появляется с задержкой.

Про адреса не знаю, народ тоже озабочен этой проблемой.
Есть ещё проблема разделения на сельские/городские, КОИБ/не КОИб.
Сейчас решается индивидуально - пока кто-нибудь руками не сделает необходимое соответствие.

Проблемы формулируйте. Тема довольно сложная. Как только я подсовываю какую-нибудь свою картинку кому-либо из популярных по этой теме блогеров, они сразу замыкаются. Я так понимаю, что глубоко лезть в математику они не готовы, а на мелком описательном уровне тема изрыта вдоль и поперёк.

Если не секрет, откуда пришли в мой блог?

Re: Несколько вопросов... ext_1108546 April 7 2012, 16:47:21 UTC

Шипилева читал, файл (пока) взял отсюда http://stat.golos.org/
Ваш блог нашел, когда прочесывал рунет... поиск в Гугл "выборы гистограмма", поиск по картинкам.
Проблемы начал формулировать в комментариях к черновику http://alter-marketing.blogspot.com/2012/03/blog-post.html?showComment=1333798896332#c4834680495812554307
после беглого анализа категоризированных гистограмм (категория - округ Москвы)... честно говоря удивлен, что никто этого не делал... или я плохо искал...

Re: Несколько вопросов... andirect April 7 2012, 19:12:58 UTC

Не совсем понимаю, как оставлять комментарии в вашем блоге.
Гоняет по подтверждениями авторства ЖЖ в Блогпосте, но возвращает к окну редактирования.

На всякий случай дублирую здесь свой комментарий к последнему вашему комментарию:

Пара трудностей с биномиальным распределением - во первых, непонятно, как определить параметр распределения а) участки разные по численности; б) корректно ли считать +1 избиратель в списке, +1 к параметру распределения, может, избиратели группируются (семьями, например), решая ходить/не ходить, что уменьшает итоговый параметр.
во - вторых, неверно утверждение, что вероятность прихода отдельного избирателя одинакова и равна средней для всех вместе, а это основополагающее условие биномиального распределения.

Ц.П.Т. применима к сумме случайных величин, а не к их суперпозиции.

СКО биномиального распределения при параметре 2159 (средний размер участка по Москве) и вероятности 0,576 (предположительная средняя явка) применительно к нашему случаю даёт СКО 1,06%, однако же получено СКО, равное 3,4%.

Хотя идея взять за основу биномиальное распределение здравое, поскольку больше соответствует природе голосования, нежели нормальное распределение.

Re: Несколько вопросов... ext_1108546 April 8 2012, 10:12:30 UTC

1. Прошу прощения, разрешались только комментарии от "допущеных пользователей". Сейчас исправил, можно комментировать без регистрации (проверьте пожалуйста).
2. Все вопросы в "в самую точку", потому мне понадобятся ссылки на литературу
...в посте, куда вам не удалось написат коммент, добавил список "Книги "ТерВер и МатСтат", сейчас поднастрою и там будут ссыкли на Феллера и Сигела.
После этого можно приступать к ответам на ваши вопросы по существу.
Отвечать, думаю, лучше в моем закрытом (от поисковиков) блоге. Хотя, если вы заинтересованы в "раскрутке", можно и здесь.

Re: Несколько вопросов... andirect April 8 2012, 12:07:54 UTC

Я ищу необходимую литературу на http://www.twirpx.com .
Если там чего нет, то можно добавить, заработав очки для последующего скачивания.

Особая раскрутка моему журналу не требуется, но хорошо, если кто-то оставляет содержательные комментарии, иначе он превращается в личную записную книжку, чего не очень хочется.

Re: Несколько вопросов... ext_1108546 April 10 2012, 09:43:36 UTC

Спасибо за ссылку, ресурс хороший... не знал, там есть и Феллер и Сигел...
Мои списки библиотек-складов здесь (частично)http://delicious.com/c131mai/library
там не только те книги, на которые указывают закладки, но и целые "склады"

Re: Несколько вопросов... andirect April 10 2012, 11:26:22 UTC

Спасибо, по вашей наводке скачал Феллера, правда со своего сайта.

Пояснения к модели ext_1108546 April 18 2012, 11:24:15 UTC

На ваши вопросы я попытался ответить здесь http://alter-marketing.blogspot.com/2012/04/blog-post.html?showComment=1334743849122#c6067243856190785277
Популярное изложение модели выборов....Ох, и утомительное это дело, оказывается

Re: Пояснения к модели andirect April 18 2012, 18:03:45 UTC

Хоть убей, не могу комментировать в вашем блоге из-под учётной записи Livejournal - водит по кругу, а запись не появляется, поэтому отвечу здесь на пост, заканчивающийся "5. Для тех участков, где суммы (явки) будут складываться из сумм одинаково распределенных величин (биномиальных с одинаковым мат. ожиданием) будет справедливо нормальное распределение.
6. Таким образом, если":

Чтобы вас сразу не увело в "дебри схоластики" ;-)
давайте сразу определимся с несколькими базовыми вещами.

Во-первых, приход отдельного избирателя к урне распределён отнюдь не биноминально. Это распределение Бернуллли, и характеризуется всего 2 точками на шкале вероятностей - а именно 0 и 1.
Соответственно не совсем правильно говорить о ЦПТ по отношению к сумме этих "индивидуальных явок". Хотя можно. Чем распределение Бернулли хуже любого другого? ЦПТ не накладывает ограничений на вид распределений отдельных слагаемых.

Во-вторых, сумма этих "индивидуальных явок" вовсе не является нормальным распределением, исходя из следствий ЦПТ. Эта сумма, как случайная величина, как раз и имеет биномиальное распределение, что экспериментально выявляется многократным повтором серий экспериментов, применительно к нашему случаю - обработкой результатов явки на массиве УИКов.

Re: Пояснения к модели ext_1108546 April 19 2012, 09:03:13 UTC

Дык, я именно это и писал (наверное, не очень вразумительно), у вас ведь получается то же самое:
1. Схема испытаний Бернулли (и распределение Бернулли, естественно) - приход избирателя..., либо 0, либо 1 ...
2. Биномиальное распределение (сумма исходов испытаний Бернулли)- вероятность прихода q избирателей из n (по списку).
..........
А ваши "сомнения" по поводу нормального распределения "сумма этих "индивидуальных явок" вовсе не является нормальным распределением, ... и имеет биномиальное распределение"
снимается, если учесть что при росте n (хватит и n=100, а у нас порядок - тысяча), биномиальное распределение аппроксимируется нормальным.
т.о. можем спокойно использовать
3. Нормальное распределение - при росте n и переходе к "проценту явки" естественно переходим от биномиального к нормальному распределению.

Re: Пояснения к модели andirect April 19 2012, 20:14:18 UTC

ОК, будем считать, что базовые понятия у нас одинаковые.

Если мы минуем биномиальное распределение, сразу переходя к нормальному, то вопрос: зачем мы им вообще заморачиваемся? Проще (что собственно и составляет основу моих предыдущих постов) предположить распределение нормальным и искать его характеристики, не затрудняя себя гаданием о параметрах биномиального распределения.

Вы говорите, хватит n=100. Не хватит. при п=100 сетка возможных значений вероятностей идёт ровно через 1% (всего 101 вариант возможных исходов). Поскольку мы контролируем распределение явки при помощи гистограммы, состоящей тоже из 101 разряда (99 разрядов по 1% и 2 крайних по 0,5%), то в этом случае проблем не возникает, каждое значение ложится в свой разряд. Но представьте, что у вас n=105. В этом случае в 5 разрядов попадёт не 1, а 2 значения, что приведёт к выбросам на кривой распределения до +100% от значений соседних разрядов. Это методологическая ошибка способа обработки результатов. Если мы смиримся с 10% выбросами (всё равно это достаточно заметно на диаграмме), то такая точность будет достигнута при n=1000, что уже вплотную подходит к значению реальной численности участков. Другой способ уменьшения интерференции - размыть границы разрядов гистограмм, но что-то я не встречал такого в литературе.

Re: Пояснения к модели ext_1108546 April 20 2012, 10:35:15 UTC

"...переходя к нормальному, то вопрос: зачем мы им вообще заморачиваемся?"
Чтобы сравнивать участки нам нужно НОРМИРОВАТЬ явку, т.е., от вопросов "каковы вероятность того, что на участок №777 заявится 750 избирателей из 2300", "какова вероятность того, что на участок №888 заявится 456 избирателей из 1000"... при вероятности 0,55
перейти либо к сравнению участков "приведенной численности", например все пересчитать на 1000 человек..., либо перейти к проценту явки, что ведет к непрерывному распределению..., но не на бесконечном интевале, а в ограниченном...

Re: Пояснения к модели ext_1108546 April 20 2012, 11:05:01 UTC

... Проще (что собственно и составляет основу моих предыдущих постов) предположить распределение нормальным.
Если коротко, то распределение не обязано быть нормальным (здесь Чуров прав).
В формулировке (у Феллера) ЦПТ есть требование "для одинаково распределенных случайных величин" (и наличие мат. ожидания и дисперсии).
Так вот, чтобы полагать распределение нормальным, нужно доказать "одинаковость" распределения выборки в "Строгино" (42 участка) и выборки в "Удмуртии" ...
И там и там распределение будет нормальным (если явка была независимой), но мат ожидания могут отличаться существенно..., а это и будет означать, что "случайные величины распределены не одинаково"...
Для того, чтобы до этого дойти, мне и понадобилось заморачиваться со всей этой последовательностью:
схема Бернулли, ЦПТ, биномиа..., нормальное...
Здесь стало ясно, что сначала работает ЦПТ (если так можно сказать), потом получаем распределение, а мат ожидание этого (биномиального) распределения определяется (0,55) - в Строгино одними настроениями избирателей, а в Удмуртии (0,8)другими (и то и другое получены в результате сложения большого количества...). И, если мы теперь их сложим (два нормаьных распределения с разными мат.ожиданиями), то получим бимодальное распределение.

Re: Пояснения к модели ext_1108546 April 20 2012, 11:25:55 UTC

...Вы говорите, хватит n=100. Не хватит...

А зачем нам вообще строить гистограмму с таким количеством интервалов? Для установления нормальности можно использовать соответствующие расчетные критерии (они никак не связаны с гистограммой).
Вы наверное не видели, я здесь вставил таки картинку к гистограммами http://alter-marketing.blogspot.com/2012/04/blog-post.html
Там интервалов 20 (если не ошибаюсь), точек по 40 (и меньше), но компьютер рисует нормальную кривую, которая совпадает для разных районов... можно еще тесты нормальности подключить...

Re: Пояснения к модели andirect April 20 2012, 20:10:32 UTC

А зачем нам устанавливать нормальность? Если прямолинейно подойти к вопросу, то никакой нормальности не получится в принципе, посмотрите на исходные распределения явки.
Нормальность предполагается у исходного распределения, за вычетом вбросов и переписки голосов, но как вы предполагаете очистить чуровскую явку?
Метод с разделением явки по разрядам гистограммы представляется наименее сложным методом очистки от фальсификаций при помощи моделирования процесса выборов и поиска оптимума по МНК.

Перечитал ещё раз ваш пост с гистограммами по районам Москвы. Начнём с того, что компьютер рисует нормальную кривую со средним и дисперсией выборки из нескольких точек, соответственно числа разрядов ваших гистограмм. Вообще, компьютер для этого не нужен, всё можно посчитать на калькуляторе.
Вас не смутило, что, несмотря на близость средних, дисперсии по районам различаются в разы? А также зрительно форма гистограмм не очень напоминает нормальную кривую? А где-то даже многомодальность проглядывает. А компьютер всё равно рисует гладкую нормальную кривую, ничуть не похожую на форму гистограммы. Какие тут могут быть критерии нормальности? Ясно, что при таком [малом] количестве точек и таких отклонениях от нормальной кривой ни один тест не подтвердит гипотезы нормальности распределения. Максимум, не отвергнет.

Re: Пояснения к модели ext_1108546 April 21 2012, 13:15:43 UTC

Здесь много вопросов... потому отвечу только на один:
меня ничего не смущает, а только радует..., поскольку не ожидал настолько хороших результатов... (там два слайда, на втором - диаграмма разброса... я могу на ней вывести номера "ненормальных" или подозрительных УИКов.
Чтобы вам легче было смотреть - вот прямые ссылки гимстограммв - http://4.bp.blogspot.com/-t-cjkZQVAFs/T478UrZV39I/AAAAAAAAARQ/jTkQuGIQaSY/s1600/2012-04-18_21h33_55.png .............................
рассеяние - http://4.bp.blogspot.com/-RWSz6h2gwso/T478UUsaY6I/AAAAAAAAARE/eRz1IcGV5hA/s1600/2012-04-18_21h35_02.png ............................(здесь вместо точек можно вывести номера УИКов... проблема в том, что я работаю на маленьком переносном компьтере, а "скринкастить" надо с большого экрана, до которого никак не доберусь...)
....а обсуждение других предлагаю отложить, поскольку все они следствие... нашего разного понимания исходной модели процесса.
Мы ее просто недообсудили.

Back to all threads