Итак, несмотря на противодействие чуровской команды (по некоторым данным, были сделаны препятствия для автоматической скачки результатов, однако шила в мешке утаить невозможно), появились подробные предварительные результаты голосования, спасибо энтузиастам:
http
( Read more... )
Про адреса не знаю, народ тоже озабочен этой проблемой.
Есть ещё проблема разделения на сельские/городские, КОИБ/не КОИб.
Сейчас решается индивидуально - пока кто-нибудь руками не сделает необходимое соответствие.
Проблемы формулируйте. Тема довольно сложная. Как только я подсовываю какую-нибудь свою картинку кому-либо из популярных по этой теме блогеров, они сразу замыкаются. Я так понимаю, что глубоко лезть в математику они не готовы, а на мелком описательном уровне тема изрыта вдоль и поперёк.
Если не секрет, откуда пришли в мой блог?
Reply
Ваш блог нашел, когда прочесывал рунет... поиск в Гугл "выборы гистограмма", поиск по картинкам.
Проблемы начал формулировать в комментариях к черновику http://alter-marketing.blogspot.com/2012/03/blog-post.html?showComment=1333798896332#c4834680495812554307
после беглого анализа категоризированных гистограмм (категория - округ Москвы)... честно говоря удивлен, что никто этого не делал... или я плохо искал...
Reply
Гоняет по подтверждениями авторства ЖЖ в Блогпосте, но возвращает к окну редактирования.
На всякий случай дублирую здесь свой комментарий к последнему вашему комментарию:
Пара трудностей с биномиальным распределением - во первых, непонятно, как определить параметр распределения а) участки разные по численности; б) корректно ли считать +1 избиратель в списке, +1 к параметру распределения, может, избиратели группируются (семьями, например), решая ходить/не ходить, что уменьшает итоговый параметр.
во - вторых, неверно утверждение, что вероятность прихода отдельного избирателя одинакова и равна средней для всех вместе, а это основополагающее условие биномиального распределения.
Ц.П.Т. применима к сумме случайных величин, а не к их суперпозиции.
СКО биномиального распределения при параметре 2159 (средний размер участка по Москве) и вероятности 0,576 (предположительная средняя явка) применительно к нашему случаю даёт СКО 1,06%, однако же получено СКО, равное 3,4%.
Хотя идея взять за основу биномиальное распределение здравое, поскольку больше соответствует природе голосования, нежели нормальное распределение.
Reply
2. Все вопросы в "в самую точку", потому мне понадобятся ссылки на литературу
...в посте, куда вам не удалось написат коммент, добавил список "Книги "ТерВер и МатСтат", сейчас поднастрою и там будут ссыкли на Феллера и Сигела.
После этого можно приступать к ответам на ваши вопросы по существу.
Отвечать, думаю, лучше в моем закрытом (от поисковиков) блоге. Хотя, если вы заинтересованы в "раскрутке", можно и здесь.
Reply
Если там чего нет, то можно добавить, заработав очки для последующего скачивания.
Особая раскрутка моему журналу не требуется, но хорошо, если кто-то оставляет содержательные комментарии, иначе он превращается в личную записную книжку, чего не очень хочется.
Reply
Мои списки библиотек-складов здесь (частично)http://delicious.com/c131mai/library
там не только те книги, на которые указывают закладки, но и целые "склады"
Reply
Reply
Популярное изложение модели выборов....Ох, и утомительное это дело, оказывается
Reply
6. Таким образом, если":
Чтобы вас сразу не увело в "дебри схоластики" ;-)
давайте сразу определимся с несколькими базовыми вещами.
Во-первых, приход отдельного избирателя к урне распределён отнюдь не биноминально. Это распределение Бернуллли, и характеризуется всего 2 точками на шкале вероятностей - а именно 0 и 1.
Соответственно не совсем правильно говорить о ЦПТ по отношению к сумме этих "индивидуальных явок". Хотя можно. Чем распределение Бернулли хуже любого другого? ЦПТ не накладывает ограничений на вид распределений отдельных слагаемых.
Во-вторых, сумма этих "индивидуальных явок" вовсе не является нормальным распределением, исходя из следствий ЦПТ. Эта сумма, как случайная величина, как раз и имеет биномиальное распределение, что экспериментально выявляется многократным повтором серий экспериментов, применительно к нашему случаю - обработкой результатов явки на массиве УИКов.
Reply
1. Схема испытаний Бернулли (и распределение Бернулли, естественно) - приход избирателя..., либо 0, либо 1 ...
2. Биномиальное распределение (сумма исходов испытаний Бернулли)- вероятность прихода q избирателей из n (по списку).
..........
А ваши "сомнения" по поводу нормального распределения "сумма этих "индивидуальных явок" вовсе не является нормальным распределением, ... и имеет биномиальное распределение"
снимается, если учесть что при росте n (хватит и n=100, а у нас порядок - тысяча), биномиальное распределение аппроксимируется нормальным.
т.о. можем спокойно использовать
3. Нормальное распределение - при росте n и переходе к "проценту явки" естественно переходим от биномиального к нормальному распределению.
Reply
Если мы минуем биномиальное распределение, сразу переходя к нормальному, то вопрос: зачем мы им вообще заморачиваемся? Проще (что собственно и составляет основу моих предыдущих постов) предположить распределение нормальным и искать его характеристики, не затрудняя себя гаданием о параметрах биномиального распределения.
Вы говорите, хватит n=100. Не хватит. при п=100 сетка возможных значений вероятностей идёт ровно через 1% (всего 101 вариант возможных исходов). Поскольку мы контролируем распределение явки при помощи гистограммы, состоящей тоже из 101 разряда (99 разрядов по 1% и 2 крайних по 0,5%), то в этом случае проблем не возникает, каждое значение ложится в свой разряд. Но представьте, что у вас n=105. В этом случае в 5 разрядов попадёт не 1, а 2 значения, что приведёт к выбросам на кривой распределения до +100% от значений соседних разрядов. Это методологическая ошибка способа обработки результатов. Если мы смиримся с 10% выбросами (всё равно это достаточно заметно на диаграмме), то такая точность будет достигнута при n=1000, что уже вплотную подходит к значению реальной численности участков. Другой способ уменьшения интерференции - размыть границы разрядов гистограмм, но что-то я не встречал такого в литературе.
Reply
Чтобы сравнивать участки нам нужно НОРМИРОВАТЬ явку, т.е., от вопросов "каковы вероятность того, что на участок №777 заявится 750 избирателей из 2300", "какова вероятность того, что на участок №888 заявится 456 избирателей из 1000"... при вероятности 0,55
перейти либо к сравнению участков "приведенной численности", например все пересчитать на 1000 человек..., либо перейти к проценту явки, что ведет к непрерывному распределению..., но не на бесконечном интевале, а в ограниченном...
Reply
Если коротко, то распределение не обязано быть нормальным (здесь Чуров прав).
В формулировке (у Феллера) ЦПТ есть требование "для одинаково распределенных случайных величин" (и наличие мат. ожидания и дисперсии).
Так вот, чтобы полагать распределение нормальным, нужно доказать "одинаковость" распределения выборки в "Строгино" (42 участка) и выборки в "Удмуртии" ...
И там и там распределение будет нормальным (если явка была независимой), но мат ожидания могут отличаться существенно..., а это и будет означать, что "случайные величины распределены не одинаково"...
Для того, чтобы до этого дойти, мне и понадобилось заморачиваться со всей этой последовательностью:
схема Бернулли, ЦПТ, биномиа..., нормальное...
Здесь стало ясно, что сначала работает ЦПТ (если так можно сказать), потом получаем распределение, а мат ожидание этого (биномиального) распределения определяется (0,55) - в Строгино одними настроениями избирателей, а в Удмуртии (0,8)другими (и то и другое получены в результате сложения большого количества...). И, если мы теперь их сложим (два нормаьных распределения с разными мат.ожиданиями), то получим бимодальное распределение.
Reply
А зачем нам вообще строить гистограмму с таким количеством интервалов? Для установления нормальности можно использовать соответствующие расчетные критерии (они никак не связаны с гистограммой).
Вы наверное не видели, я здесь вставил таки картинку к гистограммами http://alter-marketing.blogspot.com/2012/04/blog-post.html
Там интервалов 20 (если не ошибаюсь), точек по 40 (и меньше), но компьютер рисует нормальную кривую, которая совпадает для разных районов... можно еще тесты нормальности подключить...
Reply
Нормальность предполагается у исходного распределения, за вычетом вбросов и переписки голосов, но как вы предполагаете очистить чуровскую явку?
Метод с разделением явки по разрядам гистограммы представляется наименее сложным методом очистки от фальсификаций при помощи моделирования процесса выборов и поиска оптимума по МНК.
Перечитал ещё раз ваш пост с гистограммами по районам Москвы. Начнём с того, что компьютер рисует нормальную кривую со средним и дисперсией выборки из нескольких точек, соответственно числа разрядов ваших гистограмм. Вообще, компьютер для этого не нужен, всё можно посчитать на калькуляторе.
Вас не смутило, что, несмотря на близость средних, дисперсии по районам различаются в разы? А также зрительно форма гистограмм не очень напоминает нормальную кривую? А где-то даже многомодальность проглядывает. А компьютер всё равно рисует гладкую нормальную кривую, ничуть не похожую на форму гистограммы. Какие тут могут быть критерии нормальности? Ясно, что при таком [малом] количестве точек и таких отклонениях от нормальной кривой ни один тест не подтвердит гипотезы нормальности распределения. Максимум, не отвергнет.
Reply
меня ничего не смущает, а только радует..., поскольку не ожидал настолько хороших результатов... (там два слайда, на втором - диаграмма разброса... я могу на ней вывести номера "ненормальных" или подозрительных УИКов.
Чтобы вам легче было смотреть - вот прямые ссылки гимстограммв - http://4.bp.blogspot.com/-t-cjkZQVAFs/T478UrZV39I/AAAAAAAAARQ/jTkQuGIQaSY/s1600/2012-04-18_21h33_55.png .............................
рассеяние - http://4.bp.blogspot.com/-RWSz6h2gwso/T478UUsaY6I/AAAAAAAAARE/eRz1IcGV5hA/s1600/2012-04-18_21h35_02.png ............................(здесь вместо точек можно вывести номера УИКов... проблема в том, что я работаю на маленьком переносном компьтере, а "скринкастить" надо с большого экрана, до которого никак не доберусь...)
....а обсуждение других предлагаю отложить, поскольку все они следствие... нашего разного понимания исходной модели процесса.
Мы ее просто недообсудили.
Reply
Leave a comment