Выборы президента. Предварительные итоги

Mar 07, 2012 04:23

Итак, несмотря на противодействие чуровской команды (по некоторым данным, были сделаны препятствия для автоматической скачки результатов, однако шила в мешке утаить невозможно), появились подробные предварительные результаты голосования, спасибо энтузиастам: http ( Read more... )

статистика, модели, выборы, исследования

Leave a comment

Формулирую... ext_1108546 April 7 2012, 17:34:53 UTC
Диаграмма "Восстановленные результаты выборов" - красота. Любуюсь, но не могу вспомнить (в ваших более ранних постах что-то было), как разделялась выборка (выбрасывались "неправильные участки").
Полагаю, что этот пост будет лучше, если в нем будет ссылка на описание (методику, принципы) отделения выбросов (вбросов)... у вас я нашел ссылку на методику Шпилькина http://podmoskovnik.livejournal.com/17639.html
вот в этом посте http://andirect.livejournal.com/11137.html
и в этом http://andirect.livejournal.com/10660.html есть описание...
... кривых много, но какой критерий использовали для разделения генеральной совокупности?
Я так понял, что взяли две нормальные кривые и сложили..., а как подбирали параметры кривых, у меня такое впечатление, что "на глазок"?
Словом, мне было бы куда понятнее, если бы (вместо трех больших) был один коротенький пост... с ответом на этот вопрос

Reply

Re: Формулирую... andirect April 7 2012, 19:03:42 UTC
Выборка не разделяется, присутствуют все исходные данные.

Стараюсь популярно касаться методики, но в каждом посте это делать затруднительно, поэтому лучше искать её ретроспективно, в предыдущих постах на эту тему, кроме того, она меняется и окончательно не устоялась.

Если коротко её сформулировать, то получится следующее:
Часть 1.
1) задаёмся стартовым исходным распределением явки, пока это нормальное распределение, с некими параметрами.
2) задаёмся распределением вброса, оно произвольное, задано по точкам.
3) зная, как вброс влияет на явку, применяем вброс ко всем точкам исходной явки, получаем распределение явки, соответствующее 1) и 2).
4) сравниваем распределение явки, полученное на этапе 3) с имевшим место на выборах, вычисляем СКО разницы кривых.
5) меняя параметры на этапах 1) и 2), получаем минимальное значение СКО.
Считаем параметры этого минимума приближением для исходного распределения.

Часть 2. Зная предположительные значения исходного распределения, вычисляем предположительный вброс для каждой процентной точки реально показанного распределения.
Удаляем этот вброс из результатов кандидатов в определённой пропорции, добиваясь наилучшего соответствия распределения голосов за кандидатов распределению показанной явки. Всё аналогично тому, как делалось в части 1, минимизацией СКО отклонений соответствующих распределений.

Часть 3.
Оптимизируем все параметры из частей 1 и 2, добиваясь минимума некоего совокупного критерия качества подбора.

Можно, сказать, "на глазок", но с применением электронного калькулятора.

Reply

Re: Формулирую... ext_1108546 April 8 2012, 10:38:36 UTC
Очень интересно, но побежал вставлять ссылки на литературу, потом ... надо бы построить гистограммы для округов СЗАО Москвы, а то мне неудобно без примера разговаривать...
потому пока только одно предложение: "Стараюсь популярно касаться методики", не надо "популярно" (ИМХО), я пришел к выводу - сначала для специалистов, а потом уже писать "популярно" ...это ведь куда сложнее..., для меня (по крайней мере.
Словом, пока только два вопроса, возникших при беглом чтении:
1) - считаем из полной выборки (совокупности), или это просто нормальная кривая "от руки"?
2) - не понял словосочетание "распределение вброса... произвольное, заданное по точкам" ... здесь проще на картинке показать...
...обязательно еще вернусь и перечитаю этот ваш коммент внимательно

Reply

Re: Формулирую... andirect April 8 2012, 11:58:53 UTC
С гистограммами особо не мучьтесь (хотя у каждого может быть свой инструментарий). Я сделал файлик на Excel, который автоматически их формирует, исходя из фильтрованных данных по России, выложу в ближайшем своём посте на тему.

Популярное, но точное изложение сложного - своего рода "исскуство". Очень полезно для самого себя же. Позволяет посмотреть на проблему "в целом". Иногда выясняются неточности, которые выпадают при доскональном углублении в проблему. Так что это только наполовину для публики. Если же писать с претензией на академичность, то это сразу распугает (и так никого нет) потенциальных читателей.

Исходные данные - полная совокупность всех данных (возможно, ранее отфильтрованная на соответствие какому-либо признаку). Ничего не отбрасывается умозрительно заранее.
Нормальная кривая - это предположительное исходное распределение явки/голосов (без вбросов и других искажений). Все остальные кривые - результат обработки нормальной кривой разными методами и результат коррекции показанных в данных ЦИК результатов.
Фактически мы ищем сложную функцию преобразования исходного распределения, наилучшим образом преобразующее это распределение в показанное в данных ЦИК. Которую используем для уточнения своих первоначальных предположений по исходному распределению.

Распределение вброса - это наши предположения о том, какие вбросы производились. Скажем, на 5% участков вбросили по 1% от численности, на 25% участков - 20%, на 70% вбросили менее 1%, что не повлияло на распределение. Вы в своих рассуждениях предполагаете, насколько можно понять, что вброс одномодальный, т.е. существует некая гладкая кривая вброса с одним максимумом. Моя практика показывает, что это не так.
Картинки распределения вброса в ранних постах присутствуют, потом я их удалил, чтобы не путать читателей (и так всё непросто), поскольку это промежуточное преобразование, оптимальное с математической точки зрения, но не обязанное быть похожим на реальное, это некоторая аппроксимация реальных событий.

Reply

Re: Формулирую... ext_1108546 April 8 2012, 12:35:15 UTC
Кажется, начинаю понимать...
Вы просто преобразуете Гаусса в Чурова... А эвристику предположений о вбросах (ИСКАЖЕНИЯХ) проверяете степенью подгонки (СОВПАДЕНИЯ)смоделированной кривой и официальной...

...Я не предполагал, что вброс одномодальный. Он, скорее всего, вообще неслучайный..., а значит, просуммировался и сгладился и "обнормалился" слегка...
... полагал его рассматривать по регионам, у каждого "начальника", наверное, была своя "любимая" методика... Поскольку без эвристики здесь не обойтись, то я отдодвигал этот вопрос для себя "на потом"..., а вы здесь уже, оказывается, собаку съели...

Reply

Re: Формулирую... andirect April 8 2012, 13:06:21 UTC
Что касается поиска вброса по малым выборкам - районам, ТИКам и т.д.
Тут надо знать меру. Наиболее гладкие кривые - по всей России 95 тыс. участков всё-таки. Приемлемо по Москве в целом - 3380 участков, не так гладко, выбросы разные присутствуют, но подгонять можно. Как только мы переходим к заметно меньшим выборкам - такое начинается, что методы автоматизированной подгонки плохо срабатывают, а то и вовсе не сходятся. Так что разочарую вас - выяснить желания отдельного начальника не получится никак, а времени убъёте немало.
В Москве был налажен хороший контроль, в ТИКах в этот раз не приписывали, если сравнивать с думскими выборами, поэтому вылавливать особо нечего, по моим подсчётам, суммарные фальсификации порядка 0,5% от числа избирателей, это около 35-40 тыс голосов. Что тут анализировать, 10-12 вброшенных голосов в среднем на участок, мизер. Максимум, что можно сделать, это отбросить явно сфальсифицированные участки и посмотреть, что будет без них, порадоваться ещё более гладкой кривой.

Reply

Re: Формулирую... ext_1108546 April 8 2012, 15:14:24 UTC
"Тут надо знать меру" - да конечно...,тут надеюсь на софт хороший "Statisica-8" ...все критерии и подгонка в два-три клика.
Потому и хочу сначала графики построить..., пока опираюсь только на предварительные данные по нескольким управам...
Вместо того, чтобы строить гистограммы, искал ссылки для скачивания книг, RSS комментариев с вашего блога (так и не нашел), редактировал движок для блога-черновика (добавил количество ссылок при открытии меню...), а завтра на работу...
Пишу все это, чтобы вы высказали свои пожелания по поводу организации рабочего места для исследовательских групп..., все должно быть "под рукой"
...как вы понимаете, блог-черновик - это макет такого рабочего места...

Reply

Re: Формулирую... andirect April 8 2012, 17:48:56 UTC
Дерзайте, поглядывая на мои старые и будущие посты, чтобы не изобретать велосипед. Я тоже хотел было попробовать использовать какой-либо статистический пакет (когда упёрся в ограничения Excel 2003), нашёл бесплатный SkyLab, но дело не пошло, всё удалось смоделировать на Excel 2007. Вообще, мне кажется, чтобы сварганить что-либо сложное в пакете статанализа, надо потратить на порядок больше времени, несмотря на то, что он лучше заточен под обработку данных.

Reply

Re: Формулирую... ext_1108546 April 11 2012, 19:23:35 UTC
С пакетом возни много, когда надо вспоминать сам метод (ANOVA, или Бокс-Дженикс..., например). Меня лет пять назад "приспичило" - был хороший заказ... месяцев шесть упражнялся... потом еще решил разобрать весь пакет, потом забросил это дело... вот недавно опять "все вспомнил"...
Но, по идее, анализ выборов - это как раз "учебная задачка", когда можно и поупражнятся...
В торрентах можно найти и SPSS и Statistica...

Reply


Leave a comment

Up