Итак, несмотря на противодействие чуровской команды (по некоторым данным, были сделаны препятствия для автоматической скачки результатов, однако шила в мешке утаить невозможно), появились подробные предварительные результаты голосования, спасибо энтузиастам:
http
( Read more... )
Полагаю, что этот пост будет лучше, если в нем будет ссылка на описание (методику, принципы) отделения выбросов (вбросов)... у вас я нашел ссылку на методику Шпилькина http://podmoskovnik.livejournal.com/17639.html
вот в этом посте http://andirect.livejournal.com/11137.html
и в этом http://andirect.livejournal.com/10660.html есть описание...
... кривых много, но какой критерий использовали для разделения генеральной совокупности?
Я так понял, что взяли две нормальные кривые и сложили..., а как подбирали параметры кривых, у меня такое впечатление, что "на глазок"?
Словом, мне было бы куда понятнее, если бы (вместо трех больших) был один коротенький пост... с ответом на этот вопрос
Reply
Стараюсь популярно касаться методики, но в каждом посте это делать затруднительно, поэтому лучше искать её ретроспективно, в предыдущих постах на эту тему, кроме того, она меняется и окончательно не устоялась.
Если коротко её сформулировать, то получится следующее:
Часть 1.
1) задаёмся стартовым исходным распределением явки, пока это нормальное распределение, с некими параметрами.
2) задаёмся распределением вброса, оно произвольное, задано по точкам.
3) зная, как вброс влияет на явку, применяем вброс ко всем точкам исходной явки, получаем распределение явки, соответствующее 1) и 2).
4) сравниваем распределение явки, полученное на этапе 3) с имевшим место на выборах, вычисляем СКО разницы кривых.
5) меняя параметры на этапах 1) и 2), получаем минимальное значение СКО.
Считаем параметры этого минимума приближением для исходного распределения.
Часть 2. Зная предположительные значения исходного распределения, вычисляем предположительный вброс для каждой процентной точки реально показанного распределения.
Удаляем этот вброс из результатов кандидатов в определённой пропорции, добиваясь наилучшего соответствия распределения голосов за кандидатов распределению показанной явки. Всё аналогично тому, как делалось в части 1, минимизацией СКО отклонений соответствующих распределений.
Часть 3.
Оптимизируем все параметры из частей 1 и 2, добиваясь минимума некоего совокупного критерия качества подбора.
Можно, сказать, "на глазок", но с применением электронного калькулятора.
Reply
потому пока только одно предложение: "Стараюсь популярно касаться методики", не надо "популярно" (ИМХО), я пришел к выводу - сначала для специалистов, а потом уже писать "популярно" ...это ведь куда сложнее..., для меня (по крайней мере.
Словом, пока только два вопроса, возникших при беглом чтении:
1) - считаем из полной выборки (совокупности), или это просто нормальная кривая "от руки"?
2) - не понял словосочетание "распределение вброса... произвольное, заданное по точкам" ... здесь проще на картинке показать...
...обязательно еще вернусь и перечитаю этот ваш коммент внимательно
Reply
Популярное, но точное изложение сложного - своего рода "исскуство". Очень полезно для самого себя же. Позволяет посмотреть на проблему "в целом". Иногда выясняются неточности, которые выпадают при доскональном углублении в проблему. Так что это только наполовину для публики. Если же писать с претензией на академичность, то это сразу распугает (и так никого нет) потенциальных читателей.
Исходные данные - полная совокупность всех данных (возможно, ранее отфильтрованная на соответствие какому-либо признаку). Ничего не отбрасывается умозрительно заранее.
Нормальная кривая - это предположительное исходное распределение явки/голосов (без вбросов и других искажений). Все остальные кривые - результат обработки нормальной кривой разными методами и результат коррекции показанных в данных ЦИК результатов.
Фактически мы ищем сложную функцию преобразования исходного распределения, наилучшим образом преобразующее это распределение в показанное в данных ЦИК. Которую используем для уточнения своих первоначальных предположений по исходному распределению.
Распределение вброса - это наши предположения о том, какие вбросы производились. Скажем, на 5% участков вбросили по 1% от численности, на 25% участков - 20%, на 70% вбросили менее 1%, что не повлияло на распределение. Вы в своих рассуждениях предполагаете, насколько можно понять, что вброс одномодальный, т.е. существует некая гладкая кривая вброса с одним максимумом. Моя практика показывает, что это не так.
Картинки распределения вброса в ранних постах присутствуют, потом я их удалил, чтобы не путать читателей (и так всё непросто), поскольку это промежуточное преобразование, оптимальное с математической точки зрения, но не обязанное быть похожим на реальное, это некоторая аппроксимация реальных событий.
Reply
Вы просто преобразуете Гаусса в Чурова... А эвристику предположений о вбросах (ИСКАЖЕНИЯХ) проверяете степенью подгонки (СОВПАДЕНИЯ)смоделированной кривой и официальной...
...Я не предполагал, что вброс одномодальный. Он, скорее всего, вообще неслучайный..., а значит, просуммировался и сгладился и "обнормалился" слегка...
... полагал его рассматривать по регионам, у каждого "начальника", наверное, была своя "любимая" методика... Поскольку без эвристики здесь не обойтись, то я отдодвигал этот вопрос для себя "на потом"..., а вы здесь уже, оказывается, собаку съели...
Reply
Тут надо знать меру. Наиболее гладкие кривые - по всей России 95 тыс. участков всё-таки. Приемлемо по Москве в целом - 3380 участков, не так гладко, выбросы разные присутствуют, но подгонять можно. Как только мы переходим к заметно меньшим выборкам - такое начинается, что методы автоматизированной подгонки плохо срабатывают, а то и вовсе не сходятся. Так что разочарую вас - выяснить желания отдельного начальника не получится никак, а времени убъёте немало.
В Москве был налажен хороший контроль, в ТИКах в этот раз не приписывали, если сравнивать с думскими выборами, поэтому вылавливать особо нечего, по моим подсчётам, суммарные фальсификации порядка 0,5% от числа избирателей, это около 35-40 тыс голосов. Что тут анализировать, 10-12 вброшенных голосов в среднем на участок, мизер. Максимум, что можно сделать, это отбросить явно сфальсифицированные участки и посмотреть, что будет без них, порадоваться ещё более гладкой кривой.
Reply
Потому и хочу сначала графики построить..., пока опираюсь только на предварительные данные по нескольким управам...
Вместо того, чтобы строить гистограммы, искал ссылки для скачивания книг, RSS комментариев с вашего блога (так и не нашел), редактировал движок для блога-черновика (добавил количество ссылок при открытии меню...), а завтра на работу...
Пишу все это, чтобы вы высказали свои пожелания по поводу организации рабочего места для исследовательских групп..., все должно быть "под рукой"
...как вы понимаете, блог-черновик - это макет такого рабочего места...
Reply
Reply
Но, по идее, анализ выборов - это как раз "учебная задачка", когда можно и поупражнятся...
В торрентах можно найти и SPSS и Statistica...
Reply
Leave a comment