Корень учения горек
Еще в 2005 году по горячим следам выборов 2004 я написал анализ результатов этих выборов.
[1] Анализ этот был сугубо численным и вербальным, анализировались числовые данные и информационные сообщения; результаты я разместил в четырех частях в
самом - начале - этого - журнала .
НО недаром Дарвин утверждал, что мы произошли от обезьян - мы воспринимаем мир прежде всего глазами, и для очень многих людей картинки есть и наиболее понятный, и наиболее убедительный способ восприятия информации. Особенно ясны стали мне недостатки моего бескартиночного способа изложения после знакомства с работой
Математика выборов , представленной математиком Сергеем Шпилькиным. Красота и убедительность подачи материала мне понравились до чрезвычайности. Да вот беда - на сайте ЦВК Украины данные по избирательным участкам не показывались, а без них осуществить визуализацию результатов выборов невозможно.
Тут самое место моей первой благодарности - с удовольствием искренне говорю: спасибо тебе, Анджей, - ака god_sersy . Именно он вывел меня из заблуждения, указав, что данные по участкам попрежнему находятся на сайте ЦВК, и показав путь к этим данным.
Однако раньше, чем приступить к прямой демонстрации результатов, придется потратить некоторое время и усилия на то, чтобы разобраться, как из данных получаются графики и как такие графики следует понимать.
Как обычно, описание методики есть вещь скучнейшая, но увы, необходимая.
Как строятся графики явки
С самого начала я решил, что анализироваться будут распределения активности (явки) избирателей. Т.е основной представленной на графике переменной будет активность: отношение в процентах количества избирателей, которые пришли на участок в день голосования, к общему числу избирателей, зарегистрированных на данном участке. Эта величина буде откладываться по горизонтальной оси (абсцисс).
А вот что отложить по вертикальной оси (ординат)?
Разумно откладывать число избирательных участков, на которых данная активность наблюдалась.
Однако тут необходимо сделать некие разъяснения
[2] Для того, чтобы подсчитать количество участков, которые мы будем откладывать по вертикали, необходимо сначала разбить данные на группы, или, как говорят статистики, произвести классификацию. Например мы решаем, что к одной группе (классу) относятся все участки, на которых явка лежит в диапазоне от 71% и до 73%, все эти участки мы относим к классу 72% . При выборе широты класса исследователь обычно оказывается перед дилеммой - чем уже класс, тем точнее мы учитываем данные, но зато у нас очень много классов получается. А это несет угрозу сильного «дребезжания»: если классов много, то во многих классах может оказаться мало представителей. А при малом числе представителей в классе ошибка всего в одного представителя, (такое всегда возможно) сильно сказывается на результате, и этого следует избегать.
Потому если у вас объектов много, шаг классификации может быть сравнительно мелким, ибо дребезжать будут только края. Если объектов меньше, шаг должен быть грубее.
У Шпилькина изучаются выборы по Москве и по всей России, участков очень много, посему шаг классификации у него один процент. Это означает, что в один класс попадают все участки, активность на которых составила , например, от 71,5% до 72,5% - и всем таким участка приписывается явка в 72%, участкам попавшим в интервал от 72,5% до 73,5% приписывается значение 73% и т.д.
Для каждого интервала получается некое количество избирательных участков, попавших в этот интервал. Это количество и откладывается по вертикали против цифр 72, 73 и т.д. И вот так формируются графики.
Я изучал распределение активности не только на уровне региона, но и на уровне одного территориального избирательного округа (ТBО), в таком случае у меня участков было сравнительно немного, а потому и шаг классификации должен был быть грубее, я остановился на шаге в 3%.
Это означает, что у меня в один класс, скажем, 40%, попадают все участки с явкой от 38,5% и до 41,5%.
Ну вот, когда мы получили данные активности по участкам, мы можем, выбрав на горизонтали значение центра класса (40), отложить по вертикали число участков, попавших в наш интервал. Через построенные таким образом точки проводится кривая - и вот так получается график.
Но мои графики еще в одном пункте отличаются от графиков Шпилькина. Дело в том, что исследуемые участки существенно отличаются по количеству избирателей - есть маленькие участки в сотню-другую избирателей, а есть и очень большие, число избирателей на которых превосходит 3000. Учет только количества участков без учета такого значительного их различия в размерах может привести и действительно приводит к ощутимым изменениям в результатах. Потому при вычислении количества участков, попавших в данный класс активности мы каждому участку приписали весовой коэффициент, равный числу его избирателей, деленному на тысячу. И суммировали не количество участков, а их веса. Т.е. если в наш диапазон попадала "крупная рыба" - участок в три тысячи избирателей, она значение ординаты увеличивала сразу на 3 единицы, а "мелочь" в 270 избирателей давала прирост всего на 0,27.
Тем самым мы получали количество стандартных участков по тысяче избирателей или, что то же самое, количество избирателей в тысячах человек, на участках с указанной активностью.
[3] Немножко скуки на тему статистики
Явка одного человека на участок в день голосования есть случайная величина, которая может принять два значения: 100% (явился) и 0% (не явился). Эта величина случайна, потому что невозможно точно предсказать наперед, явится вот этот избиратель на голосование или нет. Даже если мы располагаем абсолютно точной информацией о его намерениях.
В самом деле, допустим известно, что избиратель А. собирается голосовать. Однако есть куча причин, которые могут ему воспрепятствовать: болезнь самого А. или кого-то из близких, травма, внезапный отъезд, хорошая компания, собравшаяся на даче или рыбалке, внезапное плохое самочувствие или настроение, неожиданно возникшие серьезные семейные проблемы и т.п.
Причем сами эти причины таковы, что их предсказать невозможно.
Итак зафиксируем: явка одного человека есть случайная величина .
Но тогда явка по избирательному участку также случайная величина, она есть среднее значение активности, вычисленное по всем избирателям участка. Это значение лежит между 0 и 100%, причем сразу отметим - вероятность получить 100%-ную явку чрезвычайно мала. Ведь помимо указанных случайных причин действуют и систематические - в каждом сообществе есть некая доля людей вообще в выборы не верящих и считающих, что выборы - обман, есть люди, принципиально не участвующие ни в каких общественных акциях, люди, которым сильно насолила власть и неявка для них - форма протеста и т.п.
Именно в силу указанных случайных и неслучайных причин понятно, что явка в 100% на обычном участке, на котором голосует свыше тысячи избирателей, явление практически невероятное. Я уже писал, что активность выше 80% выглядит сомнительно, а выше 85% уже почти что не оставляет сомнений в том, что перед нами фальсификации.
Но мы собираемся строить графики средних активностей на участках для отдельны округов, регионов и межрегиональных объединений.
Анализируя подобные графики мы должны учесть, что в математической статистике имеет место такой закон
[4] : распределение средних значений большого числа независимых испытаний при росте числа таких испытаний будет стремиться к некоему теоретическому распределению, которое называют нормальным или гауссовым. . И такое эмпирическое распределение будет тем ближе к нормальному, чем большее число слагаемых мы учтем.
А т.к. мы собираемся строить графики средней активности по участкам, то разумно ожидать, что они, как суммы активностей отдельных людей, должны походить на графики нормальных распределений. Причем графики распределений по регионам будут более нормальными, чем графики по округам, а графики по межрегиональным объединениям будут ближе к нормальным, чем графики по регионам - просто потому, что растет число испытаний. Напомним, что точное совпадение эмпирического распределения с теоретическим нормальным достигается строго говоря лишь в пределе - при бесконечном числе испытаний, но с ростом числа испытаний сходство будет расти.
Поскольку графики типа гауссового распределения есть наш ожидаемый идеал, а сильные отклонения от таковых есть указания на вмешательство неслучайных факторов (попросту говоря - на фальсификации), есть смысл посмотреть, как выглядят графики идеальных нормальных распределений.
Вот характерные примеры таких графиков
Рис.1 Графики нормального (гауссового) распределения
Мы видим, что графики нормальных распределений есть симметричные кривые с максимумом в центре и достаточно быстрым убыванием к краю.
Координата центра тяжести графика на горизонтальной оси есть среднее значение изображаемой случайной величины, у нормального распределения оно всегда совпадает с максимальным (наиболее часто встречающимся) значением графика - его называют модой. Среднее значение случайной величины обычно обозначают греческой буквой μ (мю).
Кроме того видно, что бывают графики более узкие и высокие, они слабо отклоняются от своего среднего, а бывают более низкие и широкие, «размазанные» графики, для которых характерны большие отклонения от своего среднего значения μ. Такое различие между графиками определяется еще одним важным параметром распределения - так называемым стандартным отклонением σ, его квадрат σ² называется дисперсией.
Вот чем больше σ, тем чаще встречаются значительные отклонения от среднего значения μ .
[5] На приведенном графике красная линия (узкое и высокое распределение, сравнительно малый разброс наблюдаемых данных) отвечает малому значению стандартного отклонения σ = 0,45 , а вот синяя линия (низкое и широкое распределение, большой разброс наблюдаемых данных) отвечает сравнительно большому значению σ
Советую дамам особенно обратить внимание на последнюю фразу, в ней скрыто опровержение одного из распространенных, хотя и ложных доводов мужского шовинизма. Но об это мы поговорим как-нибудь в другой раз, а сейчас - о графиках активности.
Ожидаемые результаты
Итак, у нас есть основания предполагать, что наши графики должны походить на симметричные колколообразные кривые нормальных распределений, и притом походить тем лучше, чем исследуемая популяция больше.
Правда, симметрия распредедления может иногда нарушаться по следующей причине.
Весь диапазон возможных значений активности для отдельных участков лежит в пределах от 0 до 100, середина отрезка отвечает значению в 50%.
Если среднее значения исследуемого распределения сильно отличается от середины отрезка в сторону увеличения, а мы столкнемся с такими ситуациями, симметрия картинки может несколько нарушиться. Близость границы справа «давит» на график, и теоретически это должно привести к тому, что правая сторона, обращенная к близкой границе, должна быть несколько более крутой - граница мешает появлению больших отклонений от среднего в правую сторону.
Покажем пару иллюстраций, полученных С.Шпилькиным при исследовании распределения активности на выборах в России.
Начинает он с того, что приводит график активности на выборах в Польше
Рис.2. 2-й тур выборов Президента Польши, 2005 г. Распределение участков по явке.
Мы видим на графике кривую, в общем соответствующую теоретическим представлениям о том, каким должно быть распределение участков по явке. Перед нами колоколообразная кривая симметричная с максимумом в районе 50% (теоретически при таком μ распределение и должно быть симметричным). Отдельные пички вполне могут быть объяснены некоторыми местынми особенностями, но кривая в целом особых сомнений не вызывает.
Сравним эту картину с картиной распределения явки на парламентских выборах в РФ.
Рис.3. Выборы в Государственную Думу РФ 2007 г. Распределение участков по явке
« Первое, что бросается в глаза, - это необычная форма распределения в целом. Помимо основного максимума в районе 55%, распределение имеет «плечо» со стороны больших явок и резкий пик вблизи 100%» - так комментирует эту картину автор статьи. Вот сравнение с Польшей сразу позволяет выделить откровенный и очень высокий уровень фальсификации выборов в России - дорисуйте мысленно картинку симметрично с левой частью графика - все, что окажется выше такой мысленно проведенной лини, вызывает серьезные подозрения в неестественном происхождении.
И получается много, даже и очень много.
Теперь, когда мы посмотрели как должны выглядеть графики на нормальных и на грубо сфальсифицированных выборах, можем перейти к рассмотрению картины на президентских выборах 2004 в Украине.
Но тут Шахразаду застигло утро, и она прекратила дозволенные ей речи (текст уже приближается к допустимой границе объема).
Посему самое вкусное - собственно графическое представление активности избирателей и обсуждение получившихся картинок уже в следующем блоге.
---------------------------------------------------------------------------------------------
[1] Те, кто хоть несколько знаком со статистикой, помнит, что такое классификация данных, нормальное распределение,матожидание и стандартное отклонение могут сразу перейти к последнему пункту «Ожидаемые результаты».
[2] Весь этот пункт смело могут пропустить (или читать его по диагонгали) те, кому технические подробности построения графиков попросту неинтересны
[3] К какому эффекту приводит введение весовых коэффициентов, отражающих размер участка, видно
здесь, обратите внимание на различие графиков "Крым 2-3" и "Крым 2-3 с весами", изменения вполне заметные
[4] Этот факт называется Центральной предельной теоремой, я сильно упростил ее формулировку, но в наших условиях она с некоторыми поправками работает
[5] Для нормального распределения свыше 95% всех наблюдаемых значений случайной величины укладываются в диапазон
(μ - 2 σ , μ + 2 σ)