Жулик ли ВЦИОМ или ВЦИОМ ли жулик? : tchabovsky

tchabovsky

Жулик ли ВЦИОМ или ВЦИОМ ли жулик?

Sep 19, 2013 21:39

Андрей Бабицкий написал хороший романтический текст про ученых социологов из ВЦИОМа. Поскольку допущение о добропорядочности вциомщиков вызвало жаркую дискуссию, а также потому что я был отчасти источником данных и, т.е. несу за них ответственность, позволю себе изложить свою и более детальную (и многословную) версию.

Мой первый завлаб, Борис Евгеньевич Карулин, мне, молодому, говорил, когда я приходил к нему хвастаться каким-нибудь результатом: «Андрюша, обнаружил закономерность - прекращай исследование». Я так и не следую этому совету по повышению эффективности, поэтому никак не могу прекратить, от чего страдает продуктивность.

В общем, к выборам 2011 года, когда начались первые разговоры о грядущем крахе Едра, я построил простую регрессию (закономерность типа ХУ). Она описывала зависимость между результатом ОПРОСА ВЦИОМ и РЕЗУЛЬТАТОМ ГОЛОСОВАНИЯ для каждой партии и/или кандидата на последующих выборах по данным ЦИК. Думаю, что тем же очевидным путем идет и сам ВЦИОМ, накапливая данные в ряду выборных кампаний. Почему ВЦИОМ? Потому что «на глаз» они хорошо предсказывали, и я подозревал, что неспроста: знают результат.

Тут важно не путать результат ОПРОСА с ПРОГНОЗОМ (многие путают) - это не одно и то же (как мы увидим). Т.е. 50% по опросу совсем не значит 50% по результату. Если есть большое расхождение - это странно (например, у Gallup расхождения небольшие, см. внизу), но лишь на поверхностный взгляд: у нас есть свои причины.

Возможное, даже большое расхождение никак не влияет на ТОЧНОСТЬ прогноза. Представьте, что в 100 случаях опрос давал кандидату около 40-50%, а результат составлял в тех же 100 случаях около 50-60%. Расхождение большое, но вероятность того, что в 101-м случае при исходных 50% будет около 60%, близка к единице. Дважды, в 2011 и 2012 гг, я не ошибался в своих прогнозах на результат выборов, что, конечно, далеко недостаточно, чтобы валидировать прогностическую модель, которую я пользовал, но все же радовало.

Вот моя картинка на момент до нынешних выборов мэра, и она же - мой инструмент.

Данные по опросам и выборам с 1996 г по 2012 (1993 г я выкинул, там много «выбросов» в данных, которые снижают точность прогноза, т.е. силу связи между опросом и результатом).
Включены все партии и кандидаты, набиравшие значимые цифры (т.е., скажем Брынцалов на выборах президента в 1996 г, и партия «Кедр» на выборах в Думу 1995 г не включены).
Некоторые партии и кандидатов пришлось объединять в категории. В частности, к «Едру» отнесены суммарно Единство и Отечество-вся Россия, а также путин и медведев. «Демократы» - это сборная солянка и то, что в нашем перевернутом мире называют (все реже, слава б.) «правыми»: СПС, ДемВыбор, Правое Дело, Ельцин, Хакамада и т.д.).
Опросы взяты за месяц до выборов, на момент регистрации партий и кандидатов - к сожалению, более близкие к дате выборов опросы дают меньшую выборку: ВЦИОМ не всегда их проводил и не всегда в одно время.
Цветом говна выделены результаты Едра, цветом почти ночного неба в пустыне в пострежимное время - «Демократы»
Пунктир обозначает ожидаемое точное соответствие опроса результату (угол 45 градусов)

На что обращаем внимание:

Точность прогноза велика. Именно об этом говорит значение R2=0.95. Грубо говоря, точность прогноза 95% (не надо придираться).
Линия прогноза постепенно удаляется от угла=45 градусам (т.е. линии, когда опрос - не прогноз! - точно соответствует результату; см. врезку с даннымм Gallup с 1968 гг внизу). Об отклонении, которое видно на глаз, говорит коэффициент=1.1. при Х в уравнении, выделенный курсивом. Иначе: каждые 10% процентов при опросе дают лишний пункт при результате. При 50% на опросе результат будет около 55%.
Интерсепт (значение уравнения при Х равном нулю) небольшой (2% - выделен подчеркиванием в уравнении): его можно рассматривать как показатель доли «молчунов» - при опросе ничего не говорят и не участвуют, а потом приходят и голосуют.
Кружочки соответствующих цветов - чисто для любопытных: результаты Ельцина («Демократы») и Лебедя (будущее «Едро) на выборах 1996 г.
Звездочки соответствующих цветов: это результаты Пса и Навального на нынешних выборах. Красные линии, ведущие к ним - отклонения от прогноза или, соответственно, неожиданно потерянные и приобретенные проценты.

Вот так я и проиграл на этот раз. По модели выходило (если подставить в уравнение результаты опроса за месяц, (соответственно, 53 и 9%) 60-62% у Пса и 12-14% у Навального (если варьировать немного выборки, например, брать только президентские или думские). С поправкой на Москву (есть такая тема и картинка - Москва не Россия, см. внизу - а модель сделана по России), соответственно, 55% и 17%. А если жухальски брать самые последние опросы (51 и 14%) с поправкой на Москву, то ваще 54 и 30! Но я честно не брал))

К чему я это? К Б.Е.Карулину, первому начальнику. Модель ВЦИОМ (и соответственно, моя) строится на историческом ряде данных и не учитывает фактор нового времени - контроль. Так что надо будет строить новую модель, но для этого надо набрать достаточный ряд данных, где новый фактор будет задействован. Надо постараться. И еще: старая модель ВЦИОМ будет отлично работать и дальше для России, если новый фактор - контроль за подсчетом голосов - будет действовать локально.

Теперь интересные частности

Вот картинка по той же выборке (1996-2012, все партии, все кандидаты), разделенной по партиям. Нужны комментарии? Едро и ЛДПР перебирают по 2.0 и 1.7 пункта на каждые 10% по сравнению с опросом, т.е получают на выборах по 12 и 11.7% при 10% при опросе. Результат ЛДПР относительно плохо предсказуем, и у них есть «Молчуны (2.5%). «Молчуны» есть и у Яблока (2%), но больше всего у КПРФ. У Едра и «Демократов» «молчунов» одинаково мало (причины, наверное, разные). Похоже на правду? И наконец, очевидное: «Демократы», как и Яблоко, сильно недобирают по результатам выборов по сравнению с опросом: на 2.7 и аж на 3.8!! пункта на каждые 10%.
Горизонтальные линии показывают, сколько бы набрала каждая партия на выборах при 50% на опросе.

Справочно: Москва - не Россия

Здесь, конечно, регресии менее надежны - выборки меньше. Но картинка не противоречит ощущениям. Обратите внимание на хорошее соответствие между результатами по всей выборке в среднем (черная линия проходит близко и параллельно пунктиру).

Россия - не США

«Нулевая» прибавка к результату по сравнению с опросом и точное соответствие ожидаемому
Точный прогноз (не хуже, чем ВЦИОМ, но и не лучше)
3.4% «молчунов»

статистика, выборы