два кластера на #выборыКС

Oct 24, 2012 14:15

Я вчера задавался вопросом, можно ли детектировать достаточно изощренный (случайный, с гиперболическим распределением) вброс на #выборыКС. Женя "rutsh" Крохалев подсказал, что можно. Можно попробовать скластеризовать голоса с помощью EM-метода. Сам Женя с его помощью отделил МММ-щиков. Я попробовал с его помощью поискать "вброс".

что получилось? )

Leave a comment

Comments 75

a_shen October 24 2012, 21:32:01 UTC
Интересные данные - наверно, несложно сравнить, как это накладывается на типы верификации (банковская - паспортная - личная)?

Про контрольный обзвон - наверно, публиковать все номера телефонов было бы неправильно, но, видимо, можно договориться с ЦВК, что каким-то общедоверенным людям выдадут список и случайную выборку номеров и попросят позвонить?

Reply

leonwolf October 24 2012, 22:45:52 UTC
выборочный прозвон - собираемся

Reply

_denplusplus_ October 24 2012, 22:46:51 UTC
Это хорошо. Какая будет процедура и наблюдатели?

Reply

leonwolf October 24 2012, 22:49:23 UTC
еще не до конца знаю, выборочный прозвон придумал и дизайнит Илья, он собирался определить параметры и что и как спрашивать, чтобы получилось что-то интересное

Reply


ext_681947 October 24 2012, 21:37:10 UTC
У него в модели считается, что вероятности голосования за каждого кандидата независимые, что в реальности конечно ни так, поэтому могут возникать различные "наводки" в ситуации далекой от идеального МММшного вброса.

Reply

a_shen October 24 2012, 21:48:15 UTC
что значит "вероятности независимые"? я попытался посмотреть описание в википедии, но моей квалификации не хватает, чтобы быстро понять, что делается и почему это разумно - может, Вы знаете какое-то простое объяснение, что происходит?

Ещё, кстати, было бы интересно попытаться провести следующий шаг разбиения (для каждой из групп в отдельности)

Reply

ext_681947 October 24 2012, 22:10:08 UTC
ну как я понимаю, в модели считается, что каждый проголосовавший, дает вектор независимых распределений бернулли, где p_i - вероятность наличия крестика за i-го кандидата. В реальности, они же не независимые, то есть условно если кто-то голосует за Ксению Собчак, то вероятность что он проголосует за другую медийную фигуру повышается. Проще говоря существуют кластеры предпочтений, в которых голоса за разных кандидатов скоррелированны, но это не список или вброс. А модель этого не учитывает, и на данных далеких от рафинированного МММ-вброса, может давать странные результаты.

Reply

_denplusplus_ October 24 2012, 22:12:14 UTC
Нет, извините. Зависимость/независимость по каждой из координат неважна. Еще раз, ищутся сами распределения.

Reply


anonymous October 24 2012, 22:16:28 UTC
Мне кажется можно объяснить тем, что такой формат люди восприняли по-разному: до выборов большинство кандидатов никто вообще не знал. И кто-то голосовал за тех кого знает, а кто-то пытался натыкать всех 35 до лимита. При любом отношении к Навальному его знают лучше нежели среднего человека из списка кандидатов.
Но это так, на уровне гипотезы.

Reply

_denplusplus_ October 24 2012, 22:19:44 UTC
Без сомнения, это может иметь место.

Reply


ext_1357687 October 24 2012, 22:45:25 UTC
Еще одна шероховатость использованной модели: она не учитывает, что можно проголосовать не более чем за N кандидатов. Сказать, сильно ли это влияет на результат, я затрудняюсь.

Можно попробовать для генерации голосов использовать не последовательные броски нечестной монетки, а честно сгенерировать случайное подмножество кандидатов размера не более чем N через модель Plackett-Luce. Боюсь, правда, что в этом случае таких же хороших формул для EM уже не получится, надо будет делать какое-нибудь вариационное приближение. Если так, то игра не стоит свеч.

Reply

_denplusplus_ October 24 2012, 23:50:57 UTC
Формулы я нагло спер у Жени :) Надо заботать...

Reply


yakov_sirotkin October 25 2012, 03:55:43 UTC
По-моему, у тебя прямо в посте сформулирован основной результат анализа избирателей: в первой группе голосуют мало, во второй - много. Разумеется, по чисто математическим причинам, результат Навального во второй группе будет значительно выше.

Reply

_denplusplus_ October 25 2012, 04:38:30 UTC
Интересно не то, что у Навального меньше, а другой порядок.

Reply

yakov_sirotkin October 25 2012, 05:34:02 UTC
Где другой порядок? Во второй группе голосов на одного избирателя почти в четыре раза больше, конечно, результат Навального в ней должен быть существенно выше.

Reply

_denplusplus_ October 25 2012, 05:45:12 UTC
Порядок кандидатов, Яша.

Reply


Leave a comment

Up