два кластера на #выборыКС

Oct 24, 2012 14:15

Я вчера задавался вопросом, можно ли детектировать достаточно изощренный (случайный, с гиперболическим распределением) вброс на #выборыКС. Женя "rutsh" Крохалев подсказал, что можно. Можно попробовать скластеризовать голоса с помощью EM-метода. Сам Женя с его помощью отделил МММ-щиков. Я попробовал с его помощью поискать "вброс".

что получилось? )

Leave a comment

ext_681947 October 24 2012, 21:37:10 UTC
У него в модели считается, что вероятности голосования за каждого кандидата независимые, что в реальности конечно ни так, поэтому могут возникать различные "наводки" в ситуации далекой от идеального МММшного вброса.

Reply

ext_681947 October 24 2012, 23:36:02 UTC
В используемой модели и алгоритме это заложено изначально. То есть высокие значения q во второй части вывода у части кандидатов, как раз связанны с наличием скоррелированности голосов . Но тут еще вопрос возник, как вы избирателей на кластеры-то разделили, взяли вот эти а (a0/a1 в коде) или как? То есть понятно что в случаи со списочным вбросом, распределение легко расслоится на два в первой части p будут вероятности, во второй q вероятности по списку вброса. Если же этого нет в данных, то есть отсутствует явный список, что видно по не слишком большим значениям q, то получить можно что угодно. И принадлежность к кластерам будет лишь иметь смысл, в духе - нашли два класса голосовавших с отличным распределением голосов внутри класса.

Reply

_denplusplus_ October 24 2012, 23:58:52 UTC
Мне кажется, что вам стоит прочитать http://en.wikipedia.org/wiki/Mixture_model

Reply

ext_681947 October 25 2012, 00:35:57 UTC
Там где то есть противоречие выше сказанному? Помоему нет. В терминах mixture model, взяли два класса, каждый класс распределен по M(кол-во кандидатов) независимым распределениям бернулли. Мы восстановили из данных, параметры распределения и принадлежность к классу. Получили два класса с разными распределениями. Ок. Какой в этом "физический" смысл и указание на вброс? То есть понятно что в случаи с МММшниками оно красиво расслоилось, но как из этого можно делать глубоко идущие выводы на данных отличных от идеальных мне не понятно.

Reply

_denplusplus_ October 25 2012, 00:54:40 UTC
Еще раз. Автор взял метод, пригодный для нахождения сложной нактруки. Обнаружил два кластера. Первый - обладает сложной внутренней структурой. Второй - нет. Это может быть либо:
1. Накрутка.
2. Либо избиратель, которому надо поставить 45 галок, делает это очень предсказуемо.
Опровергнуть или подтвердить обе гипотезы автор не в состоянии.

Reply

ext_681947 October 25 2012, 01:12:00 UTC
"Пригодный для нахождения сложной накрутки" это ничем не доказанное утверждение. У оригинального автора, второй класс был очевидно выраженным практически идеальным, поэтому он легко нашел МММщиков. У вас же получилось, что распределение просто распалось на два. В первом классе мало голосовали -> сильно выделяющиеся, смещенные вниз вероятности. Во втором все остальное. Из того что данные расслоятся на какие-то два распределения, совсем не следует что принадлежность к классу этих распределений будет давать хоть какой-то не тривиальный "физический смысл". В данном случаи это просто не активные избиратели vs активные и все. Тем более как я уже писал выше, никакой корреляционной структуры голосов этот метод в данной реализации "схватить" не может. Он просто разделит данные, на два класса с непохожими вероятностями голосования, на сколько это возможно.

Reply

_denplusplus_ October 25 2012, 01:18:32 UTC
Да бросьте. Я вот добавил только что на пробу накрутку с геометрическим распредлением на 25000 бюллетеней. Отлично ловит.

Reply

plakhov October 25 2012, 06:19:40 UTC
Вы о разных вещах, ты под словами "пригодный для нахождения накрутки" понимаешь "мало false negatives", и это доказываешь, а собеседник тебе говорит, что нужно ещё и "мало false positives". Если делить на кластеры ЕМ-ом, какие-нибудь кластеры да найдутся, их физический смысл не обязательно интересен.

Reply

_denplusplus_ October 25 2012, 06:24:26 UTC
Угу.

Reply

a_shen October 25 2012, 06:00:24 UTC
В терминах этой статьи: видимо, N - число голосовавших, K=2 (число кластеров). А что играет роль параметров \theta?

Reply

_denplusplus_ October 25 2012, 06:14:36 UTC
\theta имеет смысл вероятности принадлежности первому кластеру

Reply

a_shen October 25 2012, 06:33:33 UTC
???

а разве она не обозначена \phi? вроде как \phi_1 и phi_2, в сумме равные единице, как раз и будут вероятностями (долями) кластеров

Reply

_denplusplus_ October 25 2012, 06:49:50 UTC
Ой, лажаю. \theta - это дискретное распределение вероятности проголосовать за i-го кандидата. Именно они на первой картинке.

Reply

a_shen October 25 2012, 06:55:51 UTC
То есть \theta_1 [аналогично для \theta_2] - это набор чисел (по числу на кандидата), а распределение, соответствующее этому параметру, состоит из независимых испытаний (для каждого кандидата)?

Reply

_denplusplus_ October 25 2012, 07:07:54 UTC
Эм. Наверное, последнее слово - "избиратель"?

Reply

a_shen October 25 2012, 07:14:23 UTC
Нет, как раз я имел в виду кандидатов: есть набор вероятностей p_1,...,p_n, и распределение на бюллетенях соответствует тому, что кандидат i выбирается с вероятностью p_i, и для разных i эти события независимы?

(Для разных избирателей, конечно, выбор тоже в этой модели независим)

Reply


Leave a comment

Up