два кластера на #выборыКС

Oct 24, 2012 14:15

Я вчера задавался вопросом, можно ли детектировать достаточно изощренный (случайный, с гиперболическим распределением) вброс на #выборыКС. Женя "rutsh" Крохалев подсказал, что можно. Можно попробовать скластеризовать голоса с помощью EM-метода. Сам Женя с его помощью отделил МММ-щиков. Я попробовал с его помощью поискать "вброс".

что получилось? )

Leave a comment

ext_681947 October 24 2012, 21:37:10 UTC
У него в модели считается, что вероятности голосования за каждого кандидата независимые, что в реальности конечно ни так, поэтому могут возникать различные "наводки" в ситуации далекой от идеального МММшного вброса.

Reply

a_shen October 24 2012, 21:48:15 UTC
что значит "вероятности независимые"? я попытался посмотреть описание в википедии, но моей квалификации не хватает, чтобы быстро понять, что делается и почему это разумно - может, Вы знаете какое-то простое объяснение, что происходит?

Ещё, кстати, было бы интересно попытаться провести следующий шаг разбиения (для каждой из групп в отдельности)

Reply

ext_681947 October 24 2012, 22:10:08 UTC
ну как я понимаю, в модели считается, что каждый проголосовавший, дает вектор независимых распределений бернулли, где p_i - вероятность наличия крестика за i-го кандидата. В реальности, они же не независимые, то есть условно если кто-то голосует за Ксению Собчак, то вероятность что он проголосует за другую медийную фигуру повышается. Проще говоря существуют кластеры предпочтений, в которых голоса за разных кандидатов скоррелированны, но это не список или вброс. А модель этого не учитывает, и на данных далеких от рафинированного МММ-вброса, может давать странные результаты.

Reply

_denplusplus_ October 24 2012, 22:12:14 UTC
Нет, извините. Зависимость/независимость по каждой из координат неважна. Еще раз, ищутся сами распределения.

Reply

ext_681947 October 24 2012, 22:22:41 UTC
ну так они ищутся, из семейства состоящего из смеси независимых распределений, а в реальности они не независимы, разве нет?

Reply

ext_681947 October 24 2012, 22:34:19 UTC
Проще говоря, есть у нас пространство векторов - голосов, реализованных из какого-то распределения, есть семейство распределений, заданное параметрически, мы подбираем параметры, так чтобы максимизировать вероятность увидеть нашу реализацию. Если мы будем фиттить, n-независимых гауссиан, к примеру, то они и получатся, а не многомерная гауссиана которая есть в данных. Исходя из того, что в модели подразумевается независимость по каждой координат, то ни факт, что на скоррелированных данных она будет давать адекватный результат.

Reply

_denplusplus_ October 24 2012, 22:34:27 UTC
Я не очень понимаю, о независимости чего вы говорите. Избиратель - либо из первого распределения, либо из второго.

Reply

ext_1357687 October 24 2012, 22:39:09 UTC
Речь о том, что в данной модели вероятность отдать голос избирателя за кандидата А никак не зависит от того, проголосовал ли он за кандидата Б, т.к. мы при голосовании каждый раз заново бросаем нечестную монетку. Это допущение сильно упрощает выкладки, но на практике не выполняется.

Reply

_denplusplus_ October 24 2012, 22:45:01 UTC
А как я этим пользуюсь? Правда не понимаю.

Reply

ext_1357687 October 24 2012, 22:52:59 UTC
Даже не знаю, как лучше объяснить. Ты формулы для EM сам выводил? У тебя порождающая модель генерации голосов является смесью двух многомерных биномиальных распределений, в каждом из которых компоненты нескоррелированы. Не будь это так, в EM не получилось бы таких хороших формул, т.к. логарифм правдоподобия не раскладывался бы в сумму логарифмов.

Reply

a_shen October 25 2012, 05:47:23 UTC
А может быть, Вы можете популярно объяснить, что происходит в этом алгоритме? статью в википедии, на которую ссылаются, я пытался посмотреть - но там, видимо, общая ситуация, какие-то параметры и пр. - может быть, можно конкретно в этой ситуации объяснить, что и как ищется?

Reply

ext_1357687 October 25 2012, 09:43:54 UTC
Вы там ниже по треду вроде уже более-менее разобрались, но все равно напишу, может кому пригодится ( ... )

Reply

a_shen October 25 2012, 12:33:09 UTC
Ага, вроде понял. То есть при благоприятных условиях и нашем везении это сходится к максимуму вероятности случившегося события в рассматриваемом классе моделей?

Reply

ext_1357687 October 25 2012, 13:21:31 UTC
Если я правильно понял комментарий, то да: если итерационному процессу повезет найти глобальный оптимум, это будет означать, что мы нашли в рассматриваем классе моделей такую, в которой наблюдаемые результаты голосований наиболее вероятны.

Reply

ext_681947 October 24 2012, 22:41:14 UTC
Ну как, в модели, распределение голосов считается независимым по каждой координате(для кандидата), то есть, очень упрощенно, N независимых гауссиан vs многомерная гауссина (скоррелированные голоса), есть разница?

Reply

_denplusplus_ October 24 2012, 22:45:14 UTC
Где я этим пользуюсь?

Reply


Leave a comment

Up