Проверка результатов выборов президента России в 2012 году по закону Ципфа

Mar 10, 2012 22:27




Эта статья предназначена для тех, кто не подвержен поствыборному психозу и ориентируется в высшей математике. 

Я долго думал, как начать эту статью, и решил просто перевести следующие два абзаца из английской Википедии о законе Ципфа. К сожалению, русская версия статьи содержит неполный, хотя и интересный материал с сомнительной интерпретацией, а в университетском курсе теории вероятности этот закон обычно не изучается.

Закон Ципфа гласит, что в некоторых корпусах текстов естественных языков частота любого слова обратно пропорциональна его рангу в таблице частот. Таким образом, наиболее частое слово встречается примерно в два раза чаще, чем второе по популярности слово, в три раза чаще чем третье по популярности слово, и т.д. Например, в "Brown Corpus" (корпус всевозможных текстов английского языка, составленный в Брауновском университете), слово "the" является наиболее часто встречающимся словом, и само по себе составляет около 7% всех употребляемых слов (69 971 из чуть более 1 млн.). В соответствии с законом Ципфа, второе место, слово "is", составляет чуть более 3,5% слов (36 411 случаев), далее следует "and" (28 852). Всего лишь 135 слов необходимо для учета половины "Brown Corpus".

Такое же соотношение встречается во многих других рейтингах, не связанных с языком, таких как население городов в различных странах, размер доходов корпораций и многих других убывающих социальных последовательностей. Распределение в рейтинге городов по численности населения первым заметил Феликс Ауэрбах в 1913 году. Чтобы эмпирически проверить убывающую последовательность на подчинение закону Ципфа, необходимо использовать график с логарифмическими осями. По оси x нужно отложить минус логарифм ранга величины (начинающийся с -ln(1) ), а по y -- логарифм величины. Распределение Ципфа должно превратиться в прямую на этом графике. Если применить этот алгоритм к распределению населения в городах, то наклон примерно равен 1,07. Закон Ципфа в этом случае работает для верхней части графика, а всё распределение является логарифмически нормальным распределением и подчиняется закону Гибрата. Эти законы в данном случае не противоречат друг другу, т.к. хвост логарифмически нормального распределения ведет себя так же, как и хвост распределения Паретто (Ципфа).

Результаты выборов 2012 года хорошо ложатся на прямую Ципфа (см. график в начале статьи). Такое исследование вы можете легко проделать самостоятельно. Также закону Ципфа идеально соответствуют результаты выборов 1991 года, которые по общему признанию были честными.

Статистические исследования не могут служить доказательством ложности или истинности результатов выборов, так как социология находится в зачаточном состоянии и потому не может предложить модели поведения людей. Однако то, что данные находятся в хорошем согласии с эмпирическим законом, который работает в различных социальных науках, говорит в пользу того, что нарушения на выборах не привели к радикальным искажениям результатов. Неизвестно, почему закон Ципфа работает для естественных языков.

выборы, наука

Previous post Next post
Up