Закон Бенфорда или закон первой цифры

Jun 09, 2010 17:12

Американский астроном С. Ньюкомб в 1881 году обратил внимание на то, что страницы библиотечных книг, содержащих логарифмические таблицы, истрепаны и сношены там, где содержатся логарифмы чисел, начинающихся на 1. А страницы с логарифмами чисел, начинающихся на 9 - совсем как новенькие. Отсюда получается, что в разных вычислениях и измерениях люди чаще всего встречают числа, которые начинаются на 1. Числа, начинающиеся на 2, 3, 4 и так далее, встречаются все реже. Совсем редко встречаются числа, которые начинаются на 9.

В 1938 году это явление переоткрыл другой американец - физик Ф. Бенфорд.
Обнаружив ту же закономерность, что и Ньюкомб, он пошел гораздо дальше. Бенфорд проанализировал справочные данные о площадях поверхности 335 рек, химических параметрах тысяч химических соединений, номерах домов из адресного справочника, результатах бейсбольных матчей. В итоге ученый обнаружил, что везде соблюдается одна и та же закономерность: чисел, начинающихся с единицы, гораздо больше, чем начинающихся с любой другой цифры. Он собрал большую статистику и вывел формулу для распределения вероятности первой цифры разных измерений и вычислений.



Закон Бенфорда или закон первой цифры гласит, что в таблицах чисел, основанных на данных источников из реальной жизни цифра 1 на первом месте встречается гораздо чаще, чем все остальные (приблизительно в 30% случаях). Более того, чем больше цифра, тем меньше вероятности, что она будет стоять на первом месте в числе. Закон применим к цифрам из обычного мира и социальной сферы, будь это показания электрического счётчика, цифры из газетной статьи, уличные адреса, цены акций, количество населения, уровень смертности, длина рек, физические и математические константы, и процессы, описываемые эмпирическими законами (которые весьма распространены в природе). Вот вся таблица Бенфорда:

1: 30.1 %
2: 17.6 %
3: 12.5 %
4: 9.7 %
5: 7.9 %
6: 6.7 %
7: 5.8 %
8: 5.1 %
9: 4.6 %

Объяснение закона Бенфорда заключается в том, что величинам этого мира свойственен экспоненциальный рост, а не линейный.

(ln 2 - ln 1)/ln 10 = 0.301
(ln 3 - ln 2)/ln 10 = 0.176
(ln 4 - ln 3)/ln 10 = 0.125

...

(ln 10 - ln 9)/ln 10 = 0.046

Простым языком Закон Бенфорда можно описать так: маленьких вещей в мире всегда больше, чем больших. Маленьких озер всегда больше, чем больших, маленьких камней - больше, маленьких книг - больше, фотографий, на которых изображен один человек, - больше, чем групповых, низких домов - больше, чем многоэтажных, незначительных аварий на дорогах - больше, чем серьезных. В бухгалтерии - проводок на маленькие суммы - больше, чем на большие.

Долгое время этот закон не находил никакого практического применения.
Однако, американский математик Марк Нигрини сообразил, что Закону Бенфорда должны подчиняться не только площади рек, но и числа в налоговых декларациях и данные бухгалтерского учета. И в 1997 году Нигрини и Миттермайер разработали шесть математических тестов, основанных на Законе Бенфорда. Эти тесты первыми были введены в практику международной аудиторской компанией «Эрнст и Янг» для анализа и выявления нерегулярностей в данных клиентов при аудите.
Первый вопрос, на который должен ответить аудитор при проведении теста - является ли набор неких данных Бенфорд-последовательностью или нет. То есть соответствует ли он распределению Бенфорда. Самый простой способ - представить, откуда эти данные берутся. Если они получаются в результате естественного течения событий или присутствуют в природе «сами по себе» - скорее всего они будут соответствовать Закону Бенфорда. Вот некоторые примеры данных, соответствующих Закону Бенфорда:

- номера платежных поручений от различных покупателей (вся совокупность);
- суммы платежей от покупателей;
- суммы в авансовых отчетах;
- остатки товаров на складах;
- номера домов в адресах клиентов.

Не соответствуют Закону Бенфорда:

- почтовые индексы;
- номера телефонов (первые цифры - номер АТС);
- выигрышные номера в лото и рулетку (здесь цифры - лишь символы, их легко можно заменить, например, на буквы);
- любые объемы данных, размер которых не достаточен для применения статистических методов;
- суммы платежей от покупателей и объемы заказов, если продается несколько позиций одной номенклатуры. Допустим, мы реализуем авторучки ценой 99 долларов за каждую. Чаще всего покупают всего одну ручку. Поэтому в большинстве случаев первой цифрой в сумме платежа будет девятка. На втором месте - единица (оплата за две ручки - 198 долларов). На третьем месте - двойка (оплата за три ручки - 297 долларов) и т. д.

Работой д-ра Нигрини заинтересовался районный прокурор Бруклина. Математику предложили проанализировать налоговые декларации, среди которых семь были заведомо фальсифицированными. Все они были выделены программой, как требующие тщательного аудита.

эмпирика, математика, наука

Previous post Next post
Up