Американский астроном С. Ньюкомб в 1881 году обратил внимание на то, что страницы библиотечных книг, содержащих логарифмические таблицы, истрепаны и сношены там, где содержатся логарифмы чисел, начинающихся на 1. А страницы с логарифмами чисел, начинающихся на 9 - совсем как новенькие. Отсюда получается, что в разных вычислениях и измерениях люди чаще всего встречают числа, которые начинаются на 1. Числа, начинающиеся на 2, 3, 4 и так далее, встречаются все реже. Совсем редко встречаются числа, которые начинаются на 9.
В 1938 году это явление переоткрыл другой американец - физик Ф. Бенфорд.
Обнаружив ту же закономерность, что и Ньюкомб, он пошел гораздо дальше. Бенфорд проанализировал справочные данные о площадях поверхности 335 рек, химических параметрах тысяч химических соединений, номерах домов из адресного справочника, результатах бейсбольных матчей. В итоге ученый обнаружил, что везде соблюдается одна и та же закономерность: чисел, начинающихся с единицы, гораздо больше, чем начинающихся с любой другой цифры. Он собрал большую статистику и вывел формулу для распределения вероятности первой цифры разных измерений и вычислений.
Закон Бенфорда или закон первой цифры гласит, что в таблицах чисел, основанных на данных источников из реальной жизни цифра 1 на первом месте встречается гораздо чаще, чем все остальные (приблизительно в 30% случаях). Более того, чем больше цифра, тем меньше вероятности, что она будет стоять на первом месте в числе. Закон применим к цифрам из обычного мира и социальной сферы, будь это показания электрического счётчика, цифры из газетной статьи, уличные адреса, цены акций, количество населения, уровень смертности, длина рек, физические и математические константы, и процессы, описываемые эмпирическими законами (которые весьма распространены в природе).
Вот вся таблица Бенфорда:
1: 30.1 %
2: 17.6 %
3: 12.5 %
4: 9.7 %
5: 7.9 %
6: 6.7 %
7: 5.8 %
8: 5.1 %
9: 4.6 %
Объяснение закона Бенфорда заключается в том, что величинам этого мира свойственен экспоненциальный рост, а не линейный.
(ln 2 - ln 1)/ln 10 = 0.301
(ln 3 - ln 2)/ln 10 = 0.176
(ln 4 - ln 3)/ln 10 = 0.125
...
(ln 10 - ln 9)/ln 10 = 0.046
Простым языком Закон Бенфорда можно описать так: маленьких вещей в мире всегда больше, чем больших. Маленьких озер всегда больше, чем больших, маленьких камней - больше, маленьких книг - больше, фотографий, на которых изображен один человек, - больше, чем групповых, низких домов - больше, чем многоэтажных, незначительных аварий на дорогах - больше, чем серьезных. В бухгалтерии - проводок на маленькие суммы - больше, чем на большие.
Долгое время этот закон не находил никакого практического применения.
Однако, американский математик Марк Нигрини сообразил, что Закону Бенфорда должны подчиняться не только площади рек, но и числа в налоговых декларациях и данные бухгалтерского учета. И в 1997 году Нигрини и Миттермайер разработали шесть математических тестов, основанных на Законе Бенфорда. Эти тесты первыми были введены в практику международной аудиторской компанией «Эрнст и Янг» для анализа и выявления нерегулярностей в данных клиентов при аудите.
Первый вопрос, на который должен ответить аудитор при проведении теста - является ли набор неких данных Бенфорд-последовательностью или нет. То есть соответствует ли он распределению Бенфорда. Самый простой способ - представить, откуда эти данные берутся. Если они получаются в результате естественного течения событий или присутствуют в природе «сами по себе» - скорее всего они будут соответствовать Закону Бенфорда. Вот некоторые примеры данных, соответствующих Закону Бенфорда:
- номера платежных поручений от различных покупателей (вся совокупность);
- суммы платежей от покупателей;
- суммы в авансовых отчетах;
- остатки товаров на складах;
- номера домов в адресах клиентов.
Не соответствуют Закону Бенфорда:
- почтовые индексы;
- номера телефонов (первые цифры - номер АТС);
- выигрышные номера в лото и рулетку (здесь цифры - лишь символы, их легко можно заменить, например, на буквы);
- любые объемы данных, размер которых не достаточен для применения статистических методов;
- суммы платежей от покупателей и объемы заказов, если продается несколько позиций одной номенклатуры. Допустим, мы реализуем авторучки ценой 99 долларов за каждую. Чаще всего покупают всего одну ручку. Поэтому в большинстве случаев первой цифрой в сумме платежа будет девятка. На втором месте - единица (оплата за две ручки - 198 долларов). На третьем месте - двойка (оплата за три ручки - 297 долларов) и т. д.
Работой д-ра Нигрини заинтересовался районный прокурор Бруклина. Математику предложили проанализировать налоговые декларации, среди которых семь были заведомо фальсифицированными. Все они были выделены программой, как требующие тщательного аудита.