Все-таки физики нереально круты. Одна из самых прикольных книжек, что я читала - это биография (или воспоминания) Нобелевского лауреата по физике Фейнмана. Вот уже у дядьки был open mind так open mind. Записано, правда, было кем-то другим, то есть по поводу способностей художественно излагать я не знаю, как у Фейнмана обстояло дело. Полагаю, студенты его не жаловались.
Я к чему. К тому, что опять ничего не успеваю. Жизнь прет, как тот паровоз, всякое происходит, а рассказать ну совсем некогда. Недавно, посреди плена у американских аудиторов, случился у нас на работе курс для новичков по SAS99 - Consideration of Fraud in a Financial Statement Audit. Нам рассказывали, что за стандарт, как и в чем искать Фродо, какие у нашей компании есть для этого инструменты и тд. Так я узнала о законе Бенфорда или Benford's law, чем и желаю поделиться по-бырому.
Среди всего прочего, в рамках SAS99 аудиторы проверяют так называемые irregular transactions и journal entries (פקודות יומן חריגות). Например, проводки, сделанные в выходные или праздничные дни, повторяющиеся круглые суммы, особенно, близкие по датам и противоположные по знаку, транзакции, сделанные непосредственно перед отчетными датами (30 декабря, например) и тд. Это все стандартные и известные достаточно вещи, ничего нового. Но, оказывается, существует Benford's law, который утверждает, что в больших массивах данных работают свои законы распределения разрядов. Так, числа с первым разрядом единицей должны встречаться в массивах в 30% случаев, а числа с первым разрядом девяткой - только в 4.5%. Вот табличко, в десяти строках и пяти столбцах, описывающее Benford's law:
Однажды один астроном и математик по имени Саймон Ньюкомб заметил, что первые страницы библиотечных копий логарифмических книжек, содержащие информацию (страницы) о маленьких числах, значительно более изношены по сравнению с остальными страницами, и изношенность прогрессивно падает от первых до последних страниц. Саймон логично предположил, что числа, начинающиеся с единицы, используются его коллегами чаще, чем начинающиеся с двух, трех и тд. Из этого Саймон заключил, что, вероятно, чисел, начинающихся на единицу, существует больше, чем остальных, и вывел формулу, по которой можно рассчитать вероятность первого разряда для любого числа:
где d - число от нуля до девяти;
Р - вероятность
Если подставить все разряды последовательно от нуля до девяти в эту формулу, то получим табличку, приведенную вверху.
Ньюкомб опубликовал статью в 1881, но о ней вскоре забыли, т. к. он не подвел никакой базы под свое наблюдение (математик же, формула как таковая его удовлетворяет). Тогда как практически через 50 лет после открытия некто физик Фрэнк Бенфорд пришел к тому же заключению, независимо от Ньюкомба. Он, в отличие от математика, стал открытие тестить на реальных больших массивах данных. Кстати, заметил Бенфорд закономерность так же: первые страницы его логарифмической книжки были гораздо затасканнее остальных, и затасканность прогрессивно падала к концу книжки. Бенфорд стал собирать данные по площади рек, весу химических элементов и чисел из разных статей в журналах. И таки да, обнаружил, что числа закономерно следуют схеме: маленькие разряды попадаются гораздо чаще.
Дальше это открытие, получившее название Benford's law, развивали разные математики и статистики. Один из них, Хилл (Hill), заметил, что числа, распределение которых соответствует Benford's law, являются, по сути, вторым поколением других, не связанных друг с другом, распределений. Или, скорее, наоборот, что данные, являющиеся вторым поколением других распределений, отвечают критериям Benford's law. Например, если распределения выбираются случайно, и случайно же выбирается семпл из этих распределений, а потом эти семплы комбинируются (скажем, перемножаются), то результаты комбинации будут подчиняться Benford's law даже, если оригинальные распределения ему не подчиняются.
Именно поэтому Benford's law можно использовать для анализа бух. транзакций. Многие из таких транзакций, например, АR (дебиторы, לקוחות, количество проданных продуктов (распределение номер раз) , помноженное на их цену (распределение номер два)) или cost of goods sold (себестоимость реализованной продукции, עלות המכר, комбинация чисел, получаемая из разных источников) - хорошие примеры, которые можно протестить законом Бенфорда. Также, если отбросить разные статистические и математические доказательства и формулы, а найти более простое и понятное объяснение, можно попытаться обратиться к интуиции. Например, если что-то стоит $1М, то для того, чтобы это что-то стало стоить $2М, оно должно демонстрировать рост в 100%. Если это что-то - стоимость компании, или, еще нагляднее, ее доходы, то, скажем, удивительно было бы видеть скачок от миллиона к двум в коротком промежутке времени. Логичнее было бы видеть распределение $1М, $1.2М, $1.44М, $1.728 и тд. Или что-то похожее. Видно, что цифра один повторяется достаточно часто. Далее, на том же примере: чтобы из миллиона сделать два, надо вырасти на 100%, чтобы из двух сделать три - уже всего 50%, а чтобы из трех сделать четыре - и вовсе 33%.
Впервые более-менее осознанно такой анализ применил дядька по фамилии Карслоу, который кем был, мне непонятно, все источники в один голос называют его не иначе как Carslaw (1988) и больше ничего. Так вот Карслоу проанализировал данные по Новозеландским фирмам, которые показали, что доходы этих фирм ведут себя странно. Так как мне не удалось пока найти первоисточник, я не могу сказать, сколько фирм и за какие периоды он анализировал, но результат он получил интересный. Так, Карслоу обнаружил, что цифры в этом распределении содержали больше нулей во втором разряде и меньше девяток, чем ожидалось, согласно Benford's law. Карслоу затем предположил, что фирмы, вероятнее всего, использовали практику округления. То есть, там, где реальный доход был, скажем, 1.9М, они отчитывались за 2М. Подобные же результаты были обнаружены Томасом (Thomas (1989) - тоже нифига не понятно, что за Томас, порою дальше). Кроме того, что Томас также нашел нолик вместо девятки и восьмерки в качестве второго разряда, он еще и обнаружил, что прибыль на акцию у американских компаний кратна пяти гораздо чаще, чем ожидается согласно закону Бенфорда. Ну и самый, пожалуй, известный современный дядька, занимавшийся вопросами прикладного использования Benford's law в аудите, это
Нигрини. Он также не только опытным путем подтвердил изыскания своих предшественников на предмет округления, но и проанализировал данные отчетов американских биржевых компаний за Q1 2001 и 2002 годы. Интересно, что в 2002 нуля во втором разряде поубавилось. Нигрини был довольно удивлен результатом, но связал его с расследованием вокруг Энрона и АА. Затем он проанализировал подобным же образом энроновскую отчетность за 1997 - 2000 и нашел значительное отклонение в поведении нулей.
У закона, конечно, масса ограничений к применению. Например, понятное дело, его нельзя применить к последовательностям таким, как номера чеков или счетов, выписанных компанией. Или к кучке данных, ограниченных минимумом или максимумом. Но в то же время, оказывается, применений закону много. Вот несколько примеров.
Дядьки William Hillison, Carl Pacini и тетка Cindy Durtschi провели анализ страховых выплат в одном из больших медицинских центров в США. В результате анализа обнаружилось, что поведение всех цифр, за исключением двойки, отличается от такового согласно Benford's law. Пожалуйте, табличко:
Дядьки проверили прошлые периоды и обнаружили, что чеков на сумму, чуть-чуть превышающую 1,000, было выписано значительно меньше в предыдущие периоды. Фактически, все чеки, выписанные в предыдущие периоды, были на суммы меньше ста долларов. Ответственная тетка, когда ее спросили, ответила, что ей было просто влом выписывать несколько чеков, поэтому она "копила" суммы, чтобы выписать меньше чеков, и, соответственно, суммы этих чеков росли. Тем не менее, дальнейшее расследование показало, что тетя создала фиктивные страховые компании, которым и выписывала чеки на большие суммы.
Или вот еще пример. В 1993 еще одно ответственное лицо было признано виновным в попытке надурить штат Аризона на $2М. Пожалуйте, еще одно табличко с данными об операциях с чеками в разные периоды:
Кстати, в табличке можно видеть, что, если речь идет о мошенничестве, то, как правило, мошенник начинает с небольших сумм, а со временем теряет бдительность напрочь. Могу подтвердить опытом из нашей фирмы, была одна такая тетя. Она под конец стала регистрировать таких фиктивных работников, как, например, Джеймс Дин. К слову.
Еще в табличке можно видеть, что все чеки выписаны на сумму меньше $100К. По всей видимости, для транзакций с этим порогом требовалась либо вторая подпись, либо еще какое другое разрешение.
Частота появления различных разрядов очень отличается от ожидаемой по закону Бенфорда. Цифры 7, 8, 9 присутствуют в 90% случаев как первый разряд.
Определенные последовательности повторяются: 87, 88, 93, 96 повторяются дважды как два первых разряда. 16, 67, 83 - повторяются дважды в разрядности центов. Видно явное предпочтение "больших" цифр. Регулярность появления разрядов, от 0 до 9 - 7, 19, 16, 14, 12, 5, 17, 22, 22 и 26.
*****
В общем, я считаю, что это очень, очень прикольно, хотя и только маленький кусочек, приоткрытая дверца. Уже намылилась купить книжек на амазоне, когда я только их читать буду, эх.