Научный журнал
Современные наукоемкие технологии
ISSN 1812-7320
"Перечень" ВАК
ИФ РИНЦ = 0,916

ЗАКОН БЕНФОРДА: СУЩНОСТЬ И ПРИМЕНЕНИЕ

Кувакина Л.В. 1 Долгополова А.Ф. 1
1 Ставропольский государственный аграрный университет
1. http://ru.wikipedia.org/wiki.
2. Журнал «Техника – молодежи». – 1979. – № 10. – С. 59.
3. Geophysical Research Letters. – 2010. – Vol. 37. – P. L22301–5.
4. doi:10.1029/2010GL044830.

В 1881 году американский астроном Саймон Ньюкомб обратил внимание на то, что в книгах, содержащих логарифмические таблицы, гораздо сильнее истерты те страницы, которые содержат логарифмы чисел, начинающихся с единицы, а страницы с числами, начинающимися на 9 – почти новые. Хотя, распределение цифр должны были бы встречаться примерно одинаковое количество раз. Тогда, астроном предположил, что разброс цифр на самом деле соответствует логарифмическому распределению: единица – около 30 % случаев, 2 – примерно 18 % и так далее, до 9–5 % случаев.

Заново, в 1938 году, это явление обнаружил американский физик Фрэнк Бенфорд. Его изучение было более детально: в общем он проанализировал 20 таблиц, которые содержали данные о площади бассейна 335 рек, удельной теплоёмкости и молекулярном весе тысяч химических соединений, номерах домов 342 улиц. Это доскональное изучение выявило, что единица является первой значащей цифрой с вероятностью не 1/9, как следовало ожидать, а около 1, как следовало ожидать, а около 1/3.

Таким образом, закон Бенфорда или закон первой цифры гласит, что в таблицах чисел, основанных на данных источников из реальной жизни цифра 1 на первом месте встречается гораздо чаще, чем все остальные (приблизительно в 30 % случаях), а также вероятность того, что цифра будет стоять на первом месте в числе тем больше, чем меньше цифра.

Перенося закона Бенфорда в реальную жизнь его можно объяснить так: в мире маленьких вещей всегда больше, чем больших: маленьких водоемов больше чем больших, маленькие камни встречаются чаще, чем большие валуны, серьезные аварии случаются реже, чем незначительные. В итоге, после всех исследований Бенфорд не только сформулировал закон преобладания единицы, но и вывел формулы, которые позволяют рассчитать частоту появления каждой цифры в начале числа в том или ином числовом массиве.

Закон обнаруженный Бенфордом выглядит так: если у нас основание системы счисления b (b > 2), то для цифры d (d ∈ {1, …, b − 1}) вероятность быть первой значащей цифрой составляет

P(d) = logb (d + 1) – logb(d) = logb(1 + 1/d).

Это в точности расстояние между d и d + 1 на логарифмической шкале.

Для равномерного распределения, если вы имеете цифры 1, 2, 3, 4 ,5 ,6 ,7, 8, 9, 0 (= 10), то у вас есть 10 отрезков (от 0 до 1,…, от 8 до 9, от 9 до 10). Обратите внимание, все отрезки лежат в отрезке [0, 10]. Для отрезка [d, d + 1] равномерное распределение должно быть пропорционально его длине, то есть длине отрезка [d, d + 1], то есть (d + 1) – d, поделённое на длину отрезка [0, 10], которая равна 10.

((d + 1) – d)/(10 – 0) = 1/10.

Если логарифмы непрерывно распределены, необходимо взять логарифм числа перед тем, как рассмотреть отрезки. Для логарифмов рассматриваем отрезки от 1 до 10 (т.к. log100 не имеет смысла). В этом случае вы будете иметь интервалы от log101 до log102,…, от log108 до log109, от log109 до log1010. Все отрезки лежат в интервале [log101, log1010] = [0, 1]. Длина последнего равна 1. Итак, рассматриваем отрезок [d, d + 1] на обычной шкале, в логарифмической шкале равномерное распределение будет пропорционально его длине, то есть:

(log10(d + 1) – log10(d))/1 – j + log10(d + 1).

В таблице представлены найденные Бенфордом значения вероятностей для десятичной системы счисления. При этом распределение зависит только от системы счисления, но не от единицы измерения. Другими словами, если тонны перевести в фунты, а квадратные километры – в акры, распределение не изменится.

Долгое время математики сомневались в справедливости закона Бенфорда. Во многом это объяснялось приверженностью к неподкупным законам теории вероятности, для которой все цифры одинаковы. Но сторонники Бенфорда утверждали, что впри подсчете необходимо обращаться не к математической абстракции, а к конкретным примерам реальной жизни.

pic_46.tif

Таблица «Распределение Бенфорда»

По горизонтали – первые значащие цифры, по вертикали – вероятность их появления

Значения вероятностей для десятичной системы счисления

d

p

1

30,1 %

2

17,6 %

3

12,5 %

4

9,7 %

5

7,9 %

6

6,7 %

7

5,8 %

8

5,1 %

9

4,6 %

Полагаясь на такую точку зрения, закон Бенфорда можно рассмотреть на следующем примере. Представим, что вносим в банк 1000$, под 10 % годовых. В следующем году вклад вырастет на 10 % и будет составлять уже 1100$, еще через год на счету будет уже 1210$, затем 1331$ и так далее. Единица остается первой цифрой нашего баланса на счете в течение долгого времени. Когда счет будет составлять 2000$, двойка первой цифрой будет оставаться уже в течении более короткого периода. Когда депозит составит 9000$, 10-процентный рост приведет к росту суммы вклада свыше 10000$, и единица снова долгое время будет оставаться первой цифрой. Таким образом, эти изменения чисел подчиняются закону Бенфорда: все, что растет в числе, размере, весе или цене дольше всего остается в «области единицы».

В нашей жизни мы постоянно сталкиваемся с данными, соответствующими закону Бенфорда: номера платежных поручений от различных покупателей, номера домов в адресах клиентов, суммы платежей покупателей, остатки товаров на складах, суммы в авансовых отчетах.

В 1986 году физик Дон Лемонс вновь обратил внимание на то, что все на планете подчиняется закону Бенфорда.

Не так давно интернациональная группа ученых рассмотрела то, как подчиняются закону Бенфорда различные природные процессы: продолжительность времени между геомагнитными инверсиями, выбросы парниковых газов, число инфекционных заболеваний. На данный момент, наиболее полно исследована возможность применения закона Бенфорда в геофизике. Исследования проводились в Перу и Канберре. В Перу ученые обнаружили, что незначительное вертикальное смещение поверхности земли не удовлетворяет закону Бенфорда, но сдвиги, вызванные мощными землетрясениями, напротив соответствуют закону. Ситуация с сейсмической активностью в Канберре была аналогичной, лишь несколько отличалась степень соответствия закону во времени. Эти исследования, по мнению математика Теодора Хилла, не принимавшего участия в работе, будут иметь огромное значение в будущем, так как с помощью закона Бенфорда станут отбирать модели физических процессов.

Но даже раньше, чем в геофизике, закон Бенфорда стали применять для проверки финансовой отчетности на предмет фальсификации. В конце 20 века американский математик Марк Нигрини пришел к выводу, что подчиняться закону Бенфорда должны и цифры в налоговых декларациях, соответственно несовпадение с законом первой цифры указывает на подтасовку данных. Разрабатывая эту теорию, Нигрини проанализировал более 200000 налоговых деклараций и опытным путем доказал, что почти в каждое третье число в аутентичных отчетах начинается с единицы. На основании этих данных математик разработал программу для проверки числовых массивов на соответствие закону Бенфорда. В 1995 году эта программа была протестирована. В ходе этого испытания Нью-йоркская налоговая полиция разоблачила семерых мошенничающих налогоплательщиков. Данная программа получила название «Digital Analysis» (сейчас особенно активно использует эту программу мировая компания «Ernst & Young»). На данный момент известно около десяти тестов «Digital Analysis». Наиболее распространены из них следующие шесть.

1. Анализ частоты первой цифры. В данном случае используется непосредственно сам закон Бенфорда.

2. Анализ частоты первой и второй цифры. При использовании данного теста отдельно проверяется частота цифры от 1 до 9 на первой позиции и частота цифры от 0 до 9 на второй. Затем составляется таблица соответствий, которая анализируется на отличие частоты цифр в приведенной последовательности от эталонной последовательности Бенфорда.

3. Анализ дублей. Данный метод опирается только на методологию Бенфорда, а не на сам закон. Данная проверка выявляет частоту числовых повторов в большом количестве документации. Все повторяющиеся числа в исследуемых данных сортируются по читстоте повторов, а затем проверяются уплотнения повторов ряда чисел. Наиболее часто анализ дублей используют для налоговых проверок, при внутренних расследованиях и внешнем аудите.

4. Анализ первой пары цифр. Этот метод фактически представляет собой усовершенствованный второй тест, так как он исследует частоту появления цифр в начале числа не от 1 до 9, а от 10 до 99. Наиболее удобно использовать этот метод в его графической интерпретации.

5. Анализ первой тройки цифр. Метод, более точный в сравнении с первым, вторым и четвертым тестами. Программа анализирует частоту первой тройки цифр от 100 до 999 в изучаемой числовой последовательности. Данный метод используют при проверке большого объема информации (от 10000 значений).

6. Анализ округлений. Тест проводится для проверки частоты последних значащих цифр анализируемой числовой последовательности. Тест позволяет выявить несоответствующую эталону закона Бенфорда частоту постоянного округления в большую или меньшую сторону.

Несмотря на широту применения закона Бенфорда нам не следует забывать о том, что существуют данные, не подчиняющиеся закону этому закону: почтовые индексы, выигрышные номера в лото и рулетку, номера телефонов и любые объемы данных, размер которых не достаточен для применения статистических методов.

Тем не менее, программа, созданная Нигрини, вполне справедливо основывается на законе Бенфорда. Эта работа совершила переворот в аудите, если раньше данные в декларациях возможно было проверить лишь выборочно, то на данный момент «Digital Analysis» позволяет осуществить проверку практически любого количества информации. Естественно, результаты таких проверок не всегда верны и могут приводить к ложным выводам, но нельзя отрицать, что они являются важными дополнительными уликами в делах, связанных с финансовыми махинациями или, к примеру, фальсификациями на выборах.


Библиографическая ссылка

Кувакина Л.В., Долгополова А.Ф. ЗАКОН БЕНФОРДА: СУЩНОСТЬ И ПРИМЕНЕНИЕ // Современные наукоемкие технологии. – 2013. – № 6. – С. 74-76;
URL: http://www.top-technologies.ru/ru/article/view?id=31987 (дата обращения: 07.08.2020).

Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»
(Высокий импакт-фактор РИНЦ, тематика журналов охватывает все научные направления)

«Фундаментальные исследования» список ВАК ИФ РИНЦ = 1.074