Бенфорд и Ваши налоги

Нет ничего определенного, кроме смерти и налогов, они говорят. На смертной перед, мы приносит некоторые плоды со всеми нашими медицинских чудес, по крайней мере, отложить, если на самом деле не избежать его. Но когда дело доходит до налогов, у нас нет никакой защиты, кроме немного творчества в наших налоговых деклараций.

Скажем Дядя Сэм считает, что вы должны ему $ 75k. В вашем честное мнение, справедливая цифра составляет около $ 50K марки. Таким образом, вы прочесать ваших налоговых вычету поступлений. После бесчисленных часов напряженной работы, fyou довести количество до, сказать, $65в. В кванта, Вы можете оценить вероятность аудита IRS. И вы можете поместить ряд (среднее значение в долларах) к боли и страданий, которые могут возникнуть в результате его.

Давайте предположим, что вы рассчитать риск налоговой проверки, чтобы быть о 1% и решить, что это стоит риска подойти к вопросу творчески в вас отчислений претензий к мелодии $ 15k. Вы отправляете в налоговой декларации и отсидеться, самодовольный, зная, что шансы на ваше получение аудит довольно тонкий. Вы находитесь в большой сюрприз. Вы получите хорошо и действительно в заблуждение случайности, и IRS почти наверняка хотите, чтобы поближе посмотреть на вашей налоговой декларации.

Рассчитанная творчество в налоговых декларациях редко окупается. Ваши расчеты ожидаемой боли и страданий никогда не согласуется с частотой, с которой IRS проверок вас. Вероятность аудита является, на самом деле, гораздо выше, если вы пытаетесь раздуть свои налоговые вычеты. Вы можете винить Benford для этого перекоса в вероятности уложены против вашу пользу.

Скептицизм

Бенфорд представил нечто очень нелогичным в своей статье [1] в 1938. Он задал вопрос,: Что такое распределение первых цифр в любую цифровую, Данные в реальной жизни? На первый взгляд, Ответ кажется очевидным. Все цифры должны иметь одинаковую вероятность. Почему бы там быть предпочтение любому из одной цифры в случайных данных?

figure1
Рисунок 1. Частота появления первых цифр в условных сумм финансовых операций. Фиолетовый кривая предсказал распределение. Обратите внимание, что небольшие эксцессы в 1 и 5 выше фиолетовой кривой, как ожидается, потому что люди склонны выбирать граждан как 1/5/10/50/100 млн. Избыток в 8 Ожидается также, потому что это считается счастливым числом в Азии.

Benford показал, что первая цифра в “природные” число намного больше шансов быть 1 вместо любого другого знака. На самом деле, каждая цифра имеет определенную вероятность того, чтобы быть в первой позиции. Цифра 1 имеет самую высокую вероятность; цифра 2 о 40% менее вероятно, чтобы быть в первой позиции, и так далее. Цифра 9 имеет низкую вероятность все; речь идет о 6 раз меньше шансов быть в первой позиции.

Когда я впервые услышал об этом первая цифра явления от хорошо информированного коллегой, Я думал, что это было странно. Я бы наивно ожидал увидеть примерно такую ​​же частоту встречаемости для всех цифр от 1 к 9. Так я собрал большое количество финансовых данных, об этом 65000 номера (столько, сколько позволит Excel), и посмотрел на первую цифру. Я нашел Бенфорд быть абсолютно прав, как показано на рисунке 1.

Вероятность первой цифры довольно далеки от единообразия, как показано на рисунке 1 шоу. Распределение, на самом деле, логарифмическая. Вероятность любого цифры D задается журнал(1 + 1 / д), который является фиолетовый кривая на рисунке 1.

Это неравномерное распределение не аномалия в данных, которые мне довелось посмотреть на. Это правило в любом “природные” данные. Это закон Бенфорда. Benford собрано большое количество природного данных (в том числе население, области рек, физические константы, Числа от газетных сообщений и так далее) и показал, что это эмпирический закон уважается.

Моделирование

В количественном разработчика, Я, как правило, для имитации вещи на компьютере с надеждой, что мне удастся увидеть модели, которые помогут мне понять проблему. Первый вопрос, подлежат разрешению в симуляции, чтобы выяснить, что распределение вероятностей смутное количества как “естественным номера” будет. После того, как у меня есть распределение, Я могу генерировать номера и посмотрите на первые цифр, чтобы увидеть их частоту встречаемости.

Для математика или квант, нет ничего более естественного, что натуральный логарифм. Таким образом, первый распределение кандидатом на природе чисел это нечто вроде RV ехр(RV), где RV является равномерно распределенная случайная величина (между нулем и десяти). Обоснованием этого выбора является предположение, что количество цифр в природе чисел равномерно распределены между нулем и верхним пределом.

Действительно, Вы можете выбрать другой, необычные распределения для естественных номера. Я пытался несколько других дистрибутивов кандидатов с использованием двух равномерно распределены (между нулем и десяти) случайные величины RV1 и RV2: RV1 ехр(RV2) и ехр(RV1 RV2). Все эти дистрибутивы оказываются хорошие догадки для естественных номера, как показано на рисунке 2.

figure2
Рисунок 2. Распределение первых цифр в моделировании "естественным" номера, по сравнению с предсказанием.

Первые цифры номеров, которые я генерируемые следовать закону Бенфорда к сверхъестественной точностью. Почему это происходит? Одна хорошая вещь о компьютерном моделировании является то, что вы можете копать глубже и смотреть на промежуточных результатов. Например, в нашей первой модели с распределением: RV ехр(RV), мы можем задать вопрос: Каковы значения на колесах, для которых мы получаем определенную первую цифру? Ответ показан на рисунке 3а. Обратите внимание, что диапазоны в колесах, которые дают первую цифру 1 намного больше, чем те, которые дают 9. Около шести раз больше, на самом деле, как и ожидалось. Обратите внимание, как картина повторяется как моделируемых натуральных чисел “пролонгировать” от первой цифры 9 к 1 (как одометра отключения).

figure3a
На рисунке 3а. Диапазоны равномерно распределены (между 0 и 10) случайная величина на колесах, что приводит к различным первых цифр в RV ехр(RV). Обратите внимание, что первая цифра 1 встречается значительно чаще, чем остальные, как и ожидалось.

Аналогичную тенденцию можно увидеть в нашем необычном моделирования с двух случайных величин. Регионы в их совместных распределений, которые приводят к различным первых цифр в RV1 ехр(RV2) показаны на рисунке 3b. Обратите внимание на большие участки глубокого синего цвета (соответствующее первой цифре 1) и сравнить их площадь с красными обматывает (для первой цифры 9).

figure3b
На рисунке 3б. Регионы в совместном распределении двух равномерно распределены (между 0 и 10) случайные величины RV1 и RV2 что приводит к различным первых цифр в RV1 ехр(RV2).

Это упражнение дает мне понимание Я надеялся извлечь из симуляции. Причина преобладанием мелких цифр в первой позиции является то, что распределение естественных номера, как правило, сужающийся один; там, как правило, верхний предел на номера, и по мере приближения к верхней границе, возможно, плотность становится все меньше и меньше. Как вы проходите первую цифру 9 а затем перевернуться на 1, вдруг его диапазон становится намного больше.

Хотя это объяснение удовлетворительным, Удивляет тот факт, что это не имеет значения, как вероятность природных распределений сужается. Это почти как центральной предельной теоремы. Конечно, эта маленькая моделирования нет строгого доказательства. Если вы ищете для строгого доказательства, Вы можете найти его в работе Хилла [3].

Обнаружения мошенничества

Хотя наши Уклонение от уплаты налогов неприятности могут быть отнесены к Бенфорд, первая цифра явление, первоначально был описан в статье Simon Newcomb [2] в американском журнале математики в 1881. Это был заново открыт Фрэнк Бенфорд в 1938, Кому всей красе (или вина, в зависимости от которой стороны забора вы окажетесь) пошел. На самом деле, реальный виновник наших налоговых беды, возможно, был Теодор Хилл. Он принес неясное закон в центре внимания в серии статей в 1990-е годы. Он даже представил статистические доказательства [3] за явление.

В дополнение к вызывая наши личные налоговые проблемы, Закон Бенфорда может сыграть решающую роль во многих других мошенничестве и нерегулярности проверок [4]. Например, первым дистрибутивом цифра в бухгалтерских проводок из компании может выявить приступы творчества. Возмещения Сотрудник претензии, проверить количество, цифры зарплаты, продуктовые цены — все подчиняется закону Бенфорда. Он даже может быть использован для обнаружения рыночные манипуляции, потому что первые цифры котировки акций, например, Предполагается, следуют распределению Benford. Если они этого не делают, мы должны быть осторожны.

Моральный

figure4
Рисунок 4. Совместное распределение первого и второго цифр в симуляции, показывая корреляционные эффекты.

Мораль этой истории проста: Не подойти к вопросу творчески в ваших налоговых деклараций. Вы будете пойманы. Вы можете подумать, что вы можете использовать это распределение Benford генерировать более реалистичную картину налогового вычета. Но эта работа сложнее, чем кажется. Хотя я не упоминал об этом, существует корреляция между цифрами. Вероятность вторая цифра 2, например, зависит от того, первая цифра. Посмотрите на рисунке 4, который показывает структуры корреляции в одном из моих моделирования.

Кроме, система IRS, вероятно, будет гораздо более сложной. Например, они могут быть за счет использования усовершенствованного анализа данных или распознавания образов систем, таких как нейронные сети или векторных машин поддержки. Помните, что IRS назвала данные (налоговые декларации тех, кто безуспешно пытался обмануть, и тех, хороших граждан) и они могут легко обучить классификатор программ поймать бутонизации уклоняющихся от уплаты налогов. Если они еще не используете эти сложные алгоритмы распознавания образов, поверьте мне, они будут, увидев эту статью. Когда дело доходит до налогов, случайность всегда будет обмануть вас, потому что это против вас.

А если серьезно, Закон Бенфорда является инструментом, который мы должны быть в курсе. Он может прийти к нам на помощь самым неожиданным образом, когда мы оказываемся сомневаться в подлинности всех видов числовых данных. Проверка на основе закона можно легко реализовать и трудно обойти. Это простой и достаточно универсальный. Так, давайте не пытаться побить Benford; давайте вместе с ним, а не.

Ссылки
[1] Benford, F. “Закон аномальных чисел.” Proc. Амер. Фил. Soc. 78, 551-572, 1938.
[2] Ньюкомб, S. “Примечание от частоты использования цифр в натуральных числах.” Амер. J. Математика. 4, 39-40, 1881.
[3] Холм, Т. Р. “Статистический вывод Закона о Значительное-значный.” Государство. Научно. 10, 354-363, 1996.
[4] Nigrini, М. “Я Got Your Number.” J. Бухгалтерия 187, С.. 79-83, Май 1999. HTTP://www.aicpa.org/pubs/jofa/may1999/nigrini.htm.

Photo by LendingMemo

Comments