本福德和你的税

没有什么是必然的,除了死亡和税收, 他们说. 在死亡面前, 我们正在做一些侵蚀与我们所有的医疗奇迹, 至少推迟,如果没有真正避免它. 但是,当涉及到税收, 我们没有防守不是有点创造力等在我们的纳税申报.

比方说,山姆大叔认为你欠了他7.5万美元. 在你的真实想法, 公允数字大约是5万美元大关. 所以,你通过你的抵税收据梳. 无数个小时的艰苦工作之后, fyou带来数下降到, 说, $65以. 作为一个定量, 你可以估算国税局审计的概率. 你可以把一些 (在美元预期值) 在痛苦和苦难,可能导致从它.

让我们假设你计算税务审计是对的风险 1% 并决定,这是值得冒这个险让您在扣除索赔的$ 15K的曲调创作. 您发送的纳税申报表,并稳坐, 踌躇满志的知识你得到审核的几率相当渺茫. 你是在一个巨大的惊喜. 你会好起来,真正通过随机性愚弄, 和IRS几乎肯定会想仔细看看你的报税表.

在纳税申报表中计算的创造力很少不负有心人. 你期望的痛苦和苦难的计算是从未有与国税局审核你的频率一致. 审计的概率是, 事实上, 如果您尝试抬高你的税收减免要高得多. 你可以责怪福德这个歪斜的概率堆积对你有利.

怀疑论

本福德提出了一些非常反直觉的在他的文章 [1] 在 1938. 他问的问题: 这是第一个数字中任何数值的分布, 现实生活中的数据? 乍一看, 答案似乎是显而易见的. 所有数字应具有相同的概率. 为什么会有偏向于随机数据中的任何一个数字?

figure1
图 1. 出现的第一个数字在金融交易的名义金额的频率. 紫色的曲线是所预测的分布. 注意,在轻微过量 1 和 5 紫色曲线的上方,预计是因为人们往往会选择像国民 1/5/10/50/100 百万. 多余的 8 还预计,因为它被认为是亚洲的幸运数字.

本福德显示在第一位 “自然发生” 数是更可能是 1 而不是任何其他位. 事实上, 每个数字具有在所述第一位置为特定概率. 数字 1 具有最高概率; 数字 2 约 40% 不太可能在第一位置等. 数字 9 具有所有的最低概率; 这是一个关于 6 倍不太可能在第一位置.

当我第一次听到这首数字现象从消息灵通的同事, 我认为这件事很奇怪. 我还天真地希望看到发生的大致相同的频率从所有的数字 1 至 9. 因此,我收集了大量的财务数据, 关于 65000 数字 (多达Excel中将使), 看着第一个数字. 我发现福德是绝对正确, 如图 1.

第一个数字的概率是相当远从均匀, 如图 1 节目. 的分布是, 事实上, 对数的. 任何数字D中的概率为给定的日志(1 + 1 / ð), 它是图紫色曲线 1.

此偏态分布是不是在数据的异常,我碰巧看. 它是在任何规则 “自然发生” 数据. 这是本福德定律. 本福德收集了大量自然产生的数据 (包括人口, 河地区, 物理常数, 从新闻报道等数) 并表明,这种经验规律的尊重.

模拟

作为一个定量的开发, 我倾向于模拟计算机,希望对的事情,我可能可以看到的模式,这将有助于我理解这个问题. 在模拟解决的第一个问题是要弄清楚什么是模糊量的概率分布状 “自然发生的数” 会. 一旦我有分布, 我可以生成数字,并期待在第一个数字,看看它们发生的频率.

一个数学家或定量, 没有什么更自然的自然对数. 因此,对于自然发生的数首候选分布是一样的东西休旅车EXP(房车), 其中RV是均匀分布的随机变量 (零和10之间). 后面这种选择的理由是,数字中天然存在的号码的数量被均匀地零和上限之间分布的假设.

的确, 您可以选择其他, 自然发生的数量分布票友. 我尝试了几个使用另外两个候选分布均匀分布 (零和10之间) 随机变量RV1和RV2: RV1 EXP(RV2) 和EXP(RV1 RV2). 所有这些分布练得很好的猜测自然发生的数, 如图 2.

figure2
图 2. 第一位数的模拟分布“天然存在的”数字, 相比于预测.

这些数字,我跟着产生本福德定律的准确性离奇的程度第一位数. 为什么会出现这种情况? 关于计算机模拟的一个好处是,你可以深入挖掘并期待在中间结果. 例如, 在我们第一次模拟与分布: 房车EXP(房车), 我们可以问的问题: 什么是房车,而我们得到了一定第一个数字值? 答案是如图3a中所示. 请注意,给第一个数字中的RV范围 1 比那些给予更大 9. 约6倍, 事实上, 如预期. 请注意模式重复自己作为模拟自然数 “滚下” 从第一数字 9 至 1 (作为里程表跳闸).

figure3a
图3a. 在该范围内均匀分布 (间 0 和 10) 随机变量的RV是导致休旅车EXP不同的第一位数(房车). 注意,第一个数字 1 发生更频繁比其余, 如预期.

类似的趋势可以看出,在我们的发烧友仿真与两个随机变量. 在他们的联合分布是产生各种第一位数RV1 EXP地区(RV2) 示于图3b中. 注意深蓝色的大片 (对应于所述第一数字 1) 其面积比较红的大片 (为第一数字 9).

figure3b
图3b. 在两个联合分布的区域均匀分布的 (间 0 和 10) 随机变量RV1和RV2这导致RV1 EXP不同的第一位数(RV2).

这项工作给我,我是希望从模拟中收集的洞察力. 其原因为较小的数字中的第一个位置的优势在于天然产生的数分布通常是逐渐变细的1; 通常有一个上限数目, 而当你越接近上限, 的大概密度变得越来越小. 当你传递的第一位 9 然后滚动到 1, 突然,它的范围变得更大.

虽然这种解释是令人满意, 令人惊讶的事实是,它并没有多么自然分布的概率逐渐减少. 这几乎就像中心极限定理. 当然, 这个小小的仿真是没有严格的证明. 如果你正在寻找一个严格的证明, 你可以找到它在山的工作 [3].

欺诈检测

虽然我们的偷税漏税的麻烦可以归因于本福德, 第一个数字现象在一篇文章中由西蒙纽康最初描述 [2] 在数学中的美国杂志 1881. 它在被重新发现由Frank福德 1938, 谁所有的荣耀 (还是怪, 这取决于我们的恩赐,你发现自己) 去. 事实上, 后面我们的税收困境的真正元凶可能是西奥多·希尔. 他在一系列20世纪90年代的文章所带来的晦涩法律风头. 他甚至提出了一个统计证明 [3] 该现象.

除了引起我们的个人所得税的烦恼, 本福特定律可以发挥在其他许多欺诈和违规检查了至关重要的作用 [4]. 例如, 在一家公司的会计分录的第一个数字分布可以发现创意的较量. 员工报销, 检查数量, 工资数字, 食品价格 — 一切都是受本福德定律. 它甚至可以被用来检测市场操作,因为股价的第一位数, 例如, 应该遵循本福德分布. 如果他们不这样做, 我们要警惕.

道德

figure4
图 4. 的第一和第二位在一个模拟的联合分布, 显示关联效应.

这个故事的寓意很简单: 不要在你的报税创意. 你会被逮住. 你可能会认为,你可以使用此福德分布,产生更逼真的减税模式. 但这项工作是比听起来困难. 虽然我没有提到它, 还有就是数字之间的相互关系. 第二个数字之中的概率 2, 例如, 依赖于第一个数字是什么. 请看图 4, 它显示了相关结构中的我的模拟1.

除了, 国税局系统很可能会复杂得多. 例如, 它们可以是使用一种先进的数据挖掘或模式识别系统,如神经网络或支持向量机. 请记住,美国国税局已标记数据 (那些不成功谁试图欺骗报税, 和那些好公民) 他们可以很容易地分类训练计划,以赶上萌芽逃税者. 如果他们没有使用这些复杂的模式识别算法还, 相信我, 他们将, 看到这篇文章后,. 当涉及到税收, 随机性总是会欺骗你,因为它是堆放对你.

但严重的是, 本福特定律是我们必须要注意的一个工具. 它可能来到我们意想不到的方式援助时,我们发现自己怀疑的各种数字数据的真实性. 根据法律规定的检查很容易实现,难以规避. 它是简单和相当普遍的. 所以, 我们不要尝试击败福德; 让我们和他一起,而不是.

参考文献
[1] 本福德, ˚F. “反常数字的规律。” PROC. 阿梅尔. 菲尔. SOC. 78, 551-572, 1938.
[2] 纽科姆, Š. “注意对数字的自然数的使用频率。” 阿梅尔. Ĵ. 数学. 4, 39-40, 1881.
[3] 山, Ŧ. P. “在重大位数法统计推导。” 国家. 科学. 10, 354-363, 1996.
[4] Nigrini, M. “我有你的号码。” Ĵ. 会计 187, PP. 79-83, 五月 1999. HTTP://www.aicpa.org/pubs/jofa/may1999/nigrini.htm.

Photo by LendingMemo

Comments