ベンフォードとあなたの税金

何も特定のが、死と税金はありません, 彼らは言う. 死面では, 私たちは、すべての医療の驚異といくつか進出している, 少なくとも実際にそれを回避しない場合は、それを延期中. しかし、それは税に来るとき, 当社の納税申告における創造性のビット以外の防御を持っていない.

それではアンクルサムは、あなたが彼に$ 75Kを借りて考えているとしましょう. あなたの正直な意見では, フェアの図は、5万ドルマークについてです. つまり、あなたの税控除の領収書を通してくし. ハードワークの数え切れないほどの時間の後, fyouはまでの数を持って来る, 言う, $65へ. クオンツとして, あなたがIRSの監査の確率を推定することができる. そして、あなたは数を置くことができます (ドルでの期待値) それから生じ得る痛みや苦しみへ.

例えば、あなたが、程度と税務監査のリスクを計算すると仮定してみよう 1% それは$ 15Kの曲に移動し控除請求の範囲に創造的にリスクの価値があると判断した. あなたは、税務申告において送信し、タイトに座る, あなたの監査を得る確率はかなりスリムであることを知識独り善がり. あなたは大きな驚きのためにある. あなたはよく、本当にランダムにだまさてしまいます, とIRSは、ほぼ確実にあなたの納税申告書を詳しく見てみたいと思うでしょう.

納税申告において計算された創造性はほとんど報わん. 期待の痛みと苦しみのあなたの計算は、IRSはあなたを監査する頻度と一致されることはありません. 監査の確率である, 実際には, あなたの税控除を膨張させるためにしようとすると、はるかに高い. あなたの好意に対して積み重ねられた確率で、このスキューをベンフォードのせいにすることができます.

懐疑論

ベンフォードは、彼の記事は非常に直感的で何かを発表 [1] で 1938. 彼は質問を: 任意の数値の最初の桁の分布がどのような, 実際のデータ? 一見したところで, 答えは明白と思われる. すべての桁が同じ確率を持っている必要があります. なぜランダムデータ内の任意の1桁の​​好みがあるだろう?

figure1
フィギュア 1. 金融取引の想定元本の最初の数字の出現頻度. 紫色の曲線は、予測されたディストリビューションです. 尚、若干の過剰で 1 そして 5 人のような国民を選択する傾向があるので、紫色の曲線上に期待されている 1/5/10/50/100 100万. 過剰で 8 それはアジアのラッキーナンバーと考えられるからも期待されている.

ベンフォードは、示された点で、第1桁 “天然に存在する” 数ははるかに可能性が高い 1 むしろ、他の数字より. 実際には, 各桁は、第1の位置にある特定の確率が. 桁 1 最も高い確率を有する; 桁 2 についてです 40% というように最初の位置にある可能性が低い. 桁 9 すべての最も低い確率を有する; それは約ある 6 第一の位置にある可能性が低い倍.

私が最初に十分な情報を同僚からこの最初の桁の現象のことを聞いたときは, 私はそれが奇妙だと思った. 私は単純にからのすべての数字のために発生したほぼ同じ周波数を見て期待した 1 へ 9. だから私は、財務データを大量に収集した, 約 65000 数字 (Excelが可能にするであろうと同じ数の), そして最初の数字を見て. 私はベンフォードは絶対的に正しいであることが判明, 図に示すように、 1.

最初の数字の確率は均一からかなり離れている, 図のよう 1 ショー. 分布である, 実際には, 対数の. 任意の数字dの確率は、ログによって与えられる。(1 + 1 / D), これを図中の紫色の曲線であり、 1.

この傾斜分布は、私が見て起こったデータに異常はありません. これは、任意のルールである “天然に存在する” データ. これは、ベンフォードの法則である. ベンフォードは、天然に存在する多数のデータを収集 (人口を含む, 河川の区域, 物理定数, のように新聞報道の数字と) この経験的な法則が尊重されることを示した.

シミュレーション

定量的な開発者として, 私は私が問題を理解するのに役立ちますパターンを見ることができるかもしれことを期待しているコンピュータで物事をシミュレートする傾向がある. シミュレーションで決済された最初の質問は、のような漠然とした数量のどの確率分布を把握することです “天然に存在する数字” だろう. 私が分布しているとします, 私は番号を生成し、その出現頻度を見るために最初の数字を見ることができます.

数学者やクオンツへ, 自然対数それより自然なものはありません. だから、天然に存在する番号については、第一候補の分布は、RVのexpのようなものです。(RV), RVが均一に分布確率変数である (ゼロと10の間). この選択の背後にある理論的根拠は、天然に存在する数字の桁数を均一にゼロと上限の間に分散​​されている仮定である.

確かに, あなたは他の選択することができます, 天然に存在する番号の愛好家のディストリビューション. 私は2つを使用して、他の候補のディストリビューションのカップルが均一に分布してみました (ゼロと10の間) 確率変数RV1とRV2: RV1のEXP(RV2) とexp(RV1 RV2). これらのすべてのディストリビューションは、天然に存在する数字のために良い推測であることが判明する, 図に示すように、 2.

figure2
フィギュア 2. 「天然に存在する」の数字のシミュレーションの最初の桁の分布, 予測と比較した.

私は、精度の不気味な程度にベンフォードの法則に従って生成された番号の最初の数字. これはなぜ起こるのでしょう? コンピュータシミュレーションについての一つの良いところは、深く掘ると、中間結果を見ることができるということです. 例えば, 分布を持つ私たちの最初のシミュレーションで: RVのEXP(RV), 私たちは質問をすることができます: 私たちは、特定の最初の数字を取得しているために、RVの値がどのようなものがあります? 答えは図3aに示されている. なお、第1の桁を与えるRV内の範囲 1 得られたものよりもはるかに大きい 9. 約6倍大きい, 実際には, 予想通り. パターンがシミュレートされた自然数として繰り返さに注意してください “転がる” の最初の桁から 9 へ 1 (トリッピング走行距離計として).

figure3a
図3a. 均一に分布における範囲 (間に 0 そして 10) RVのexpの異なる最初の数字になる確率変数RV(RV). の最初の数字に注意してください 1 残りよりも頻繁に発生します, 予想通り.

同様の傾向は、2つの確率変数との手の込んだシミュレーションで見ることができます. RV1 expの中でさまざまな最初の数字を引き起こす共同のディストリビューション内の領域(RV2) 図3bに示されている. 深い青色の大帯状に注意してください (の最初の桁に対応する 1) と赤の帯状に自分の領域を比較する (最初の数字のために 9).

figure3b
図3b. 両者の結合分布における領域が均一に分布 (間に 0 そして 10) RV1 expの中の異なる最初の数字になる確率変数のRV1とRV2(RV2).

この演習では、私がシミュレーションから収集することを期待していた洞察力を与える. 最初の位置に小さい数字の優勢の理由は、天然に存在する数の分布は、通常、テーパ1であるということです; 数字の上限は、通常存在する, あなたが上限に近づくように, おそらく密度はますます小さくなり. あなたが最初の数字を通過する 9 そしてその後にロールオーバー 1, 突然、その範囲ははるかに大きくなる.

この説明では満足している間, 驚くべき事実は、自然分布の確率が漸減する方法それは問題ではないということです. それはほとんど中心極限定理のようなものです. もちろん, この小さなシミュレーションは厳密な証明はありません. あなたは厳密な証明を探しているなら, あなたはヒルの仕事でそれを見つけることができます [3].

不正検出

私たちの脱税のトラブルがベンフォードに起因することができますが、, 最初の桁現象はもともとサイモン·ニューカム資料に記載された [2] 数学のアメリカジャーナル 1881. それは、フランク·ベンフォードによって再発見された 1938, へのすべての栄光 (または非難, フェンスのどちら側に依存して、自分自身を見つける) 行きました. 実際には, 当社の税務苦境の背後にある本当の犯人は、セオドア·ヒルであったかもしれない. 彼は、1990年代の一連の記事で脚光を浴びるにあい​​まいな法律をもたらした. 彼も統計的な証拠を提示 [3] 現象の.

私たちの個人的な税金のトラブルを引き起こすことに加え, ベンフォードの法則は、他の多くの不正や不規則性をチェックする上で重要な役割を果たすことができる [4]. 例えば, 会社の経理のエントリの最初の桁の分布は創造性の発作を明らかにすることができる. 従業員の償還の請求, 金額をご確認ください, 給与フィギュア, 食料品の価格 — すべてはベンフォードの法則に従うもの. 株価の最初の数字ので、それも、市場操作を検出するために使用され得る, 例えば, ベンフォードの分布に従うことになっている. そうではない場合は, 私たちは警戒する必要が.

道徳

figure4
フィギュア 4. シミュレーションにおける第1および第2桁の同時分布, 相関効果を示す.

この話の教訓は単純である: あなたの納税申告で創造的な取得しないでください. あなたが捕まるします. あなたはより現実的な税額控除パターンを生成するには、このベンフォードの配布を使用できることを考えるかもしれない. しかし、この仕事はそれが思ったより難しいです. 私はそれを言及しなかったが, 数字の間には相関がある. 二桁である確率 2, 例えば, 最初の数字が何であるかに依存します. 図を見てください 4, その私のシミュレーションの一つに相関構造を示している.

ほかに, IRSシステムは、はるかに洗練された可能性が高い. 例えば, それらは、ニューラルネットワークやサポートベクターマシンなどの高度なデータマイニングやパターン認識システムを使用している可能性が. IRSがデータをラベル付けしていることを忘れないでください (失敗したカンニングしようとした者の納税申告, と善良な市民のもの) そして彼らは簡単に新進の脱税者をキャッチするために分類器プログラムを訓練することができます. それらがまだこれらの洗練されたパターン認識アルゴリズムを使用していない場合, 私を信頼, 彼らは意志, この記事を見た後. それは税に来るとき, それはあなたに対して積層されているので、ランダム性はいつもあなたをだますます.

しかし、真剣に, ベンフォードの法則は、私たちが知っておく必要はありツールである. 私たち自身が数値データのすべての種類の信憑性を疑う見つけたときには予期しない方法で私たちを助けに来るかもしれない. 法に基づく検査は実施するのが容易と回避が困難である. それは、シンプルでかなり普遍的である. そう, それではベンフォードを破っしようとしないでみましょう; のではなく、彼に参加しましょう.

参考資料
[1] ベンフォード, F. “異常な数値の法則。” 学会. アメール. フィル. SOC. 78, 551-572, 1938.
[2] ニューカム, S. “自然数の桁の使用頻度に注意してください。” アメール. J. 数学. 4, 39-40, 1881.
[3] ヒル, T. P. “重要な桁法の統計的導出。” 状態. SCI. 10, 354-363, 1996.
[4] Nigrini, M. “私はあなたの番号を持っている。” J. 会計 187, 巻. 79-83, 5月 1999. HTTP://www.aicpa.org/pubs/jofa/may1999/nigrini.htm.

Photo by LendingMemo

Comments