Benford und Ihre Steuern

Nichts ist sicher, aber Tod und die Steuern, sie sagen. Nach dem Tod vor, wir machen einige Einbrüche mit all unseren medizinischen Wunder, zumindest in es tatsächlich zu verschieben, wenn es nicht zu vermeiden. Aber wenn es um Steuern geht, wir haben keine Verteidigung anderes als ein wenig Kreativität in unserer Steuererklärungen.

Nehmen wir an, Uncle Sam denkt, dass Sie schulden ihm $ 75k. In Ihre ehrliche Meinung, die Messe Zahl ist über die $ 50k Marke. So dass Sie durch Ihre Steuereinnahmen absetzbar kämmen. Nach unzähligen Stunden harter Arbeit, fyou die Zahl nach unten zu bringen,, sagen, $65zu. Als Quant, Sie können die Wahrscheinlichkeit eines IRS Audit schätzen. Und Sie können eine Zahl setzen (ein Erwartungswert in US-Dollar) auf den Schmerz und das Leiden, die sich daraus ergeben können.

Nehmen wir an, dass Sie das Risiko einer Steuerprüfung über berechnet werden 1% und entscheiden, dass es das Risiko wert ist kreativ in Ihnen Abzug Ansprüche in der Höhe von $ 15k zu bekommen. Sie senden in der Steuererklärung und sitzen fest, selbstgefällig in dem Wissen, dass die Chancen, Ihr immer geprüft sind ziemlich schlank. Sie sind für eine große Überraschung. Sie werden gut und wirklich durch Zufall täuschen, und IRS wird mit ziemlicher Sicherheit wollen, um einen genaueren Blick auf Ihre Steuererklärung übernehmen.

Die berechnete Kreativität in der Steuererklärung nur selten zahlt sich aus. Ihre Berechnungen der zu erwartenden Schmerzen und Leiden sind nie im Einklang mit der Häufigkeit, mit der IRS Audits Sie. Die Wahrscheinlichkeit einer Prüfung ist, tatsächlich, viel höher, wenn Sie versuchen, Ihre Steuerabzüge aufblasen. Sie können Benford für diese Schräglage in der Wahrscheinlichkeit gegen Ihren Gunsten gestapelt schuld.

Skepsis

Benford präsentiert etwas sehr unlogisch in seinem Artikel [1] in 1938. Er stellte die Frage,: Was die Verteilung der ersten Ziffern in jedem Zahlen, Real-Life-Daten? Auf den ersten Blick, die Antwort liegt auf der Hand. Alle Stellen sollten die gleiche Wahrscheinlichkeit haben. Warum sollte es eine Präferenz einem stellige Zufallsdaten in sein?

figure1
Abbildung 1. Die Häufigkeit des Auftretens der ersten Stellen in der Nominalwerte von Finanztransaktionen. Die violette Kurve ist die erwartete Verteilung. Beachten Sie, dass die geringen Überschüsse auf 1 und 5 über dem lila Kurve erwartet, weil die Menschen dazu neigen, wie Staatsangehörige wählen 1/5/10/50/100 Million. Der Überschuß an 8 wird auch erwartet, weil es in Asien gilt als Glückszahl.

Benford zeigte, dass die erste Ziffer eine “natürlich vorkommenden” Anzahl ist viel wahrscheinlicher sein 1 eher als jede andere Ziffer. Tatsächlich, jede Ziffer einen spezifischen Wahrscheinlichkeit, in der ersten Position. Die Ziffer 1 die höchste Wahrscheinlichkeit; die Ziffer 2 ist etwa 40% weniger wahrscheinlich, und so weiter in der ersten Position. Die Ziffer 9 hat die niedrigste Wahrscheinlichkeit für alle; es geht 6 Mal geringer als in der ersten Position.

Als ich zum ersten Mal gehört dieser erste Ziffer Phänomen aus einer gut informierten Kollegen, Ich dachte, es war komisch. Ich würde naiv erwarten rund gleichen Häufigkeit des Auftretens für alle Ziffern von zu sehen 1 zu 9. Also sammelte ich große Menge von Finanzdaten, über 65000 Zahlen (so viele wie Excel erlauben würde), und sah auf der ersten Stelle. Ich fand Benford absolut richtig zu sein, wie in Abbildung 1.

Die Wahrscheinlichkeit, dass die erste Ziffer ist ziemlich weit von einheitlichen, Wie Abbildung 1 Shows. Die Verteilung ist, tatsächlich, logarithmisch. Die Wahrscheinlichkeit, dass eine beliebige Ziffer d durch Protokoll gegeben(1 + 1 / d), das ist der lila Kurve in Abbildung 1.

Diese schiefe Verteilung ist keine Anomalie in den Daten, die ich zufällig zu betrachten. Es ist die Regel in einem “natürlich vorkommenden” Daten. Es ist die Benford-Gesetz. Benford gesammelt eine große Anzahl von natürlich vorkommenden Daten (einschließlich Bevölkerungs, Bereiche der Flüsse, physikalischen Konstanten, Zahlen von Zeitungsberichten und so weiter) und zeigte, dass diese empirische Gesetze eingehalten.

Simulation

Als quantitative Entwickler, Ich neige dazu, Dinge auf einem Computer mit der Hoffnung, dass ich simulieren kann in der Lage, Muster, die mir helfen, das Problem zu verstehen sehen sein. Die erste Frage, die in der Simulation angesiedelt werden soll, um herauszufinden, was die Wahrscheinlichkeitsverteilung einer vagen Menge wie “natürlich vorkommenden Zahlen” wäre. Sobald ich die Verteilung, Ich kann Zahlen zu generieren und sich die ersten Ziffern ihrer Häufigkeit des Auftretens sehen.

, Ein Mathematiker oder ein Quant, es ist nichts natürlicher, dass die natürlichen Logarithmus. So ist der erste Kandidat für die Verteilung natürlich vorkommenden Zahlen ist so etwas wie RV exp(RV), wo RV ist eine gleichverteilte Zufallsvariable (zwischen null und zehn). Der Grund für diese Wahl ist, eine Annahme, die Anzahl der Stellen in natürlich vorkommenden Zahlen gleichmäßig zwischen Null und einem oberen Grenzwert verteilten.

Tatsächlich, Sie können andere wählen, Züchter Verteilungen für natürlich vorkommende Zahlen. Ich habe versucht, ein paar andere Kandidaten Verteilungen mit zwei gleichmäßig verteilt (zwischen null und zehn) Zufallsvariablen RV1 und RV2: RV1 exp(RV2) und exp(RV1 RV2). Alle diese Verteilungen erweisen sich bei natürlich vorkommenden Zahlen, gute Vermutungen sein, wie in Abbildung 2.

figure2
Abbildung 2. Die Verteilung der ersten Ziffern in der Simulation von "natürlich vorkommenden" Nummern, im Vergleich zu den Vorhersage.

Die ersten Ziffern der Zahlen, die ich erzeugt folgen Benford-Gesetz zu einer unheimlichen Genauigkeit. Warum passiert? Eine gute Sache über Computer-Simulation ist, dass man tiefer graben und schauen Sie sich die Zwischenergebnisse. Beispielsweise, in unserem ersten Simulation der Verteilung: RV exp(RV), können wir die Frage stellen,: Was sind die Werte der RV, für die wir eine bestimmte erste Ziffer? Die Antwort ist in 3a gezeigt,. Beachten Sie, dass die Bereiche, die in RV die erste Stelle zu geben 1 sind viel größer als diejenigen, die erhalten 9. Etwa sechs mal größer, tatsächlich, wie erwartet. Beachten Sie, wie Muster wiederholt sich wie die simulierten natürlichen Zahlen “sich umdrehen” von der ersten Ziffer des 9 zu 1 (als Kilometerzähler Auslöse).

figure3a
3a. Die Bereiche in eine gleichmäßig verteilte (zwischen 0 und 10) Zufallsvariable, die in verschiedenen RV ersten Ziffern in RV exp führen(RV). Beachten Sie, dass die erste Ziffer 1 tritt viel häufiger als der Rest, wie erwartet.

Eine ähnliche Entwicklung ist in unserer Züchter Simulation mit zwei Zufallsvariablen gesehen werden. Die Regionen in ihrer gemeinsamen Verteilungen, die zu verschiedenen ersten Ziffern geben in RV1 exp(RV2) sind in Figur 3b gezeigt. Beachten Sie die große Teile der tiefblauen (entsprechend der ersten Stelle der 1) und zu den roten Schwaden vergleichen ihre Bereich (für die erste Ziffer 9).

figure3b
3b. Die Regionen in der gemeinsamen Verteilung von zwei gleichmäßig verteilt (zwischen 0 und 10) Zufallsvariablen RV1 und RV2, die in verschiedenen ersten Ziffern in RV1 exp führen(RV2).

Diese Übung gibt mir die Einsicht, die ich hatte gehofft, aus der Simulation nachlesen. Der Grund für das Überwiegen der kleineren Ziffern in der ersten Position ist, dass die Verteilung von natürlich vorkommenden Zahlen ist in der Regel eine sich verjüngende einem; es ist in der Regel eine obere Grenze für die Zahl, und wie Sie näher an der oberen Grenze, die wahrscheinlich Dichte wird kleiner und kleiner. Wie Sie die erste Ziffer der geben 9 und dann rollen zu 1, plötzlich wird sein Angebot viel größer.

Während diese Erklärung ist befriedigend, die überraschende Tatsache ist, dass es keine Rolle spielt, wie die Wahrscheinlichkeit von Natur Distributionen verjüngt sich. Es ist fast wie dem zentralen Grenzwertsatz. Natürlich, diese kleine Simulation ist kein strenger Beweis. Wenn Sie sich für einen strengen Beweis suchen, können Sie es in Hill Arbeit finden [3].

Fraud Detection

Obwohl unsere Steuerhinterziehung Probleme können Benford zugeschrieben werden, Die erste Ziffer Phänomen wurde ursprünglich in einem Artikel von Simon Newcomb beschrieben [2] in der American Journal of Mathematics in 1881. Es wurde von Frank Benford in wiederentdeckt 1938, , dem alle Ehre (oder die Schuld, je nachdem, welche Seite des Zauns Sie sich selbst zu finden) ging. Tatsächlich, der wahre Schuldige hinter unseren Steuer Leiden war vielleicht Theodore Hill haben. Er brachte die obskuren Gesetz ins Rampenlicht in einer Reihe von Artikeln in den 1990er Jahren. Er stellte auch eine statistische Beweis [3] für das Phänomen.

Zusätzlich zu verursachen unsere persönliche Steuer Probleme, Benford-Gesetz eine entscheidende Rolle in vielen anderen Betrug und Unregelmäßigkeiten überprüft spielen [4]. Beispielsweise, die erste Ziffer Verteilung in den Buchungen eines Unternehmens können Anfälle von Kreativität zeigen. Mitarbeiter Erstattungsansprüche, Scheckbeträge, Gehalt Zahlen, Lebensmittelpreise — Alles unterliegt dem Benford-Gesetz. Es kann auch verwendet werden, um Marktmanipulationen zu erkennen sein, weil die ersten Ziffern der Aktienkurse, beispielsweise, sollen die Benford Verteilung folgen. Wenn sie es nicht tun, Wir müssen wachsam sein.

Moral

figure4
Abbildung 4. Die gemeinsame Verteilung der ersten und zweiten Ziffern in einer Simulations, zeigt Korrelationseffekte.

Die Moral von der Geschichte ist einfach: Lassen Sie sich nicht kreativ in Ihrer Steuererklärung. Sie werden erwischt. Man könnte denken, dass Sie dieses Benford Verteilung verwenden, um eine realistischere Steuerabzug Muster zu erzeugen. Aber diese Aufgabe ist schwieriger als es klingt. Obwohl ich nicht erwähnen, es, gibt es eine Korrelation zwischen den Ziffern. Die Wahrscheinlichkeit der zweiten Ziffer Befinden 2, beispielsweise, abhängig davon, was die erste Ziffer. Schauen Sie sich Abbildung 4, was zeigt die Korrelationsstruktur in einem meiner Simulationen.

Neben, die IRS-System ist wahrscheinlich weitaus komplexer. Beispielsweise, sie werden die Verwendung einer fortgeschrittenen Data Mining oder Mustererkennungssystemen könnte wie neuronale Netze oder Support-Vektor-Maschinen. Denken Sie daran, dass IRS hat markierten Daten (Steuererklärungen von denen, die vergeblich versucht, zu betrügen, und die der gute Bürger) und sie können leicht zu trainieren Klassifikator Programme zu fangen angehende Steuerhinterzieher. Wenn sie nicht mit noch diese anspruchsvolle Mustererkennungsalgorithmen, glauben Sie mir, / glaub mir, sie werden, Nachdem ich diesen Artikel. Wenn es um Steuern geht, Zufälligkeit immer täuschen, weil es gegen Sie gestapelt wird.

Aber im Ernst, Benford-Gesetz ist ein Werkzeug, das wir haben, um sich bewusst sein. Es kann uns zu Hilfe auf unerwartete Weise kommen, wenn wir uns Zweifel an der Echtheit der alle Arten von numerischen Daten. Eine Überprüfung auf der Grundlage des Gesetzes ist einfach zu implementieren und schwer zu umgehen. Es ist einfach und ziemlich universell. So, lassen Sie uns nicht versuchen, Benford schlagen; lassen Sie sich zu ihm statt.

Referenzen
[1] Benford, F. “Das Gesetz der Anomale Zahlen.” Proc. Amer. Phil. Soc. 78, 551-572, 1938.
[2] Newcomb, S. “Hinweis auf die Häufigkeit der Verwendung der Stellen in natürlichen Zahlen.” Amer. J. Mathe. 4, 39-40, 1881.
[3] Hügel, T. P. “Eine statistische Ableitung der wesentlichen Digit-Gesetz.” Zustand. Sci. 10, 354-363, 1996.
[4] Nigrini, M. “Ich habe deine Nummer.” J. Buchhaltung 187, pp. 79-83, Mai 1999. http://www.aicpa.org/pubs/jofa/may1999/nigrini.htm.

Photo by LendingMemo

Comments