Benford et vos impôts

Rien n'est certain que la mort et les impôts, ils disent. Sur le front de mort, nous faisons quelques progrès avec tous nos merveilles médicales, au moins la retarder sinon l'éviter. Mais quand il s'agit de taxes, nous n'avons pas d'autre qu'un peu de créativité défense dans nos déclarations de revenus.

Disons que l'Oncle Sam pense que vous lui devez 75k $. Dans votre opinion honnête, la figure juste s'agit de la marque 50k $. Donc, vous peigner vos déductibles les recettes fiscales. Après d'innombrables heures de travail, fyou réduire ce nombre à, dire, $65à. Comme un quant, vous pouvez estimer la probabilité d'un audit IRS. Et vous pouvez mettre un certain nombre (une valeur moyenne en dollars) de la douleur et de la souffrance qui peut en résulter.

Supposons que vous calculez le risque d'un contrôle fiscal à environ 1% et décider qu'il vaut le risque de faire preuve de créativité en vous déduction demandes à hauteur de 15k $. Vous envoyez la déclaration de revenus et de s'asseoir serré, béat en sachant que les chances de votre obtenir vérifiés sont assez minces. Vous êtes dans une grosse surprise. Vous serez bel et bien berner par hasard, et IRS sera presque certainement envie de regarder de plus près à votre déclaration de revenus.

La créativité calculé dans les déclarations fiscales paie rarement hors. Vos calculs de la douleur et de la souffrance attendue ne sont jamais compatibles avec la fréquence à laquelle vous IRS vérifie. La probabilité d'un audit est, en fait, beaucoup plus élevé si vous essayez de gonfler vos déductions fiscales. Vous pouvez blâmer Benford pour ce biais de la probabilité empilés contre votre faveur.

Scepticisme

Benford a présenté quelque chose de très contre-intuitif dans son article [1] dans 1938. Il a posé la question: Quelle est la répartition des premiers chiffres en tout numérique, données de la vie réelle? À première vue, la réponse semble évidente. Tous les chiffres doivent avoir la même probabilité. Pourquoi y aurait-il une préférence à n'importe quel chiffre en données aléatoires?

figure1
Figure 1. La fréquence d'apparition des premiers chiffres dans les montants notionnels des opérations financières. La courbe violette est la répartition prévue. Notez que les légers excès de 1 et 5 dessus de la courbe violet sont attendus parce que les gens ont tendance à choisir comme ressortissants 1/5/10/50/100 million. L'excédent au 8 est également prévu, car il est considéré comme un chiffre porte-bonheur en Asie.

Benford a montré que le premier chiffre dans un “naturel” nombre est beaucoup plus susceptibles d'être 1 plutôt que d'un autre chiffre. En fait, chaque chiffre spécifique a une probabilité d'être dans la première position. Le chiffre 1 a la plus forte probabilité; les chiffres 2 est environ 40% moins susceptible d'être dans la première position et ainsi de suite. Le chiffre 9 a la probabilité la plus faible de tous les; il s'agit de 6 fois moins susceptibles d'être dans la première position.

La première fois que j'ai entendu parler de ce premier phénomène de chiffres d'un collègue bien informé, Je pensais que c'était bizarre. J'aurais naïvement s'attendre à voir à peu près même fréquence d'occurrence de tous les chiffres de 1 à 9. Donc, j'ai recueilli beaucoup de données financières, sur 65000 numéros (autant que Excel permettrait), et regardé le premier chiffre. J'ai trouvé Benford pour être tout à fait raison, comme le montre la Figure 1.

La probabilité que le premier chiffre est assez loin d'être uniforme, comme la figure 1 spectacles. La distribution est, en fait, logarithmique. La probabilité d'un chiffre d est donné par log(1 + 1 / ré), qui est la courbe de la figure pourpre 1.

Cette répartition inégale n'est pas une anomalie dans les données qui m'est arrivé de regarder. C'est la règle dans tous les “naturel” données. C'est la loi de la Benford. Benford a recueilli un grand nombre de données d'origine naturelle (y compris la population, les zones de rivières, constantes physiques, nombre de rapports de journaux et ainsi de suite) et a montré que cette loi empirique est respectée.

Simulation

En tant que développeur quantitative, J'ai tendance à simuler les choses sur un ordinateur avec l'espoir que je pourrais être en mesure de voir des modèles qui vont m'aider à comprendre le problème. La première question à régler dans la simulation est de comprendre ce que la distribution de probabilité d'une quantité vague comme “nombres naturels” serait. Une fois que j'ai la distribution, Je peux générer des nombres et de regarder les premiers chiffres pour voir leur fréquence.

Pour un mathématicien ou un quant, il n'y a rien de plus naturel que logarithme naturel. Donc, la première distribution de candidat pour les nombres naturels est quelque chose comme RV exp(RV), où RV est une variable aléatoire uniformément répartie (entre zéro et dix). La raison d'être de ce choix est une supposition que le nombre de chiffres du nombre d'origine naturelle est répartie uniformément entre zéro et une limite supérieure.

En effet, vous pouvez choisir un autre, distributions fantaisistes pour les nombres naturels. J'ai essayé quelques autres distributions de candidats en utilisant deux répartie uniformément (entre zéro et dix) des variables aléatoires RV1 et RV2: RV1 exp(RV2) et exp(RV1 RV2 ). Toutes ces distributions s'avèrent bonnes estimations pour les nombres naturels, comme illustré sur la Figure 2.

figure2
Figure 2. La répartition des premiers caractères dans la simulation de "naturelle" des nombres, par rapport à la prédiction.

Les premiers chiffres des numéros que je généré suivre la loi de Benford à un degré de précision étonnante. Pourquoi cela se produit? Une bonne chose de simulation sur ordinateur est que vous pouvez creuser plus profondément et examiner les résultats intermédiaires. Par exemple, dans notre première simulation de la distribution: RV exp(RV), nous pouvons nous poser la question: Quelles sont les valeurs de RV pour laquelle nous obtenons un certain premier chiffre? La réponse est représentée sur la figure 3a. Notez que les plages de RV qui donnent le premier chiffre 1 sont beaucoup plus importantes que celles qui donnent 9. Environ six fois plus grande, en fait, comme prévu. Remarquez comment schéma se répète comme les nombres naturels simulés “rouler” à partir du premier chiffre de 9 à 1 (comme un déclenchement du compteur kilométrique).

figure3a
Figure 3a. Les plages dans un réparties uniformément (entre 0 et 10) RV variable aléatoire qui se traduisent par différents premiers chiffres RV exp(RV). On notera que le premier chiffre du 1 se produit beaucoup plus fréquemment que le reste, comme prévu.

Une tendance similaire peut être vu dans notre simulation amateur avec deux variables aléatoires. Les régions dans leurs distributions conjointes qui donnent lieu à diverses premiers chiffres dans RV1 exp(RV2) sont représentées sur la figure 3b. Remarquez les vastes étendues de bleu profond (qui correspond au premier chiffre du 1) et comparer leur région pour les pans rouges (pour le premier chiffre 9).

figure3b
Figure 3b. Les régions dans la distribution conjointe des deux uniformément réparties (entre 0 et 10) des variables aléatoires RV1 et RV2 qui se traduisent par différents premiers chiffres RV1 exp(RV2).

Cet exercice me donne l'aperçu J'espérais tirer de la simulation. La raison de la prépondérance de petits chiffres dans la première position est que la distribution des nombres d'origine naturelle est généralement un s'effilant une; il est généralement une limite supérieure pour le nombre, et que vous vous rapprochez de la limite supérieure, la densité devient probablement plus en plus petits. Comme vous passez le premier chiffre de 9 puis rouler sur 1, tout à coup sa gamme devient beaucoup plus.

Bien que cette explication est satisfaisante, le fait surprenant, c'est que ce n'est pas grave comment la probabilité de distributions naturelles s'amenuise. Il est presque comme le théorème central limite. Bien sûr, cette petite simulation n'est pas une preuve rigoureuse. Si vous êtes à la recherche d'une preuve rigoureuse, vous pouvez le trouver dans le travail de la Colline [3].

Détection de la fraude

Bien que nos impôts problèmes d'évasion peuvent être attribués à Benford, le premier chiffre du phénomène a été décrit dans un article par Simon Newcomb [2] dans l'American Journal of Mathematics in 1881. Il a été redécouvert par Frank Benford dans 1938, à qui toute la gloire (ou le blâme, selon le côté de la barrière vous vous trouvez) est allé. En fait, le vrai coupable derrière nos malheurs fiscaux peut-être Theodore Colline. Il apporta la loi obscure à l'honneur dans une série d'articles dans les années 1990. Il a même présenté une preuve statistique [3] pour le phénomène.

En plus de causer nos problèmes d'imposition des particuliers, La loi de Benford peut jouer un rôle crucial dans de nombreux autres contrôles de fraude et d'irrégularité [4]. Par exemple, la première distribution de chiffres dans les écritures comptables d'une entreprise peut révéler des épisodes de la créativité. les demandes de remboursement des employés, les montants des chèques, les montants des salaires, les prix de gros — tout est soumis à la loi de Benford. Il peut même être utilisé pour détecter les manipulations de marché, parce que les premiers chiffres du prix d'achat d'actions, par exemple, sont censés suivre la distribution Benford. S'ils ne le font pas, nous devons être prudents.

Moral

figure4
Figure 4. La distribution conjointe des premier et deuxième chiffres dans une simulation, montrant les effets de corrélation.

La morale de l'histoire est simple: Ne pas faire preuve de créativité dans vos déclarations de revenus. Vous aurez pris. Vous pourriez penser que vous pouvez utiliser cette distribution Benford pour générer un motif de déduction fiscale plus réaliste. Mais ce travail est plus difficile qu'il n'y paraît. Bien que je n'en ai pas parlé, il existe une corrélation entre les chiffres. La probabilité que le second chiffre étant 2, par exemple, dépend de ce que le premier chiffre est. Regardez la figure 4, ce qui montre la structure de corrélation dans une de mes simulations.

En plus de, le système IRS est susceptible d'être beaucoup plus sophistiqué. Par exemple, ils pourraient être en utilisant un système d'extraction de données ou la reconnaissance de formes avancées telles que les réseaux de neurones ou support vector machines. Rappelez-vous que les données de l'IRS a marqués (les déclarations de revenus de ceux qui ont essayé en vain de tricher, et ceux des bons citoyens) et ils peuvent facilement former des programmes de classificateur pour attraper les fraudeurs en herbe. S'ils n'utilisent pas encore ces algorithmes de reconnaissance de formes sophistiquées, croyez-moi, ils seront, après avoir vu cet article. Quand il s'agit de taxes, aléatoire sera toujours de vous tromper, car il est empilé contre vous.

Mais sérieusement, La loi de Benford est un outil que nous devons être conscients de. Il peut venir à notre aide de manière inattendue quand nous nous trouvons douter de l'authenticité de toutes sortes de données numériques. Une vérification sur la base de la loi est facile à mettre en œuvre et difficile à contourner. Il est simple et assez universel. Si, il ne faut pas essayer de battre Benford; nous allons rejoindre le lieu.

Références
[1] Benford, Fa. “La loi des nombres anormaux.” Proc. Amer. Phil. Soc. 78, 551-572, 1938.
[2] Newcomb, S. “Remarque sur la fréquence de l'utilisation des chiffres en nombres naturels.” Amer. J. Math. 4, 39-40, 1881.
[3] Colline, T. P. “Une dérivation de la statistique de la loi chiffres significatifs.” État. Science. 10, 354-363, 1996.
[4] Nigrini, M. “J'ai Got Your Number.” J. Comptabilité 187, pp. 79-83, Mai 1999. http://www.aicpa.org/pubs/jofa/may1999/nigrini.htm.

Photo by LendingMemo

Comments