Benford y su declaración de impuestos

Nada es seguro sino la muerte y los impuestos, dicen. En el frente de la muerte, estamos haciendo algunas incursiones con todas nuestras maravillas médicas, al menos en posponerlo si no realmente evitarlo. Pero cuando se trata de impuestos, no tenemos defensa aparte de un poco de creatividad en nuestras declaraciones de impuestos.

Digamos que el tío Sam piensa que le debes $ 75k. En su opinión honesta, la cifra es justo sobre la marca de los $ 50k. Así que usted peine a través de sus recibos deducibles de impuestos. Después de incontables horas de duro trabajo, fyou llevar el número a, decir, $65a. Como cuant, se puede estimar la probabilidad de una auditoría del IRS. Y usted puede poner un número (una expectativa de valor en dólares) para el dolor y el sufrimiento que puede resultar de ella.

Supongamos que se calcula el riesgo de una inspección fiscal en alrededor 1% y decidir que vale la pena el riesgo de ser creativo en ustedes deducción reclamos por una suma de $ 15k. Usted envía en la declaración de impuestos y se sienta apretado, presumida en el conocimiento de que las probabilidades de conseguir su auditados son bastante escasas. Usted está en para una sorpresa grande. Usted recibirá bien y realmente engañado por el azar, y el IRS es casi seguro que desee echar un vistazo más de cerca a su declaración de impuestos.

La creatividad calculada en las declaraciones de impuestos rara vez vale la pena. Sus cálculos de dolor y sufrimiento esperado nunca son consistentes con la frecuencia con la que IRS audita. La probabilidad de una auditoría es, De hecho, mucho más alta si se intenta inflar sus deducciones de impuestos. Usted puede culpar Benford para este sesgo en la probabilidad en su contra a su favor.

Escepticismo

Benford presentó algo muy contrario a la intuición en su artículo [1] en 1938. Él hizo la pregunta: ¿Cuál es la distribución de los primeros dígitos en cualquier numérico, los datos de la vida real? A primera vista, la respuesta parece obvia. Todas las cifras deben tener la misma probabilidad. ¿Por qué habría una preferencia a ningún dígito en datos aleatorios?

figure1
Figura 1. La frecuencia de aparición de los primeros dígitos en los montos nominales de las transacciones financieras. La curva púrpura es la distribución predicha. Tenga en cuenta que los excesos leves en 1 y 5 por encima de la curva de color púrpura se espera porque la gente tiende a elegir los nacionales como 1/5/10/50/100 millón. El exceso en 8 También se espera ya que se considera un número de la suerte en Asia.

Benford mostró que el primer dígito en un “de origen natural” número es mucho más probable que sea 1 en lugar de cualquier otro dígito. De hecho, cada dígito tiene una determinada probabilidad de estar en la primera posición. El dígito 1 tiene la más alta probabilidad; el dígito 2 es aproximadamente 40% menos probabilidades de estar en la primera posición y así sucesivamente. El dígito 9 tiene la probabilidad más baja de todas; se trata 6 veces menos probabilidades de estar en la primera posición.

Cuando escuché por primera vez de este primer fenómeno dígitos de un compañero bien informado, Pensé que era extraño. Yo hubiera esperado ingenuamente para ver más o menos la misma frecuencia de ocurrencia para todos los dígitos de 1 a 9. Así que he recogido gran cantidad de datos financieros, acerca 65000 números (tantos como Excel permitiría), y mirado el primer dígito. Encontré Benford sea toda la razón, como se muestra en la figura 1.

La probabilidad de que la primera cifra está bastante lejos de ser uniforme, como la figura 1 espectáculos. La distribución es, De hecho, logarítmica. La probabilidad de cualquier dígito d está dada por log(1 + 1 / d), que es la curva de color púrpura en la figura 1.

Esta distribución asimétrica no es una anomalía en los datos que se me ocurrió mirar en. Es la regla en cualquier “de origen natural” datos. Es la ley de la Benford. Benford recoge un gran número de datos de origen natural (incluyendo la población, áreas de ríos, constantes físicas, los números de los informes periódicos y así sucesivamente) y puso de manifiesto que esta ley empírica es respetado.

Simulación

Como desarrollador cuantitativa, Tiendo a simular cosas en un equipo con la esperanza de que yo pueda ser capaz de ver los patrones que le ayudarán a entender el problema. La primera cuestión que se resolverá en la simulación es de averiguar lo que la distribución de probabilidad de una cantidad imprecisa como “los números de origen natural” sería. Una vez que tengo la distribución, Puedo generar números y ver las primeras cifras para ver su frecuencia de ocurrencia.

Para un matemático o un quant, no hay nada más natural que logaritmo natural. Así que la primera distribución candidata a los números naturales es algo así como exp RV(RV), donde RV es una variable aleatoria uniformemente distribuida (entre cero y diez). El fundamento de esta elección es el supuesto de que el número de dígitos de los números naturales se distribuye de manera uniforme entre cero y un límite superior.

En efecto, usted puede elegir el otro, distribuciones más elegantes para los números naturales. He intentado un par de otras distribuciones candidatos utilizando dos uniformemente distribuida (entre cero y diez) las variables RV1 azar y RV2: Exp RV1(RV2) y exp(RV1 RV2). Todas estas distribuciones resultan ser buenas conjeturas para los números de origen natural, como se ilustra en la figura 2.

figure2
Figura 2. La distribución de los primeros dígitos en la simulación de "de origen natural" números, en comparación con la predicción.

Las primeras cifras de los números que me genera seguir la ley de Benford en un grado asombroso de exactitud. ¿Por qué sucede esto? Una cosa buena acerca de la simulación por ordenador es que usted puede cavar más profundo y ver los resultados intermedios. Por ejemplo, en nuestra primera simulación con la distribución: Exp RV(RV), podemos hacer la pregunta: ¿Cuáles son los valores de RV para la cual obtenemos un cierto primer dígito? La respuesta se muestra en la Figura 3a. Tenga en cuenta que los rangos en RV que le dan el primer dígito 1 son mucho mayores que las que dan 9. Cerca de seis veces más grande, De hecho, como se esperaba. Note como patrón se repite a sí misma como los números naturales simulados “dese la vuelta” desde el primer dígito de 9 a 1 (como un disparo odómetro).

figure3a
Figura 3a. Los rangos en un distribuidos de manera uniforme (entre 0 y 10) RV variable aleatoria que dan lugar a diferentes primeros dígitos en exp RV(RV). Tenga en cuenta que el primer dígito del 1 ocurre mucho más frecuentemente que el resto, como se esperaba.

Una tendencia similar se observa en nuestra simulación más elegante con dos variables aleatorias. Las regiones en sus distribuciones conjuntas que dan lugar a diversas primeros dígitos en exp RV1(RV2) se muestra en la Figura 3b. Fíjese en las grandes franjas de azul profundo (correspondiente al primer dígito de 1) y comparar su área a las franjas rojas (para el primer dígito 9).

figure3b
Figura 3b. Las regiones en la distribución conjunta de dos uniformemente distribuidos (entre 0 y 10) variables de RV1 y RV2 azar que resultan en diferentes primeros dígitos en exp RV1(RV2).

Este ejercicio me da la idea que estaba esperando para recoger de la simulación. La razón de la preponderancia de dígitos más pequeños en la primera posición es que la distribución de los números de origen natural es por lo general una estrechándose; por lo general hay un límite superior a los números, y cuando usted se acerca al límite superior, probablemente la densidad se vuelve más y más pequeña. Al pasar el primer dígito del 9 y después volverá a 1, de repente se convierte en su gama mucho más grande.

Aunque esta explicación es satisfactoria, el hecho sorprendente es que no importa cómo la probabilidad de distribución natural se estrecha. Es casi como el teorema del límite central. Por supuesto, esta pequeña simulación hay ninguna prueba rigurosa. Si usted está buscando una prueba rigurosa, usted lo puede encontrar en el trabajo de Hill [3].

Detección de Fraude

Aunque nuestros problemas de evasión de impuestos se pueden atribuir a Benford, el primer fenómeno dígitos fue originalmente descrita en un artículo de Simon Newcomb [2] en el American Journal of Mathematics en 1881. Fue redescubierto por Frank Benford en 1938, a quien toda la gloria (o la culpa, dependiendo de qué lado de la valla que se encuentra) se fue. De hecho, el verdadero culpable detrás de nuestros problemas fiscales puede haber sido Theodore Colina. Él trajo la ley oscura que el centro de atención en una serie de artículos en la década de 1990. Incluso presentó una prueba estadística [3] para el fenómeno.

Además de causar nuestros problemas fiscales personales, La ley de Benford puede desempeñar un papel crucial en muchos otros controles de fraude e irregularidades [4]. Por ejemplo, la distribución del primer dígito en los asientos contables de una empresa puede revelar episodios de la creatividad. Las solicitudes de reembolso del Empleado, comprobar las cantidades, cifras de sueldos, los precios de comestibles — todo está sujeto a la ley de Benford. Incluso se puede utilizar para detectar manipulaciones del mercado debido a que los primeros dígitos del precio de las acciones, por ejemplo, se supone que sigue la distribución Benford. Si no lo hacen, tenemos que tener cuidado.

Moral

figure4
Figura 4. La distribución conjunta de los primero y segundo dígitos en una simulación, mostrando los efectos de correlación.

La moraleja de la historia es simple: No ser creativo en sus declaraciones de impuestos. Usted va a quedar atrapados. Se podría pensar que usted puede utilizar esta distribución Benford para generar un patrón de deducción fiscal más realista. Pero este trabajo es más difícil de lo que parece. Aunque yo no lo mencioné, existe una correlación entre los dígitos. La probabilidad de ser el segundo dígito 2, por ejemplo, depende de lo que el primer dígito es. Mira la figura 4, que muestra la estructura de correlación en una de mis simulaciones.

Además, el sistema IRS es probable que sea mucho más sofisticado. Por ejemplo, que podría ser el uso de un avanzado sistema de minería de datos o de reconocimiento de patrones, como las redes neuronales o máquinas de vectores soporte. Recordar datos que el IRS ha etiquetado (declaraciones de impuestos de los que trató sin éxito de hacer trampa, y las de los buenos ciudadanos) y pueden formar fácilmente programas clasificadores para atrapar evasores de impuestos en ciernes. Si ellos no están utilizando estos algoritmos de reconocimiento de patrones sofisticados aún, Confía en mí, lo harán, después de ver este artículo. Cuando se trata de impuestos, aleatoriedad siempre te engañe, ya que se pusiera contra la pared.

Pero en serio, La ley de Benford es una herramienta que tenemos que ser conscientes de. Puede venir en nuestra ayuda de manera inesperada cuando nos encontramos dudar de la autenticidad de todos los tipos de datos numéricos. Un control basado en la ley es fácil de implementar y difícil de eludir. Es simple y bastante universal. Así, no vamos a tratar de batir Benford; vamos a unirnos a Él en lugar.

Referencias
[1] Benford, F. “La Ley de los Números anómalos.” Proc. Amer. Phil. Soc. 78, 551-572, 1938.
[2] Newcomb, S. “Nota sobre la frecuencia del uso de dígitos de los números naturales.” Amer. J. Matemáticas. 4, 39-40, 1881.
[3] Colina, T. P. “Una derivación de Estadística de la Ley significativo dígitos.” Estado. Ciencia. 10, 354-363, 1996.
[4] Nigrini, M. “Tengo su número.” J. Contabilidad 187, pp. 79-83, Mayo 1999. http://www.aicpa.org/pubs/jofa/may1999/nigrini.htm.

Photo by LendingMemo

Comments