Benford e seus impostos

Nada é certo, exceto a morte e os impostos, eles dizem. Na frente da morte, estamos fazendo algumas incursões com todas as nossas maravilhas médicos, pelo menos em adiá-lo se não for realmente evitá-la. Mas quando se trata de impostos, não temos outro do que um pouco de criatividade defesa em nossas declarações de imposto.

Vamos dizer que o Tio Sam acha que você deve a ele $ 75k. Em sua opinião honesta, a figura feira é sobre a marca de US $ 50k. Então você vasculhar seus recibos dedutíveis. Após inúmeras horas de trabalho duro, fyou trazer o número para baixo para, dizer, $65a. As a quant, você pode estimar a probabilidade de uma auditoria IRS. E você pode colocar um número (um valor esperado em dólares) para a dor e o sofrimento que pode resultar a partir dele.

Vamos supor que você a calcular o risco de uma auditoria fiscal em cerca de 1% e decidir que vale a pena o risco de ser criativo em você reivindicações de dedução para a quantia de $ 15k. Você enviar a declaração de imposto e se sente apertado, presunçoso, sabendo que as chances de sua obtenção auditadas são bastante magro. Você está em uma grande surpresa. Você vai ficar bem e verdadeiramente enganado por aleatoriedade, e IRS quase certamente irá querer dar uma olhada em sua declaração de imposto.

A criatividade calculada de declarações fiscais raramente compensa. Seus cálculos de dor esperada e sofrimento nunca estão de acordo com a frequência com que você IRS auditorias. A probabilidade de uma auditoria é, de fato, muito maior se você tentar inflar suas deduções fiscais. Você pode culpá-Benford para este enviesamento na probabilidade empilhadas contra seu favor.

Ceticismo

Benford apresentou algo muito contra-intuitivo em seu artigo [1] em 1938. Ele fez a pergunta: Qual é a distribuição dos primeiros algarismos em qualquer numérico, dados da vida real? À primeira vista, a resposta parece óbvia. Todos os dígitos devem ter a mesma probabilidade. Por que haveria uma preferência para qualquer um dígito em dados aleatórios?

figure1
Figura 1. A freqüência de ocorrência dos primeiros dígitos nos valores nocionais das operações financeiras. A curva de distribuição é a púrpura previu. Note-se que as pequenas excessos em 1 e 5 acima da curva de roxo são esperados, porque as pessoas tendem a escolher nacionais como 1/5/10/50/100 milhão. O excesso na 8 também é esperado, pois é considerado um número de sorte na Ásia.

Benford mostrou que o primeiro dígito em um “que ocorre naturalmente” número é muito mais provável que seja 1 em vez de qualquer outro dígito. De fato, cada dígito tem uma probabilidade de ser específico na primeira posição. O dígito 1 tem a maior probabilidade; o dígito 2 é de cerca 40% menos provável de ser a primeira posição e assim por diante. O dígito 9 tem a menor probabilidade de todos; trata-se de 6 vezes menos probabilidade de estar na primeira posição.

Quando eu ouvi pela primeira vez deste primeiro fenômeno dígitos de um colega bem informado, Eu pensei que era estranho. Eu teria esperado ingenuamente para ver mais ou menos mesma freqüência de ocorrência para todos os dígitos de 1 para 9. Então eu coletei grande quantidade de dados financeiros, sobre 65000 números (como muitos como Excel permitiria), e olhou para o primeiro dígito. Achei Benford ser absolutamente certo, como mostrado na Figura 1.

A probabilidade de o primeiro dígito é muito longe de ser uniforme, como figura 1 espetáculos. A distribuição é, de fato, logarítmica. A probabilidade de qualquer dígito é dado por d log(1 + 1 / d), que é a curva de roxo na figura 1.

Esta distribuição assimétrica não é uma anomalia nos dados que aconteceu de eu olhar para. É a regra em qualquer “que ocorre naturalmente” dados. É a lei de Benford. Benford recolhida uma grande quantidade de dados que ocorre naturalmente (incluindo população, áreas de rios, As constantes físicas, números de reportagens de jornais e assim por diante) e mostrou que esta lei empírica é respeitado.

Simulação

Como um desenvolvedor quantitativa, Eu tendem a simular as coisas em um computador com a esperança de que eu possa ser capaz de ver os padrões que vão me ajudar a entender o problema. A primeira questão a ser resolvida na simulação é descobrir o que a distribuição de probabilidade de uma quantidade vaga como “números que ocorre naturalmente” Seria. Assim que eu tiver a distribuição, Posso gerar números e olhar para os primeiros dígitos para ver sua frequência de ocorrência.

Para um matemático ou um quant, não há nada mais natural que logaritmo natural. Assim, a primeira distribuição de candidato para os números naturais é algo como exp RV(RV), onde VR é uma variável aleatória uniformemente distribuída (entre zero e dez). A lógica por trás dessa escolha é uma suposição de que o número de dígitos em números de ocorrência natural é distribuído uniformemente entre zero e um limite superior.

De fato, você pode escolher outro, distribuições mais extravagantes para os números naturais. Eu tentei um par de outras distribuições que usam dois candidatos distribuídos uniformemente (entre zero e dez) variáveis ​​aleatórias RV1 e RV2: RV1 exp(RV2) e exp(RV1 RV2). Todas estas distribuições vir a ser bons palpites para os números naturais, como ilustrado na figura 2.

figure2
Figura 2. A distribuição dos primeiros dígitos na simulação de "ocorrência natural" números, em comparação com a previsão.

Os primeiros algarismos dos números que eu gerados seguir a lei de Benford para um grau de precisão misteriosa. Por que isso acontece? Uma coisa boa sobre simulação em computador é que você pode cavar mais fundo e olhar para os resultados intermediários. Por exemplo, em nossa primeira simulação com a distribuição: Exp RV(RV), nós podemos fazer a pergunta: Quais são os valores de RV para o qual temos uma certa primeiro dígito? A resposta é mostrada na Figura 3a. Note-se que os intervalos em RV que dão o primeiro dígito 1 são muito maiores do que aqueles que dão 9. Cerca de seis vezes maior, de fato, como esperado. Observe como padrão se repete como os números naturais simulados “rolar” a partir do primeiro dígito 9 para 1 (como um disparo odômetro).

figure3a
Figura 3a. Os intervalos em um distribuída uniformemente (entre 0 e 10) RV variável aleatória que resultam em diferentes primeiros dígitos exp RV(RV). Note-se que o primeiro dígito 1 ocorre com muito mais freqüência do que o resto, como esperado.

Uma tendência semelhante pode ser visto em nossa simulação apreciador com duas variáveis ​​aleatórias. As regiões em suas distribuições conjuntas que dão origem a vários primeiros dígitos em RV1 exp(RV2) são mostrados na Figura 3b. Observe as grandes áreas do azul profundo (correspondente ao primeiro dígito 1) e comparar a sua área para as faixas vermelhas (para o primeiro dígito 9).

figure3b
Figura 3b. As regiões na distribuição conjunta de duas distribuída uniformemente (entre 0 e 10) variáveis ​​aleatórias RV1 e RV2 que resultam em diferentes primeiros dígitos RV1 exp(RV2).

Este exercício dá-me a visão que eu estava esperando para recolher a partir da simulação. A razão para a preponderância de dígitos menores na primeira posição é que a distribuição de números de ocorrência natural é geralmente um afilamento; geralmente há um limite para o número, e à medida que se aproxima do limite superior, provavelmente a densidade torna-se menor e menor. Como você passar o primeiro dígito 9 e, em seguida, passar para 1, a sua gama de repente se torna muito maior.

Embora essa explicação é satisfatória, o fato surpreendente é que não importa como a probabilidade das distribuições naturais afunilamento. É quase como o teorema do limite central. Claro, esta pequena simulação há nenhuma prova rigorosa. Se você estiver procurando por uma prova rigorosa, você pode encontrá-lo no trabalho de Hill [3].

Fraud Detection

Apesar de nossos problemas de evasão fiscal pode ser atribuída a Benford, o primeiro fenômeno dígitos foi originalmente descrita em um artigo de Simon Newcomb [2] no American Journal of Mathematics, em 1881. Foi redescoberto por Frank Benford em 1938, a quem toda a glória (ou a culpa, dependendo de que lado da cerca você se encontra) fui. De fato, o verdadeiro culpado por trás de nossos problemas fiscais pode ter sido Theodore Colina. Ele trouxe a lei obscura para o centro das atenções em uma série de artigos na década de 1990. Ele até apresentou uma prova estatística [3] para o fenômeno.

Além de causar os nossos problemas fiscais pessoais, A lei de Benford pode desempenhar um papel crucial em muitas outras verificações de fraude e irregularidades [4]. Por exemplo, a primeira distribuição dígitos nos registros contábeis de uma empresa pode revelar crises de criatividade. Pedidos de reembolso do empregado, verificar valores, valores salariais, preços de supermercado — tudo está sujeito à lei de Benford. Ele pode até mesmo ser usado para detectar manipulações do mercado porque os primeiros dígitos dos preços das ações, por exemplo, devem seguir a distribuição Benford. Se não o fizerem, temos que ser cautelosos.

Moral

figure4
Figura 4. A distribuição conjunta dos primeiros e segundos dígitos numa simulação, mostrando os efeitos da correlação.

A moral da história é simples: Não ser criativo em suas declarações de imposto. Você será pego. Você pode pensar que você pode usar esta distribuição Benford para gerar um padrão de dedução fiscal mais realista. Mas este trabalho é mais difícil do que parece. Embora eu não tenha mencionado, existe uma correlação entre os dígitos. A probabilidade de o segundo ser dígitos 2, por exemplo, depende do que o primeiro dígito é. Observe a Figura 4, que mostra a estrutura de correlação em uma de minhas simulações.

Além, o sistema de IRS é provável que seja muito mais sofisticado. Por exemplo, eles poderiam estar usando uma avançados sistemas de mineração de dados ou de reconhecimento de padrões, tais como redes neurais ou máquinas de vetores de suporte. Lembre-se de dados que Receita Federal rotulados (declarações de impostos dos que tentaram em vão enganar, e os de bons cidadãos) e eles podem facilmente treinar programas classificador para pegar sonegadores brotamento. Se eles não estão usando esses algoritmos de reconhecimento de padrões sofisticados ainda, confia em mim, eles vão, depois de ver este artigo. Quando se trata de impostos, aleatoriedade sempre enganá-lo porque ele está contra você.

Mas, falando sério, A lei de Benford é uma ferramenta que nós temos que estar cientes de. Pode vir em nosso auxílio de formas inesperadas quando nos encontramos duvidar da autenticidade de todos os tipos de dados numéricos. A seleção com base na lei é fácil de implementar e de difícil contornar. É bastante simples e universal. Assim, Não vamos tentar vencer Benford; vamos juntar a ele em vez.

Referências
[1] Benford, F. “A Lei dos Números anômalos.” Proc. Amer. Phil. Soc. 78, 551-572, 1938.
[2] Newcomb, S. “Nota sobre a freqüência do uso de dígitos em números naturais.” Amer. J. Math. 4, 39-40, 1881.
[3] Colina, T. P. “A derivação de Estatística da Lei significativa dígitos.” Estado. Sci. 10, 354-363, 1996.
[4] Nigrini, M. “Eu tenho seu número.” J. Contabilidade 187, pp. 79-83, Maio 1999. http://www.aicpa.org/pubs/jofa/may1999/nigrini.htm.

Photo by LendingMemo

Comments