Benford e le vostre tasse

Nulla è certo, ma la morte e le tasse, dicono. Sul fronte morte, stiamo facendo alcune incursioni con tutte le nostre meraviglie mediche, almeno, se non rinviare effettivamente evitarlo. Ma quando si tratta di tasse, non abbiamo difesa altro che un po 'di creatività nelle nostre dichiarazioni dei redditi.

Diciamo Zio Sam pensa che tu gli devi $ 75k. A vostro parere onesto, la figura fiera è di circa il contrassegno $ 50k. Così si spulciare le ricevute fiscali deducibili. Dopo innumerevoli ore di duro lavoro, fyou portare il numero verso il basso per, dire, $65a. Come quant, è possibile stimare la probabilità di un controllo fiscale. E si può mettere un numero (un valore di aspettazione in dollari) il dolore e la sofferenza che può derivare da esso.

Supponiamo che si calcola il rischio di una verifica fiscale a circa 1% e decidere che vale la pena il rischio di essere creativi in ​​voi rivendicazioni detrazione per la somma di $ 15k. Si invia nella dichiarazione dei redditi e tenere duro, compiaciuta nella consapevolezza che le probabilità di ottenere il vostro controllati sono abbastanza sottile. Sei in una grande sorpresa. Otterrete veramente bene e ingannare dalla casualità, e IRS sarà quasi certamente voglia di dare un'occhiata più da vicino la vostra dichiarazione dei redditi.

La creatività calcolato dichiarazioni dei redditi paga raramente fuori. I vostri calcoli di dolore e sofferenza attesi non sono mai coerenti con la frequenza con cui IRS audit. La probabilità di un audit è, infatti, molto più alto se si tenta di gonfiare i vostri detrazioni fiscali. Si può biasimare Benford per questa inclinazione in probabilità accatastati contro il vostro favore.

Scetticismo

Benford ha presentato qualcosa di molto contro-intuitivo nel suo articolo [1] in 1938. Ha chiesto la domanda: Qual è la distribuzione delle prime cifre in alcun numerico, dati della vita reale? A prima vista, la risposta sembra ovvia. Tutte le cifre devono avere la stessa probabilità. Perché ci sarebbe una preferenza a qualsiasi cifra in dati casuali?

figure1
Figura 1. La frequenza di comparsa delle prime cifre negli importi nozionali delle operazioni finanziarie. La curva viola è la distribuzione predetto. Si noti che le lievi eccessi a 1 e 5 al di sopra della curva viola sono attesi perché le persone tendono a scegliere come cittadini 1/5/10/50/100 milione. L'eccesso a 8 è previsto anche perché è considerato un numero fortunato in Asia.

Benford ha dimostrato che la prima cifra in un “naturale” numero è molto più probabile che sia 1 piuttosto che qualsiasi altra cifra. Infatti, ogni cifra ha una specifica probabilità di essere in prima posizione. La cifra 1 ha la più alta probabilità; la cifra 2 è di circa 40% meno probabilità di essere nella prima posizione e così via. La cifra 9 ha la più bassa probabilità di tutti; si tratta 6 volte meno probabilità di essere in prima posizione.

Quando ho sentito parlare di questo fenomeno prima cifra da un collega ben informato, Ho pensato che fosse strano. Mi sarei aspettato di vedere ingenuamente o meno stessa frequenza di occorrenza di tutte le cifre da 1 a 9. Così ho raccolto grandi quantità di dati finanziari, circa 65000 numeri (come molti come Excel permetterebbe), e guardò la prima cifra. Ho trovato Benford per essere assolutamente ragione, come mostrato nella Figura 1.

La probabilità che la prima cifra è abbastanza lontano da uniforme, come figura 1 spettacoli. La distribuzione è, infatti, logaritmica. La probabilità di ogni cifra d è data da log(1 + 1 / d), che è la curva viola nella figura 1.

Questa distribuzione asimmetrica non è un'anomalia nei dati che mi è capitato di guardare. E 'la regola in qualsiasi “naturale” dati. E 'la legge di Benford. Benford raccolto un gran numero di dati presenti in natura (tra cui la popolazione, aree di fiumi, costanti fisiche, numeri da giornali e così via) e ha dimostrato che questa legge empirica è rispettata.

Simulazione

Come sviluppatore quantitativa, Io tendo a simulare le cose su un computer con la speranza che io possa essere in grado di vedere i modelli che aiuteranno a capire il problema. La prima questione da risolvere nella simulazione è quello di capire ciò che la distribuzione di probabilità di una quantità vaga come “naturale numeri” sarebbe. Una volta che ho la distribuzione, Posso generare numeri e guardare le prime cifre per vedere la loro frequenza di occorrenza.

Per un matematico o un quant, non c'è nulla di più naturale che logaritmo naturale. Quindi la prima distribuzione candidato per i numeri naturali è qualcosa di simile RV exp(RV), dove RV è una variabile casuale uniformemente distribuito (tra zero e dieci). La logica dietro questa scelta è un presupposto che il numero di cifre in numeri naturali è distribuita uniformemente tra zero e un limite superiore.

Infatti, potete scegliere l'altro, distribuzioni amatore per i numeri naturali. Ho provato un paio di altre distribuzioni che utilizzano due candidati distribuito uniformemente (tra zero e dieci) variabili casuali RV1 e RV2: RV1 exp(RV2) e exp(RV1 RV2). Tutte queste distribuzioni risultano essere buone ipotesi di naturale numeri, come illustrato nella figura 2.

figure2
Figura 2. La distribuzione delle prime cifre nella simulazione di "naturale" numeri, rispetto alla previsione.

Le prime cifre dei numeri che ho generato seguire la legge di Benford ad un grado di precisione inquietante. Perché questo accada? Una cosa buona di simulazione al computer è che si può scavare più a fondo e guardare i risultati intermedi. Per esempio, nella nostra prima simulazione con la distribuzione: RV exp(RV), possiamo porre la domanda: Quali sono i valori di RV per i quali otteniamo un certo prima cifra? La risposta è mostrato in figura 3a. Si noti che gli intervalli di RV che danno la prima cifra 1 sono molto più grandi di quelle che danno 9. Circa sei volte più grande, infatti, come previsto. Notate come schema si ripete, come i numeri naturali simulati “rotolare” dalla prima cifra del 9 a 1 (come un intervento contachilometri).

figure3a
Figura 3a. Gli intervalli in una distribuiti uniformemente (tra 0 e 10) casuale RV variabile che si traducono in diverse prime cifre RV exp(RV). Si noti che la prima cifra del 1 si verifica molto più frequentemente rispetto al resto, come previsto.

Una tendenza analoga può essere visto nella nostra simulazione più elaborato con due variabili casuali. Le regioni nelle loro distribuzioni congiunte che danno origine a diverse prime cifre in RV1 exp(RV2) sono mostrate in Figura 3b. Notare le ampie fasce di blu profondo (corrispondente alla prima cifra del 1) e confrontare la loro zona per le fasce rosse (per la prima cifra 9).

figure3b
Figura 3b. Le regioni nella distribuzione congiunta di due uniformemente distribuite (tra 0 e 10) variabili casuali RV1 e RV2 che si traducono in diverse prime cifre RV1 exp(RV2).

Questo esercizio mi dà l'intuizione speravo di raccogliere dalla simulazione. La ragione per la preponderanza di cifre più piccole nella prima posizione è che la distribuzione dei numeri naturali è solitamente uno rastremata; di solito c'è un limite superiore al numero, e come ci si avvicina al limite superiore, probabilmente la densità diventa sempre più piccola. Come si passa la prima cifra del 9 e poi rotolare verso 1, improvvisamente la sua gamma diventa molto più grande.

Anche se questa spiegazione è soddisfacente, il fatto sorprendente è che non importa quanto la probabilità di distribuzioni naturali assottiglia. E 'quasi come il teorema del limite centrale. Naturalmente, questa piccola simulazione è alcuna prova rigorosa. Se siete alla ricerca di una dimostrazione rigorosa, lo si può trovare nel lavoro di Hill [3].

Fraud Detection

Anche se i nostri problemi di evasione fiscale può essere attribuito a Benford, il primo fenomeno cifra è stata originariamente descritta in un articolo di Simon Newcomb [2] in American Journal of Mathematics in 1881. E 'stato riscoperto da Frank Benford in 1938, al quale tutta la gloria (o la colpa, a seconda di quale parte della barricata ci si trova) è andato. Infatti, il vero colpevole dietro i nostri guai fiscali potrebbe essere stato Theodore Hill. Ha portato la legge oscura alla ribalta in una serie di articoli nel 1990. Ha anche presentato una prova statistica [3] per il fenomeno.

Oltre a causare i nostri problemi fiscali personali, La legge di Benford può svolgere un ruolo cruciale in molti altri controlli di frode e irregolarità [4]. Per esempio, la prima distribuzione cifre nelle scritture contabili di una società può rivelare attacchi di creatività. Richieste di rimborso dei dipendenti, controllare gli importi, figure stipendio, prezzi alimentari — tutto è soggetto alla legge di Benford. Può anche essere utilizzato per rilevare manipolazioni di mercato, perché le prime cifre dei prezzi delle azioni, per esempio, si suppone di seguire la distribuzione di Benford. Se non lo fanno, dobbiamo essere cauti.

Morale

figure4
Figura 4. La distribuzione congiunta di primo e secondo cifre in una simulazione, mostrando effetti di correlazione.

La morale della storia è semplice: Non essere creativi nelle vostre dichiarazioni dei redditi. Otterrete catturato. Si potrebbe pensare che è possibile utilizzare questa distribuzione Benford per generare un modello di detrazione fiscale più realistico. Ma questo lavoro è più difficile di quanto sembri. Anche se non ho menzionato che, vi è una correlazione tra le cifre. La probabilità che il secondo essere cifre 2, per esempio, dipende da ciò che la prima cifra è. Guardate la Figura 4, che mostra la struttura di correlazione in una delle mie simulazioni.

Oltre a, il sistema IRS è probabile che sia molto più sofisticati. Per esempio, potrebbero essere utilizzando un avanzato sistemi di data mining e pattern recognition quali le reti neurali o support vector machines. Ricordate che i dati IRS ha etichettati (dichiarazioni dei redditi di coloro che invano hanno cercato di truffare, e quelli dei buoni cittadini) e possono facilmente formare programmi classificatore per prendere in erba evasori fiscali. Se non sono ancora utilizzano questi algoritmi di pattern recognition sofisticati, fidati di me, lo faranno, dopo aver visto questo articolo. Quando si tratta di tasse, casualità sempre ingannare perché è accatastato contro di voi.

Ma sul serio, La legge di Benford è uno strumento che dobbiamo essere consapevoli di. Essa può venire in nostro aiuto in modi inaspettati quando ci troviamo dubitare l'autenticità di tutti i tipi di dati numerici. Un controllo basato sulla legge è facile da implementare e difficile da aggirare. È semplice e abbastanza universale. Così, cerchiamo di non cercare di battere Benford; cerchiamo di unirsi a lui, invece.

Riferimenti
[1] Benford, F. “La legge dei numeri anomali.” Proc. Amer. Phil. Soc. 78, 551-572, 1938.
[2] Newcomb, S. “Nota sulla frequenza dell'uso di cifre in numeri naturali.” Amer. J. Matematica. 4, 39-40, 1881.
[3] Collina, T. P. “Una derivazione statistica della Legge significativo cifre.” Stato. Sci. 10, 354-363, 1996.
[4] Nigrini, M. “Ho avuto il tuo numero.” J. Contabilità 187, pp. 79-83, Maggio 1999. http://www.aicpa.org/pubs/jofa/may1999/nigrini.htm.

Photo by LendingMemo

Comments