Benford en jou belasting

Niks is seker maar die dood en belasting, hulle sê. Met die dood voor, ons maak 'n paar vordering met al ons mediese wonders, ten minste in die uitstel indien nie eintlik dit te vermy. Maar wanneer dit kom by belasting, Ons het geen ander as 'n bietjie van kreatiwiteit verdediging in ons belastingopgawes.

Kom ons sê Uncle Sam dink jy skuld hom $ 75K. In jou eerlike mening, die billike figuur is oor die $ 50k merk. So jy kam deur jou belasting afgetrek kwitansies. Na ontelbare ure van harde werk, fyou bring die getal tot, sê, $65te. As 'n quant, jy kan die waarskynlikheid van 'n IRS oudit skat. En jy kan 'n aantal sit ('n verwagting waarde in dollars) om die pyn en lyding wat kan ontstaan ​​as gevolg van dit.

Kom ons veronderstel dat jy bereken die risiko van 'n belasting oudit te wees oor 1% en besluit dat dit die moeite werd om die risiko kreatief in jou aftrekking eise aan die bedrag van $ 15k te kry. Jy stuur die belastingopgawe en sit vas, selfvoldaan in die wete dat die kans van jou om geouditeer is redelik skraal. Jy is in vir 'n groot verrassing. Jy kry goed en werklik mislei deur willekeur, en IRS sal ongetwyfeld wil 'n nader kyk na jou belastingopgawe te neem.

Die berekende kreatiwiteit in belastingopgawes betaal selde af. Jou berekeninge van verwagte pyn en lyding is nooit in ooreenstemming met die frekwensie waarmee IRS oudits. Die waarskynlikheid van 'n oudit is, in die feit dat, veel hoër as jy probeer om jou belasting aftrekkings te blaas. Jy kan blameer Benford vir hierdie skewe in waarskynlikheid gestapel teen jou guns.

Skeptisisme

Benford aangebied iets baie teen-intuïtief in sy artikel [1] in 1938. Hy het die vraag gevra: Wat is die verspreiding van die eerste syfers in enige numeriese, werklike data? Met die eerste oogopslag, die antwoord blyk duidelik. Alle syfers moet dieselfde waarskynlikheid. Waarom sal daar 'n voorkeur aan enige een syfer in 'n ewekansige data?

figure1
Figuur 1. Die frekwensie van die voorkoms van die eerste syfers in die veronderstelde bedrae van finansiële transaksies. Die pers kurwe is die voorspelde verspreiding. Let daarop dat die effense vergrype by 1 en 5 bo die pers kurwe word verwag, want die mense is geneig om burgers soos om van te kies 1/5/10/50/100 miljoen. Die oorskot op 8 word ook verwag, want dit word beskou as 'n gelukkige nommer in Asië.

Benford het getoon dat die eerste syfer in 'n “natuurlik voorkom” getal is veel meer geneig om te wees 1 eerder as enige ander syfer. In werklikheid, elke syfer het 'n spesifieke kans om in die eerste posisie. Die syfer 1 het die hoogste waarskynlikheid; die syfer 2 oor 40% minder geneig om te wees en so aan in die eerste posisie. Die syfer 9 het die laagste waarskynlikheid van alle; dit gaan oor 6 keer minder geneig om te wees in die eerste posisie.

Toe ek die eerste keer gehoor van die eerste syfer verskynsel van 'n goed-ingeligte kollega, Ek het gedink dit was vreemd. Ek sou naïef het verwag ongeveer dieselfde frekwensie van voorkoms te sien vir alle syfers uit 1 te 9. So ek groot hoeveelheid van die finansiële data versamel, oor 65000 nommers (soveel as Excel sou toelaat), en kyk na die eerste syfer. Ek het Benford absoluut reg te wees, soos getoon in Figuur 1.

Die waarskynlikheid van die eerste syfer is redelik ver van uniform, as figuur 1 programme. Die verspreiding is, in die feit dat, logaritmiese. Die waarskynlikheid van 'n syfer d word deur log(1 + 1 / d), wat is die pers kurwe in figuur 1.

Hierdie skewe verdeling is nie 'n anomalie in die data wat ek gebeur om te kyk na. Dit is die reël in enige “natuurlik voorkom” data. Dit is die Benford se wet. Benford versamel 'n groot aantal data wat natuurlik voorkom (insluitende bevolking, gebiede van riviere, fisiese konstantes, getalle van koerantberigte en so aan) en het getoon dat hierdie empiriese wet gerespekteer.

Simulasie

As 'n kwantitatiewe ontwikkelaar, Ek is geneig om dinge na te boots op 'n rekenaar met die hoop dat ek dalk patrone wat my sal help om die probleem te verstaan ​​om te sien. Die eerste vraag sal in die simulasie is om uit te vind wat die waarskynlikheid verspreiding van 'n vae hoeveelheid soos “natuurlik voorkom nommers” sou wees. Sodra ek die verspreiding, Ek kan getalle genereer en te kyk na die eerste syfers hul frekwensie van voorkoms te sien.

Om 'n wiskundige of 'n quant, daar is niks meer natuurlik dat natuurlike logaritme. Dus is die eerste kandidaat verspreiding van getalle wat natuurlik voorkom is iets soos TV exp(RV), waar TV is 'n uniform versprei ewekansige veranderlike (tussen nul en tien). Die rasionaal agter hierdie keuse is 'n aanname dat die aantal van syfers in getalle natuurlik voorkom word eenvormig versprei tussen nul en 'n boonste limiet.

Inderdaad, jy ander kan kies, liefhebber verspreiding van getalle natuurlik voorkom. Ek het probeer om 'n paar van die ander kandidaat verklarings met behulp van twee eenvormig versprei (tussen nul en tien) ewekansige veranderlikes RV1 en RV2: RV1 exp(RV2) en ondervinding(RV1 RV2). Al hierdie verklarings draai uit te wees goeie raaiskote vir natuurlik voorkom nommers, soos geïllustreer in figuur 2.

figure2
Figuur 2. Die verspreiding van die eerste syfers in die simulasie van "natuurlik voorkom" nommers, in vergelyking met die voorspelling.

Die eerste syfers van die getalle wat ek volg gegenereer Benford se wet tot 'n ongelooflike graad van akkuraatheid. Waarom gebeur dit? Een goeie ding oor die rekenaar simulasie is dat jy dieper kan grawe en kyk na intermediêre resultate. Byvoorbeeld, in ons eerste simulasie met die verspreiding: RV exp(RV), Ons kan die vraag vra: Wat is die waardes van RV waarvoor ons 'n sekere eerste syfer? Die antwoord is in Figuur 3a. Let daarop dat die reekse in RV wat gee die eerste syfer 1 is veel groter as dié wat gee 9. Ongeveer ses keer groter, in die feit dat, soos verwag. Let op hoe patroon herhaal homself as die gesimuleerde natuurlike getalle “rol oor” van die eerste syfer van 9 te 1 (as 'n odometer struikel).

figure3a
Fig 3a. Die reekse in 'n uniform versprei (tussen 0 en 10) ewekansige veranderlike RV wat lei tot verskillende eerste syfers in RV exp(RV). Let daarop dat die eerste syfer van 1 kom baie meer dikwels as die res, soos verwag.

'N Soortgelyke tendens kan gesien word in ons liefhebber simulasie met twee ewekansige veranderlikes. Die streke in hul gesamentlike verdelings wat aanleiding gee tot verskillende eerste syfers gee RV1 exp(RV2) word getoon in Figuur 3b. Let op die groot hale van diep blou (ooreenstem met die eerste syfer van 1) en vergelyk hul gebied na die rooi hale (vir die eerste syfer 9).

figure3b
Figuur 3b. Die streke in die gesamentlike verdeling van twee eenvormig versprei (tussen 0 en 10) ewekansige veranderlikes RV1 en RV2 wat lei tot verskillende eerste syfers in RV1 exp(RV2).

Hierdie oefening gee my die insig wat ek hoop om te optel van die simulasie. Die rede vir die oorheersing van kleiner syfers in die eerste posisie is dat die verspreiding van getalle wat natuurlik voorkom, is gewoonlik 'n spits een; daar is gewoonlik 'n boonste limiet aan die aantal, en as jy nader aan die boonste grens, die waarskynlik digtheid word kleiner en kleiner. As jy verby die eerste syfer van 9 en dan rol oor te 1, skielik sy reeks is veel groter.

Terwyl hierdie verduideliking is bevredigend, die verrassende feit is dat dit nie saak maak hoe die waarskynlikheid van natuurlike verklarings mettertyd af. Dit is amper soos die sentrale limietstelling. Natuurlik, hierdie klein simulasie is nie streng bewys. As jy op soek is na 'n streng bewys, jy kan dit vind in Hill se werk [3].

Opsporing

Hoewel ons belastingontduiking probleme kan toegeskryf word aan Benford, die eerste syfer verskynsel is oorspronklik in 'n artikel deur Simon Newcomb [2] in die American Journal of Wiskunde in 1881. Dit is in herontdek deur Frank Benford 1938, aan wie al die eer (of die skuld, afhangende van watter kant van die draad jy jouself) gegaan. In werklikheid, die ware skuldige agter ons belasting ellende mag gewees het Theodore Hill. Hy het die duister wet na die kollig in 'n reeks artikels in die 1990's. Hy het selfs aangebied 'n statistiese bewys [3] vir die verskynsel.

Benewens veroorsaak ons ​​persoonlike belasting probleme, Benford se wet kan 'n belangrike rol in baie ander bedrog en onreëlmatigheid tjeks speel [4]. Byvoorbeeld, die eerste syfer verspreiding in die rekeningkundige inskrywings van 'n maatskappy kan aanvalle van kreatiwiteit openbaar. Werknemer vergoeding eise, check bedrae, salaris syfers, kruideniersware pryse — alles is onderworpe aan Benford se wet. Dit kan selfs gebruik word mark manipulasie te spoor, omdat die eerste syfers van aandele pryse, byvoorbeeld, is veronderstel om die Benford verspreiding te volg. As hulle dit nie doen nie, Ons moet versigtig wees.

Morele

figure4
Figuur 4. Die gesamentlike verspreiding van die eerste en tweede syfers in 'n simulasie, wys korrelasie effekte.

Die moraal van die storie is eenvoudig: Moet kreatief in jou belastingopgawes kry nie. Jy sal gevang kry. Jy mag dalk dink dat jy kan hierdie Benford verspreiding gebruik om 'n meer realistiese belastingaftrekking patroon te genereer. Maar hierdie werk is moeiliker as wat dit klink. Alhoewel ek nie noem dit, daar is 'n verband tussen die syfers. Die waarskynlikheid van die tweede syfer wese 2, byvoorbeeld, hang af van wat die eerste syfer is. Kyk na Figuur 4, wat toon die korrelasie struktuur in een van my simulasies.

Behalwe, die IRS stelsel is geneig om te wees baie meer gesofistikeerd. Byvoorbeeld, hulle kan wees gebruik van 'n gevorderde data-ontginning of patroon erkenning stelsels soos neurale netwerke of ondersteuning vektor masjiene. Onthou dat IRS het gemerk data (belastingopgawes van diegene wat onsuksesvol probeer om te bedrieg, en dié van goeie burgers) en hulle kan maklik trein te vang ontluikende belasting evaders klassifiseerder programme. As hulle nie die gebruik van hierdie gesofistikeerde patroon erkenning algoritmes nog, vertrou my, hulle sal, nadat hy hierdie artikel. Wanneer dit kom by belasting, willekeur sal jou altyd gek, want dit is gestapel teen jou.

Maar ernstig, Benford se wet is 'n instrument wat ons het om bewus te wees. Dit kan tot ons hulp in onverwagse maniere kom wanneer ons onsself twyfel die egtheid van alle soorte numeriese data. 'N tjek wat gebaseer is op die wet is maklik om te implementeer en hard te omseil. Dit is eenvoudig en redelik universele. So, laat ons nie probeer Benford te klop; laat ons saam met hom in plaas.

Verwysings
[1] Benford, F. “Die wet van Anomale Nommers.” Proc. Amer. Phil. Soc. 78, 551-572, 1938.
[2] Newcomb, S. “Let op die frekwensie van die gebruik van syfers in natuurlike getalle.” Amer. J. Wiskunde. 4, 39-40, 1881.
[3] Hill, T. P. “'N Statistiese afleiding van die belangrike-Digit Wet.” Staat. Sci. 10, 354-363, 1996.
[4] Nigrini, M. “Ek het jou nommer.” J. Rekeningkunde 187, pp. 79-83, Mei 1999. http://www.aicpa.org/pubs/jofa/may1999/nigrini.htm.

Photo by LendingMemo

Comments