Benford at ang Iyong Mga Buwis

Wala ay ilang ngunit kamatayan at buwis, sinasabi nila. Sa harap ng kamatayan, nagsasagawa kami ng ilang mga inroads sa lahat ng aming mga marvels medikal, hindi bababa sa postponing ito kung hindi tunay na pag-iwas ito. Ngunit pagdating sa mga buwis, wala kaming pagtatanggol maliban sa isang bit ng pagkamalikhain sa aming pagbalik ng buwis.

Sabihin nating Uncle Sam sa palagay dapat mong bayaran sa kanya $ 75k. Sa iyong matapat na opinyon, ang patas na bilang ay ang tungkol sa $ 50k mark. Kaya magsuklay ka sa pamamagitan ng iyong resibo sa buwis deductible. Matapos ang hindi mabilang na mga oras ng matapang na trabaho, fyou dalhin ang numero pababa sa, sabihin, $65upang. Bilang isang quant, maaari mong matantya ang posibilidad ng isang IRS audit. At maaari kang maglagay ng numero (isang halaga pag-asa sa dolyar) sa sakit at paghihirap na maaaring magresulta mula dito.

Ipagpalagay na makalkula mo ang panganib ng isang pag-audit sa buwis upang maging tungkol sa Hayaan 1% at nagpasya na ito ay nagkakahalaga ang panganib upang makakuha ng creative sa iyo kabawasan mga claim sa tune ng $ 15k. Magpadala sa iyo sa tax return at umupo nang mahigpit, smug sa kaalaman na ang mga logro sa iyong mga nagsisimula pa na-audit ay medyo slim. Ikaw ay nasa para sa isang malaking sorpresa. Ikaw ay makakuha ng mahusay at tunay na magpaloko sa pamamagitan ng randomness, at IRS ay halos tiyak na nais na kumuha ng isang mas malapitan naming tingnan sa iyong tax return.

Ang kinakalkula pagkamalikhain sa pagbalik ng buwis bihira ang nagbabayad off. Ang iyong mga kalkulasyon ng inaasahang sakit at paghihirap ay hindi kailanman pare-pareho sa dalas na kung saan IRS audit sa iyo. Ang posibilidad ng isang pag-audit ay, sa katunayan, mas mataas kung susubukan mo upang pataasin ang iyong mga pagbabawas ng buwis. Maaari mong sisihin Benford para sa skew sa posibilidad isinalansan laban sa iyong pabor.

Pag-aalinlangan

Isang bagay na napaka counter-intuitive na ipinakita Benford sa kanyang artikulo [1] sa 1938. Tinanong ang tanong niya: Ano ang pamamahagi ng unang digit sa anumang numeric, data real-buhay? Sa unang tingin, Mukhang halata ang sagot. Ang lahat ng mga digit dapat na may parehong bagay na maaaring mangyari. Bakit mayroong isang kagustuhan sa anuman sa isa digit sa random na data?

figure1
Figure 1. Ang dalas ng paglitaw ng unang digit sa notional halaga ng mga financial transactions. Ang mga lilang curve ay ang hinulaang pamamahagi. Tandaan na ang bahagyang excesses sa 1 at 5 sa itaas ng mga lilang curve ay inaasahan dahil ang mga tao ay may posibilidad na pumili nationals tulad ng 1/5/10/50/100 milyon. Ang labis sa 8 Inaasahan din sapagkat ito ay itinuturing na isang masuwerteng numero sa Asya.

Nagpakita ang Benford na ang unang digit sa isang “natural na nagaganap” bilang na ito ay mas malamang na maging 1 sa halip na ang anumang iba pang mga digit. Sa katunayan, bawat digit ay may isang tiyak na posibilidad ng pagiging sa unang posisyon. Digit ang 1 ang may pinakamataas na posibilidad; ang digit 2 ay tungkol sa 40% malabong maging sa unang posisyon at iba pa. Digit ang 9 May pinakamababang posibilidad ng lahat; ito ay tungkol sa 6 beses na mas malamang na maging sa unang posisyon.

Nang una ko narinig ng unang digit na phenomenon mula sa isang mahusay na kaalaman kasamahan, Naisip kong iyon ay kakaiba. Ko sana naively inaasahan upang makita ang halos parehong dalas ng paglitaw para sa lahat ng mga digit mula sa 1 upang 9. Kaya nakolekta ko malaking halaga ng pampinansyal na data, tungkol sa 65000 mga numero ng (ng marami ayon sa Excel ay pinapahintulutan), at tumingin sa unang digit. May nakita akong Benford upang maging ganap na karapatan, tulad ng ipinapakita sa Figure 1.

Ang posibilidad ng unang digit ay medyo malayo mula sa uniporme, bilang Figure 1 mga palabas. Ang pamamahagi ay, sa katunayan, logarithmic. Ang posibilidad ng anumang digit na d ay ibinibigay sa pamamagitan ng pag-log(1 + 1 / d), kung saan ay ang mga lilang curve sa Figure 1.

Ito skewed pamamahagi ay hindi isang pagkakaiba sa data na nangyari ko upang tumingin sa. Ito ay ang panuntunan sa anumang “natural na nagaganap” data. Ito ay ang batas ni Benford. Benford nakolekta ng isang malaking bilang ng mga natural na nagaganap data (kabilang ang populasyon, lugar ng ilog, pisikal na constants, numero mula sa mga ulat sa pahayagan at iba pa) at nagpakita na ito ang praktikal na batas ay iginagalang.

Simulation

Bilang isang dami ng nag-develop, May posibilidad ko upang gayahin ang mga bagay sa isang computer na may pag-asa na maaaring ko magagawang makita ang mga pattern na makakatulong sa akin na maunawaan ang problema. Ang unang tanong sa naisaayos na sa simulation ay upang malaman kung anong mga bagay na maaaring mangyari sa pamamahagi ng isang malabo dami tulad ng “natural na nagaganap mga numero” ay magiging. Sa sandaling mayroon ko ang pamamahagi, Maaari ba akong bumuo ng mga numero at tumingin sa unang digit upang makita ang kanilang dalas ng paglitaw.

Upang isang mathematician o isang quant, doon ay walang higit pang mga natural na logarithm natural. Kaya ang unang pamamahagi kandidato para sa natural na nagaganap mga numero ay isang bagay tulad ng RV Exp(RV), kung saan RV ay isang pantay na ipinamamahagi sa mga random na variable (sa pagitan ng zero at sampung). Ang rationale sa likod ng pagpipiliang ito ay isang palagay na ang bilang ng mga digit sa natural na nagaganap mga numero ay pantay na ipinamamahagi sa pagitan ng zero at isang pang-itaas na limitasyon.

Sa katunayan, maaari kang pumili ng iba pang mga, fancier distribusyon para sa natural na nagaganap mga numero. Sinubukan ko ng ilang iba pang mga distribusyon na kandidato gamit ang dalawang pantay na ipinamamahagi (sa pagitan ng zero at sampung) random na mga variable RV1 at RV2: RV1 Exp(RV2) at Exp(RV1 RV2). Ang lahat ng mga distribusyon na i-out na maging mahusay guesses para sa natural na nagaganap mga numero, bilang isinalarawan sa Figure 2.

figure2
Figure 2. Ang pamamahagi ng unang digit sa simulation ng "natural na nagaganap" mga numero, kumpara sa hula.

Ang unang digit ng numero na binuo ko sundin ang batas Benford sa isang uncanny na antas ng katumpakan. Bakit ang mangyayari ito? Isang magandang bagay tungkol sa computer na simulation ay maaari mong kumuha sa lupa mas malalim at tumingin sa intermediate na resulta. Halimbawa, sa aming unang simulation kasama ng pamamahagi: RV Exp(RV), maaari naming hilingin sa tanong: Ano ang mga halaga ng RV para sa kung saan makakakuha tayo ng isang tiyak na unang digit? Ang sagot ay ipinapakita sa Figure 3a. Tandaan na ang mga saklaw sa RV na nagbibigay sa unang digit 1 ay higit na mas malaki kaysa sa mga na nagbibigay sa 9. Tungkol sa anim na beses na mas malaki, sa katunayan, tulad ng inaasahan. Pansinin kung paano uulit mismo pattern bilang ang simulated natural na mga numero “gumulong sa ibabaw” mula sa unang digit ng 9 upang 1 (bilang isang odometer tripping).

figure3a
Figure 3a. Ang mga saklaw sa isang pantay na ipinamamahagi (sa pagitan ng 0 at 10) random na variable RV na nagresulta sa iba't ibang mga unang digit sa RV Exp(RV). Tandaan na ang unang digit ng 1 nangyayari mas madalas kaysa sa iba pang bahagi, tulad ng inaasahan.

Ang isang katulad na kalakaran ay maaaring makita sa aming fancier simulation na may dalawang random variable. Ang mga rehiyon sa kanilang magkasanib na mga distribusyon na nagbibigay sa pagtaas sa iba't-ibang mga unang digit sa RV1 Exp(RV2) ay ipinapakita sa Figure 3b. Pansinin ang malalaking swathes ng malalim na asul (naaayon sa unang digit ng 1) at ihambing ang kanilang mga lugar sa pulang swathes (para sa unang digit 9).

figure3b
Figure 3b. Ang mga rehiyon sa magkasanib na pamamahagi ng dalawang pantay na ipinamamahagi (sa pagitan ng 0 at 10) random na mga variable RV1 at RV2 na nagresulta sa iba't ibang mga unang digit sa RV1 Exp(RV2).

Binibigyan ako ng pagsasanay na ito ng pananaw na ako ay umaasang makakuha mula sa simulation. Ang dahilan para sa preponderance ng mas maliit na mga digit sa unang posisyon ay na ang pamamahagi ng mga natural na nagaganap mga numero ay kadalasan ay isa tapering; doon ay karaniwang isang pang-itaas na limitasyon sa mga bilang, at habang ikaw ay mas malapit sa itaas na limitasyon, marahil ang density ay nagiging mas maliit at mas maliit. Bilang pumasa ka sa unang digit ng 9 at pagkatapos ay i-roll sa ibabaw sa 1, biglang saklaw nito ay nagiging mas mas malaki.

Habang paliwanag na ito ay satisfying, ang nakakagulat na katotohanan ay tumutulong ito ay hindi mahalaga kung paano ang posibilidad ng natural na mga distribusyon na tapers off. Ito ay halos tulad ng sa central limit theorem. Oo naman, ito kaunti simulation ay hindi mahigpit na patunay. Kung naghahanap ka para sa isang mahigpit na patunay, maaari mong mahanap ito sa trabaho Hill ni [3].

Fraud Detection

Bagaman ang aming evasion problema sa buwis ay maaaring maiugnay sa Benford, ang unang digit na phenomenon ay orihinal na inilarawan sa isang artikulo sa pamamagitan ng Simon Newcomb [2] sa sa American Journal ng Mathematics sa 1881. Ito ay muling natuklasan sa pamamagitan ng Frank Benford sa 1938, kung kanino ang lahat ng kaluwalhatian (o ang masisi, depende sa kung aling bahagi ng bakod mahanap mo ang iyong sarili) nagpunta. Sa katunayan, ang tunay na salarin sa likod ng aming mga woes sa buwis ay maaaring nasobrahan Theodore Hill. Siya nagdala ng nakatagong mga batas sa limelight sa mga serye ng mga artikulo sa 1990. Siya ay nagpakita kahit isang statistical patunay [3] para sa phenomenon.

Bilang karagdagan sa na nagiging sanhi ng aming mga personal na problema sa buwis, Batas Benford ay maaaring i-play ang isang mahalagang papel sa maraming iba pang mga pagsusuri sa pandaraya at iregularidad [4]. Halimbawa, ang unang pamamahagi digit sa ang mga entry ng accounting ng isang kumpanya ay maaaring magbunyag ng bouts ng pagkamalikhain. Mga claim pagbabayad Employee, suriin ang mga halaga, suweldo figure, mga presyo ng grocery — lahat ng bagay ay napapailalim sa batas Benford ni. Kahit na ito ay maaaring magamit upang makita manipulations market dahil sa unang digit ng mga presyo ng stock, halimbawa, ay dapat na sundin ang mga Benford pamamahagi. Kung gagawin nila hindi, mayroon kaming upang maging maingat.

Moral

figure4
Figure 4. Ang magkasanib na pamamahagi ng una at ikalawang mga digit sa isang simulation, na nagpapakita ng ugnayan effect.

Ang moral na ng kuwento ay simple: Huwag maging malikhain sa iyong pagbalik ng buwis. Ikaw ay mahuli. Maaari mong isipin na maaari mong gamitin ito Benford pamamahagi upang bumuo ng isang mas makatotohanang pattern bawas sa buwis. Ngunit ito trabaho ay mas mahirap kaysa sa tunog. Kahit na hindi ko babanggitin ito, doon ay isang ugnayan sa pagitan ng mga digit. Ang posibilidad ng ikalawang digit na pagkatao 2, halimbawa, Depende sa kung ano ang unang digit ay. Tumingin sa Figure 4, na nagpapakita ng istraktura ugnayan sa isa sa aking mga simulation.

Bukod, IRS sistema ay malamang na maging malayo mas sopistikadong. Halimbawa, maaari silang maging ang paggamit ng isang advanced data mining o pagkilala pattern system tulad ng neural network o suporta vector machine. Tandaan na ang IRS ay may label na data (ang pagbalik ng buwis ng mga unsuccessfully sinubukang cheat, at doon sa mabuting mamamayan) at madali nilang magsanay classifier programa upang mahuli budding evaders ng buwis. Kung ang mga ito ay hindi pa gumagamit ng mga sopistikadong mga algorithm sa pagkilala ng pattern, pinagkakatiwalaan sa akin, gagawin nila, pagkatapos nakikita ang artikulong ito. Pagdating sa buwis, randomness ay palaging lokohin mo dahil ito ay isinalansan laban sa iyo.

Ngunit sineseryoso, Batas Benford ay isang tool na mayroon kami upang magkaroon ng kamalayan ng. Maaari itong dumating sa aming aid sa mga hindi inaasahang paraan kapag nakita namin ang ating mga sarili doubting ang pagiging tunay ng lahat ng uri ng data ng numero. Isang tseke batay sa mga batas ay madaling ipatupad at mahirap upang iiwas. Ito ay simple at walang kinikilingan unibersal. Kaya, hindi na subukan upang matalo Benford hayaan; sumali sa kanya sa halip ipaalam.

Mga sanggunian
[1] Benford, F. “Ang Batas ng Anomalous Mga Numero.” Proc. Amer. Phil. Soc. 78, 551-572, 1938.
[2] Newcomb, S. “Tandaan sa Dalas ng Paggamit ng Mga Digit sa Natural na Mga Numero.” Amer. J. Math. 4, 39-40, 1881.
[3] Hill, T. P. “Isang Statistical Derivation ng Batas ang Mga kapansin-pansing-Digit na.” Estado. Sci. 10, 354-363, 1996.
[4] Nigrini, M. “Nakuha ko ang iyong Numero.” J. Accountancy 187, pp. 79-83, Mayo 1999. http://www.aicpa.org/pubs/jofa/may1999/nigrini.htm.

Photo by LendingMemo

Comments