Benford ve Kişisel Vergi

Hiçbir şey belli değil ölüm ve vergiler olduğunu, diyorlar. Ölüm cephesinde, hepimiz tıbbi mucizelerle bazı gedikler yapıyoruz, en azından ertelenmesi olmasa aslında kaçınarak. Ama vergilere gelince, bizim vergi iadeleri yaratıcılık biraz dışında hiçbir savunma var.

Sam Amca ona $ 75k borcum düşünüyor diyelim. Senin dürüst bence, adil rakam $ 50k işareti hakkında. Yani vergi düşülebilir gelirleri sayesinde tarak. Zor iş sayısız saat sonra, fyou aşağı sayısı getirmek, demek, $65için. Bir kant, Eğer bir IRS denetim olasılığını tahmin edebilirsiniz. Ve bir numara koyabilirsiniz (dolar bir beklenti değeri) ondan neden olabilir ağrı ve acı.

Diyelim ki ilgili olması bir vergi denetim riski hesaplamak olduğunu varsayalım 1% ve $ 15k ayarlamak için size kesinti iddiaları yaratıcı almak için riske değer olduğuna karar. Sen vergi beyannamesi göndermek ve otur, bilgide kendini beğenmiş denetlenme senin ihtimali oldukça zayıf olduğunu. Büyük bir sürpriz bekliyor. Sen iyi ve gerçekten rastgeleliğin aldatmasın alacak, ve IRS neredeyse kesinlikle vergi iadesi yakından bakmak isteyeceksiniz.

Vergisi beyannamelerinde hesaplanan yaratıcılık nadiren öder. Beklenen ağrı ve acı hesaplamalar IRS sizi denetlemesi ile frekansla tutarlı asla. Bir denetim olasılığı, aslında, Eğer vergi indirimi şişirmeye çalışırsanız çok daha yüksek. Sen aleyhine yığılmış olasılık bu çarpıklık için Benford suçlayabilir.

Şüphecilik

Benford yazısında çok sezgilere şeyler sundu [1] içinde 1938. O soruyu sordu: Herhangi bir sayısal yılında ilk basamak dağılımı nedir, gerçek hayat verileri? İlk bakışta, cevap çok açık görünüyor. Tüm rakam aynı olasılığı olmalıdır. Neden rastgele veriler herhangi bir hanede bir tercih olacaktır?

figure1
Şekil 1. Mali işlemlerin tutarları ilk basamak oluşma sıklığı. Mor eğri tahmin dağıtım. Not hafif aşırılıkları da 1 ve 5 insanlar gibi vatandaşlarını seçmek eğilimindedir çünkü mor eğrinin üstünde bekleniyor 1/5/10/50/100 milyon. Fazlalıkla 8 Asya'da şanslı bir sayı olarak kabul edilir, çünkü aynı zamanda bekleniyor.

Benford gösterdi bir ilk basamak “doğal olarak meydana gelen” sayı çok daha muhtemeldir 1 yerine başka bir rakam daha. Aslında, Her bir basamak, birinci pozisyonda olan belirli bir olasılığa sahiptir. Basamaklı 1 olasılığının çok yüksek olduğu; basamak 2 hakkında 40% ve böylece, birinci pozisyonda olması olasılığı daha azdır. Basamaklı 9 Her düşük olasılık vardır; Bu ilgilidir 6 birinci pozisyonda olması daha az olasılıkla kez.

Ben ilk iyi bilgilendirilmiş bir meslektaşım bu ilk haneli fenomenin duyduğunda, Garip olduğunu düşündüm. Ben safça tüm basamak için oluşma kabaca aynı frekansı görmek bekleniyor olurdu 1 karşı 9. Yani finansal verileri büyük miktarda toplanan, hakkında 65000 numaraları (Excel izin verecek kadar), ve ilk basamağın baktı. Ben Benford kesinlikle doğru bulundu, Şekilde gösterildiği gibi 1.

İlk hanenin olasılığı üniforması oldukça uzakta, Şekil olarak 1 gösterileri. Dağılımı, aslında, logaritmik. Herhangi bir sayı d olasılığı log tarafından verilir(1 + 1 / d), bu durum Şekil mor eğrisidir 1.

Bu çarpık dağılım ben bakmak oldu verilerin bir anomali değil. Bu herhangi bir kural “doğal olarak meydana gelen” veri. Bu Benford kanunu. Benford doğal olarak meydana gelen verilerin çok sayıda toplanan (dahil nüfus, nehirler alanlar, fiziksel sabitleri, böylece gazete raporları ve numaralar) ve bu ampirik yasa saygı gösterdi.

Simülasyon

Kantitatif geliştiricisi olarak, Ben bana sorunu anlamanıza yardımcı olacaktır desenleri görmek mümkün olabilir umuduyla bir bilgisayar şeyler taklit eğilimindedir. Simülasyonda halledilmesi gereken ilk soru anlamaya ne belirsiz bir miktar olasılık dağılımı gibi “doğal sayılar meydana” olurdu. Ben dağılıma sahip kez, Ben sayılar üretmek ve gerçekleşme sıklığını görmek için ilk basamak bakabilirsiniz.

Bir matematikçi ya da bir kant için, doğal logaritma o daha doğal bir şey yok. Bu yüzden doğal olarak oluşan sayılar için ilk aday dağıtım RV exp gibi bir şey(RV), nerede RV eşit olarak dağıtılan rasgele değişkendir (sıfır ila on arasında). Bu seçimin ardındaki mantık doğal olarak oluşan sayıların basamak sayısı eşit sıfır ve bir üst sınır arasında dağıtılır bir varsayım.

Gerçekten, diğer seçebilirsiniz, doğal olarak ortaya çıkan numaralar besleyicisi dağılımları. Ben ikisini kullanarak diğer aday dağıtımları bir çift düzgün dağılmış çalıştı (sıfır ila on arasında) rasgele değişkenler RV1 ve RV2: RV1 exp(RV2) ve exp(RV1 RV2). Tüm bu dağılımlar doğal sayıları ortaya çıkan iyi tahmin olduğu ortaya çevirmek, Şekil l'de gösterilen gibi 2.

figure2
Şekil 2. Bir simülasyon ilk basamak dağılımı sayıda "doğal olarak oluşan", öngörüsüne göre.

Ben doğruluk esrarengiz bir dereceye kadar Benford yasasını takip üretilen sayıların ilk rakam. Bu neden olur? Bilgisayar simülasyonu hakkında iyi bir şey daha derin kazmak ve ara sonuçları bakabilirsiniz olduğunu. Örneğin, dağıtımı ile ilk simülasyonu: RV exp(RV), Biz soruyu sorabilirsiniz: Belli bir ilk basamağını olsun hangi için RV değerleri nedir? Cevap Şekil 3a gösterilmiştir. Not ilk rakamı vermek RV aralıkları 1 vermek kıyasla çok daha büyük olan 9. Yaklaşık altı kat daha büyük, aslında, beklendiği gibi. Desen simüle doğal sayı olarak nasıl tekerrür dikkat “yuvarlanmak” İlk basamaktan 9 karşı 1 (bir kilometre sayacı açma gibi).

figure3a
Şekil 3a,. Bir de aralıkları eşit dağıtılmış (arasında 0 ve 10) RV exp farklı ilk basamağı neden rasgele değişken RV(RV). Not Bunun ilk basamak 1 kalanından çok daha sık görülür, beklendiği gibi.

Benzer bir eğilim, iki rasgele değişken ile meraklısı simülasyon görülebilir. RV1 exp çeşitli ilk basamağı doğuran ortak dağıtımlarında bölgeler(RV2) Şekil 3b'de gösterilmektedir. Derin mavi büyük swathes dikkat edin (ilk basamağa karşılık gelen 1) ve kırmızı sargıları kendi alanında karşılaştırmak (İlk basamak için 9).

figure3b
Şekil 3b. Iki ortak dağılımında bölgeler eşit dağıtılmış (arasında 0 ve 10) RV1 exp farklı ilk basamağı neden rasgele değişkenler RV1 ve RV2(RV2).

Bu egzersiz bana simülasyon toplamak için umuyordum fikir verir. Birinci pozisyonda küçük basamak üstünlüğü nedeni doğal olarak meydana gelen sayı dağılımı genellikle şevli bir olmasıdır; numaralara bir üst sınırı, genellikle orada, ve üst sınırına yakın olsun, muhtemelen yoğunluğu gittikçe küçülmekte. Eğer ilk rakamı geçmek gibi 9 ve sonra, devrilme 1, aniden aralığı çok daha büyük olur.

Bu açıklama tatmin edici olmakla birlikte, şaşırtıcı bir gerçektir doğal dağıtımlarının olasılığı gittikçe azalır nasıl önemli değil ki. Neredeyse merkezi limit teoremi gibi. Elbette, Bu küçük simülasyon hiçbir titiz kanıtı. Eğer titiz bir kanıtı arıyorsanız, Eğer Hill'in çalışmalarında bulabilirsiniz [3].

Sahtecilik Tespit

Bizim vergi kaçakçılığı sıkıntılar Benford isnat edilebilir olsa da, İlk rakam fenomen başlangıçta Simon Newcomb tarafından makalede anlatılan [2] Matematik American Journal in 1881. Bu Frank Benford tarafından yeniden keşfedilmiş 1938, kime tüm zafer (veya suçlama, çitin bağlı yan kendinizi bulabilirsiniz) gitti. Aslında, Vergi sıkıntılardan arkasındaki gerçek suçlu Theodore Tepesi olmuş olabilir. O 1990'larda bir dizi makale olarak ilgi odağı karanlık yasayı getirdi. Hatta bir istatistiksel kanıt sundu [3] fenomenin.

Bizim kişisel vergi sorunları neden ek olarak, Benford yasası diğer birçok dolandırıcılık ve usulsüzlük kontrolleri önemli bir rol oynayabilir [4]. Örneğin, Bir şirketin muhasebe kayıtları ilk basamak dağılımı yaratıcılık nöbetleri ortaya çıkarabilir. Çalışan geri ödeme talepleri, miktarını denetlemek, maaş rakamları, bakkal fiyatları — Her şey Benford yasasına tabidir. Hatta piyasa manipülasyonları tespit etmek için kullanılabilir hisse senedi fiyatlarının ilk basamağı çünkü, Örneğin, Benford dağılımını takip etmek gerekiyor. Onlar yoksa, Biz ihtiyatlı olmak zorunda.

Manevi

figure4
Şekil 4. Bir simülasyon birinci ve ikinci basamak ortak dağılımı, korelasyon etkilerini gösteren.

Hikayenin ahlaki basittir: Vergi iadeleri yaratıcı alamadım. Yakalanmış olacaktır. Sen daha gerçekçi bir vergi indirimi desen oluşturmak için bu Benford dağıtımı kullanmak düşünebilirsin. Ama bu işi sesler daha zordur. Ben söz değil, ancak, basamak arasında bir korelasyon olup. İkinci basamak varlığının olasılığı 2, Örneğin, ilk basamak ne bağlıdır. Şekil bak 4, Hangi zaman simülasyonlar birinde yer alan bağlantı yapısını göstermektedir.

Ayrıca, IRS sistem çok daha gelişmiş olması muhtemeldir. Örneğin, böyle yapay sinir ağları veya destek vektör makineleri gibi gelişmiş veri madenciliği veya örüntü tanıma sistemlerini kullanarak olabilir. IRS etiketli ettiğini verilerin hatırla (başarısız kandırmaya çalıştı olanların vergisi beyannameleri, ve iyi bir vatandaş olanlar) ve kolayca vergi kaçakçılarını tomurcuklanan yakalamak için sınıflandırıcı programları eğitebilirsiniz. Henüz bu sofistike örüntü tanıma algoritmaları kullanarak değilseniz, güven Bana, onlar olacak, Bu makaleyi gördükten sonra. Bu vergilere gelince, size karşı yığılmış çünkü rastgelelik her zaman aptal olur.

Ama cidden, Benford kanunu biz farkında olmalıyız bir araçtır. Kendimizi sayısal veriler her türlü orijinalliğini şüphe bulmak zaman beklenmedik şekillerde bizim yardımına gelebilir. Hukuka dayalı bir onay uygulanması kolay ve aşmak zor. Bu basit ve oldukça evrenseldir. Bu yüzden, en Benford yenmek için deneyin etmeyelim; Onun yerine ona katılsın.

Referanslar
[1] Benford, F. “Anormal Sayılar Yasası.” Proc. Amer. Phil. Soc. 78, 551-572, 1938.
[2] Newcomb, S. “Doğal Sayılarla Basamak Kullanımı Sıklığı unutmayın.” Amer. J. Matematik. 4, 39-40, 1881.
[3] Tepe, T. P. “Önemli Haneli Hukuk İstatistiksel türetilmesi.” Devlet. Bilim. 10, 354-363, 1996.
[4] Nigrini, M. “Ben Your Number Got.” J. Muhasebe 187, pp. 79-83, Mayıs 1999. http://www.aicpa.org/pubs/jofa/may1999/nigrini.htm.

Photo by LendingMemo

Comments