Benford dan Cukai anda

Tiada apa-apa yang pasti tetapi kematian dan cukai, mereka berkata. Di kematian, kita membuat beberapa kemajuan dengan semua keajaiban perubatan, sekurang-kurangnya dalam menangguhkan jika tidak benar-benar mengelakkan ia. Tetapi apabila ia datang kepada cukai, kita tidak mempunyai pertahanan yang lain daripada sedikit kreativiti dalam borang cukai kami.

Katakan Uncle Sam difikirkan anda berhutang dia $ 75k. Pada pendapat jujur ​​anda, angka adil adalah mengenai tanda $ 50k. Jadi anda menyikat melalui resit cukai boleh ditolak anda. Selepas berjam-jam kerja keras, fyou membawa nombor ini untuk, mengatakan, $65kepada. Sebagai galah yang, anda boleh menganggarkan kebarangkalian audit IRS. Dan anda boleh meletakkan nombor yang (nilai jangkaan dalam dolar) untuk kesakitan dan penderitaan yang boleh menyebabkan daripadanya.

Mari kita andaikan bahawa anda mengira risiko audit cukai kira-kira 1% dan membuat keputusan bahawa ia bernilai risiko untuk mendapatkan kreatif dalam tuntutan potongan anda untuk lagu $ 15k. Anda menghantar kembali cukai dan duduk ketat, sombong dalam pengetahuan bahawa kemungkinan anda mendapat diaudit agak langsing. Anda berada dalam untuk kejutan besar. Anda akan mendapat dengan baik dan benar-benar tertipu oleh rawak, IRS dan hampir pasti akan mahu mengambil melihat lebih dekat pada pengembalian cukai anda.

Kreativiti dikira dalam borang cukai jarang berbaloi. Pengiraan anda sakit dijangka dan penderitaan tidak pernah konsisten dengan kekerapan yang IRS audit anda. Kebarangkalian audit adalah, sebenarnya, lebih tinggi jika anda cuba untuk mengembung potongan cukai anda. Anda boleh menyalahkan Benford untuk condong ini dalam kebarangkalian disusun terhadap memihak kepada anda.

Keraguan

Benford menyampaikan sesuatu yang sangat bertentangan dengan intuisi dalam artikelnya [1] dalam 1938. Beliau ditanya soalan: Apakah taburan digit pertama dalam mana-mana nombor, data sebenar? Pada pandangan pertama, jawapannya seolah-olah jelas. Semua angka harus mempunyai kebarangkalian yang sama. Mengapa ada akan menjadi keutamaan kepada mana-mana satu angka dalam data rawak?

figure1
Rajah 1. Kekerapan berlakunya digit pertama dalam jumlah nosional transaksi kewangan. Keluk ungu adalah pengagihan yang diramalkan. Perhatikan bahawa berlebihan sedikit di 1 dan 5 di atas lengkung ungu dijangka kerana orang cenderung untuk memilih seperti warga 1/5/10/50/100 juta. Lebihan di 8 juga dijangka kerana ia dianggap sebagai nombor bertuah di Asia.

Benford menunjukkan angka yang pertama dalam “yang berlaku secara semula jadi” nombor adalah lebih cenderung untuk menjadi 1 daripada apa-apa angka yang lain. Malah, setiap angka mempunyai kebarangkalian tertentu berada di dalam kedudukan pertama. Angka yang 1 mempunyai kebarangkalian tertinggi; angka yang 2 adalah kira-kira 40% kurang cenderung untuk berada dalam kedudukan yang pertama dan sebagainya. Angka yang 9 mempunyai kebarangkalian yang paling rendah bagi semua; ia adalah mengenai 6 kali kurang berkemungkinan untuk berada dalam kedudukan yang pertama.

Apabila saya mula-mula mendengar tentang perkara ini fenomena pertama angka dari rakan sekerja yang bermaklumat, Saya fikir ia adalah pelik. Saya akan naif dijangka menyaksikan kekerapan secara kasar sama berlaku untuk semua digit dari 1 kepada 9. Jadi saya mengumpul jumlah besar data kewangan, mengenai 65000 nombor (sebanyak Excel akan membenarkan), dan melihat angka pertama. Saya mendapati Benford untuk menjadi benar-benar betul, seperti yang ditunjukkan dalam Rajah 1.

Kebarangkalian digit pertama adalah cukup jauh dari seragam, seperti Rajah 1 pertunjukan. Pengagihan ini adalah, sebenarnya, logaritma. Kebarangkalian sebarang digit d diberikan oleh log(1 + 1 / d), yang lengkung ungu dalam Rajah 1.

Ini taburan pencongan bukan satu anomali dalam data yang saya telah melihat. Ia adalah peraturan dalam mana-mana “yang berlaku secara semula jadi” data. Ia adalah undang-undang Benford ini. Benford mengumpul sejumlah besar data yang berlaku secara semulajadi (termasuk penduduk, kawasan sungai, pemalar fizikal, nombor daripada laporan akhbar dan sebagainya) dan menunjukkan bahawa undang-undang ini empirikal dihormati.

Simulasi

Sebagai pemaju kuantitatif, Saya cenderung untuk meniru perkara-perkara pada komputer dengan harapan supaya aku dapat melihat corak yang akan membantu saya memahami masalah. Soalan pertama yang perlu diselesaikan dalam simulasi ini adalah untuk memikirkan apa yang taburan kebarangkalian bagi kuantiti yang samar-samar seperti “semulajadi nombor” akan. Apabila saya mempunyai pengedaran, Saya boleh menjana nombor dan melihat digit pertama untuk melihat kekerapan berlakunya.

Untuk ahli matematik atau galah yang, tiada apa yang lebih semula jadi yang logaritma asli. Jadi pengedaran calon pertama bagi nombor wujud secara semula jadi adalah sesuatu seperti RV exp(RV), di mana RV ialah pemboleh ubah rawak teragih seragam (antara sifar dan sepuluh). Rasional di sebalik pilihan ini adalah andaian bahawa bilangan digit dalam nombor wujud secara semula jadi diagihkan secara seragam di antara sifar dan had atas.

Sesungguhnya, anda boleh memilih lain, pengagihan pelamun untuk nombor wujud secara semula jadi. Saya cuba beberapa pengagihan calon lain dengan menggunakan dua teragih seragam (antara sifar dan sepuluh) pembolehubah rawak RV1 dan RV2: RV1 exp(RV2) dan exp(RV1 RV2). Semua pengagihan ini berubah menjadi tekaan baik untuk berlaku secara semulajadi nombor, seperti yang ditunjukkan dalam Rajah 2.

figure2
Rajah 2. Pengagihan angka pertama dalam simulasi "semulajadi" nombor, berbanding dengan ramalan.

Angka pertama dari nombor yang saya dijana mengikuti undang-undang Benford untuk ijazah luar biasa ketepatan. Mengapa ini berlaku? Satu perkara yang baik mengenai simulasi komputer adalah bahawa anda boleh menggali lebih mendalam dan melihat keputusan pengantara. Sebagai contoh, dalam simulasi pertama kami dengan pengedaran: RV exp(RV), kita boleh bertanya soalan: Apakah nilai-nilai RV yang mana kita akan mendapat angka pertama tertentu? Jawapannya ditunjukkan dalam Rajah 3a. Perhatikan bahawa julat di RV yang memberikan digit pertama 1 adalah lebih besar daripada orang-orang yang memberikan 9. Kira-kira enam kali lebih besar, sebenarnya, seperti yang diharapkan. Perhatikan bagaimana corak berulang sebagai nombor asli simulasi “bergolek” dari angka pertama 9 kepada 1 (sebagai tersandung odometer).

figure3a
Rajah 3a. Julat dalam teragih seragam (antara 0 dan 10) RV pembolehubah rawak yang menyebabkan digit pertama berbeza di RV exp(RV). Perhatikan bahawa angka pertama 1 berlaku lebih kerap daripada yang lain, seperti yang diharapkan.

Trend yang sama dapat dilihat dalam simulasi kami pelamun dengan dua pembolehubah rawak. Kawasan dalam pengagihan bersama mereka yang menimbulkan pelbagai digit pertama di RV1 exp(RV2) ditunjukkan dalam Rajah 3b. Perhatikan swathes besar biru (bersamaan dengan digit pertama 1) dan bandingkan kawasan mereka kepada swathes merah (untuk digit yang pertama 9).

figure3b
Rajah 3b. Kawasan dalam pengagihan bersama dua teragih seragam (antara 0 dan 10) pembolehubah rawak RV1 dan RV2 yang menyebabkan digit pertama berbeza di RV1 exp(RV2).

Latihan ini memberi saya gambaran yang saya berharap untuk memungut daripada simulasi. Sebab bagi jumlah lebih besar daripada angka yang lebih kecil dalam kedudukan yang pertama adalah bahawa pengagihan nombor wujud secara semula jadi biasanya satu yang tirus; biasanya ada had atas kepada nombor, dan seperti yang anda mendapatkan lebih dekat dengan had atas, mungkin ketumpatan menjadi lebih kecil dan lebih kecil. Seperti yang anda lulus digit pertama 9 dan kemudian bergolek ke 1, tiba-tiba rangkaian menjadi lebih besar.

Walaupun penjelasan ini adalah memuaskan, fakta mengejutkan adalah bahawa ia tidak kira berapa kebarangkalian taburan semula jadi dian off. Ia adalah hampir seperti teorem had pusat. Sudah tentu, simulasi kecil ini ada bukti yang ketat. Jika anda sedang mencari bukti yang ketat, anda boleh menemuinya dalam kerja Hill [3].

Pengesanan Penipuan

Walaupun masalah pengelakan cukai kita boleh dikaitkan dengan Benford, fenomena digit yang pertama pada asalnya dinyatakan dalam satu artikel oleh Simon Newcomb [2] dalam American Journal of Matematik dalam 1881. Ia telah dijumpai semula oleh Frank Benford di 1938, kepadanya semua kemuliaan (atau menyalahkan, bergantung kepada sebelah mana pagar yang anda mendapati diri anda) pergi. Malah, punca sebenar di sebalik masalah cukai kita mungkin Theodore Hill. Dia membawa undang-undang yang kabur untuk mendapat perhatian dalam satu siri artikel dalam tahun 1990-an. Dia juga menyampaikan bukti statistik [3] untuk fenomena.

Selain menyebabkan masalah cukai peribadi kita, Undang-undang Benford boleh memainkan peranan penting dalam banyak penipuan dan ketidakteraturan cek lain [4]. Sebagai contoh, pengedaran digit pertama dalam catatan perakaunan syarikat boleh mendedahkan serangan kreativiti. Tuntutan bayaran ganti pekerja, memeriksa jumlah, angka gaji, harga runcit — semuanya tertakluk kepada undang-undang ini Benford. Ia juga boleh digunakan untuk mengesan manipulasi pasaran kerana digit pertama harga saham, misalnya, sepatutnya untuk mengikuti pengedaran Benford yang. Jika mereka tidak, kita perlu berhati-hati.

Moral

figure4
Rajah 4. Pengagihan bersama digit pertama dan kedua dalam simulasi yang, menunjukkan kesan pertalian.

Moral cerita ini adalah mudah: Jangan kreatif dalam borang cukai anda. Anda akan terperangkap. Anda mungkin berfikir bahawa anda boleh menggunakan pengedaran Benford ini untuk menjana corak potongan cukai yang lebih realistik. Tetapi kerja ini lebih sukar daripada ia kedengaran. Walaupun saya tidak menyatakannya, terdapat hubungan antara digit. Kebarangkalian kewujudan kedua angka 2, misalnya, bergantung kepada apa digit pertama adalah. Lihatlah Rajah 4, yang menunjukkan struktur korelasi dalam satu simulasi saya.

Selain, sistem IRS itu mungkin jauh lebih canggih. Sebagai contoh, mereka boleh menggunakan maju perlombongan data atau pengiktirafan corak sistem seperti rangkaian neural atau mesin vektor sokongan. Ingat data yang IRS telah dilabel (pulangan cukai daripada mereka yang tidak berjaya cuba untuk menipu, dan orang-orang warganegara yang baik) dan mereka dengan mudah boleh melatih program pengelas untuk menangkap pengelak cukai tunas. Jika mereka tidak menggunakan canggih algoritma pengiktirafan corak belum, amanah saya, mereka akan, selepas melihat artikel ini. Apabila ia datang kepada cukai, rawak akan sentiasa menipu kamu kerana ia disusun terhadap anda.

Tetapi serius, Undang-undang Benford adalah alat yang kita perlu sedar. Ia mungkin datang untuk membantu kita dalam cara yang tidak dijangka apabila kita mendapati diri kita meragui kesahihan semua jenis data numerik. Semakan berdasarkan undang-undang adalah mudah untuk melaksanakan dan sukar untuk memintas. Ia adalah mudah dan agak universal. Jadi, jangan cuba untuk mengalahkan Benford; mari kita menyertainya bukan.

Rujukan
[1] Benford, F. “Undang-undang Nombor ganjil.” Proc. Amer. Phil. Soc. 78, 551-572, 1938.
[2] Newcomb, S. “Nota kepada Kekerapan Penggunaan Digit dalam Bilangan Asli.” Amer. J. Matematik. 4, 39-40, 1881.
[3] Hill, T. P. “A Penerbitan Statistik Undang-undang yang ketara-Digit.” Negeri. Sci. 10, 354-363, 1996.
[4] Nigrini, M. “Akhirnya Saya Dapat Nombor Anda.” J. Perakaunan 187, pp. 79-83, Mei 1999. http://www.aicpa.org/pubs/jofa/may1999/nigrini.htm.

Photo by LendingMemo

Comments