बेन्फोर्ड और अपने करों

कुछ भी निश्चित है, लेकिन मृत्यु और करों है, वे कहते हैं. मौत के मोर्चे पर, हम अपने सभी चिकित्सा चमत्कार के साथ कुछ पैठ बना रहे हैं, कम से कम यह स्थगित नहीं तो वास्तव में इसे टाल में. लेकिन यह करों की बात आती है, हम अपने टैक्स रिटर्न में रचनात्मकता का एक बिट के अलावा अन्य कोई बचाव है.

के अंकल सैम आप उसे 75K डॉलर देने हैं सोचता है कि हम कहते हैं. अपनी ईमानदार राय में, निष्पक्ष आंकड़ा $ 50 के निशान के बारे में है. तो आप अपने कर छूट प्राप्ति के माध्यम से कंघी. कड़ी मेहनत के अनगिनत घंटे के बाद, fyou करने के लिए नीचे नंबर लाना, कहना, $65को. एक क्वांट रूप, आप एक आईआरएस लेखा परीक्षा की संभावना का अनुमान कर सकते हैं. और तुम एक नंबर डाल सकते हैं (डॉलर में एक उम्मीद मूल्य) यह से परिणाम कर सकते हैं कि दर्द और पीड़ा को.

मान लीजिए कि आप के बारे में होना करने के लिए एक कर लेखा परीक्षा के जोखिम की गणना लगता है कि चलो 1% और यह $ 15k की धुन पर आप कटौती का दावा में रचनात्मक पाने के लिए जोखिम के लायक है कि फैसला. आप कर रिटर्न में भेजने और तंग बैठना, ज्ञान में आत्मसंतुष्ट लेखापरीक्षित हो रही है अपने की बाधाओं काफी स्लिम रहे हैं कि. आप एक बड़ा आश्चर्य के लिए कर रहे हैं. आप अच्छी तरह से और सही मायने में randomness से मूर्ख हो जाएगी, और आईआरएस लगभग निश्चित रूप से अपनी कर रिटर्न में एक करीब देखो ले जाना चाहता हूँ.

टैक्स रिटर्न में गणना की रचनात्मकता ही कम से भुगतान करता है. उम्मीद की दर्द और पीड़ा की अपनी गणना आईआरएस आप ऑडिट के साथ जो आवृत्ति के साथ संगत नहीं कर रहे हैं. एक लेखा परीक्षा की संभावना है, वास्तव में, आप अपने कर कटौती बढ़ कोशिश अगर बहुत अधिक. आप अपने पक्ष के खिलाफ खड़ी संभावना में इस तिरछा के लिए बेन्फोर्ड दोष कर सकते हैं.

संदेह

बेन्फोर्ड अपने लेख में बहुत सहज ज्ञान युक्त कुछ प्रस्तुत [1] में 1938. उन्होंने सवाल पूछा: किसी भी सांख्यिक में प्रथम अंक का वितरण क्या है, वास्तविक जीवन डेटा? पहली नज़र में, जवाब स्पष्ट लगता है. सभी अंक एक ही संभावना होनी चाहिए. क्यों यादृच्छिक डेटा में किसी भी एक अंक के लिए एक प्राथमिकता होगी?

figure1
चित्रा 1. वित्तीय लेनदेन के काल्पनिक मात्रा में पहला अंक की घटना की आवृत्ति. बैंगनी वक्र भविष्यवाणी वितरण है. ध्यान दें कि मामूली ज्यादतियों पर 1 और 5 लोगों की तरह नागरिकों का चयन करते हैं, क्योंकि बैंगनी वक्र ऊपर की उम्मीद कर रहे हैं 1/5/10/50/100 लाख. अतिरिक्त पर 8 यह एशिया में एक भाग्यशाली संख्या माना जाता है, क्योंकि यह भी उम्मीद है.

बेन्फोर्ड पता चला कि एक में पहला अंक “प्राकृतिक रूप से उत्पन्न” संख्या होने की बहुत अधिक संभावना है 1 बल्कि किसी भी अन्य अंकों से. वास्तव में, प्रत्येक अंक पहले की स्थिति में होने का एक विशिष्ट संभावना है. अंकों 1 सबसे अधिक संभावना है; अंकों 2 के बारे में 40% और इतने पर पहले की स्थिति में कम होने की संभावना. अंकों 9 सभी की सबसे कम संभावना है; इसके बारे में है 6 पहले की स्थिति में होने की संभावना कम होती टाइम्स.

मैं पहली बार एक अच्छी तरह से वाकिफ सहयोगी से यह पहला अंक घटना के बारे में सुना जब, मैं यह अजीब था सोचा. मैं भोलेपन से सभी अंक के लिए घटना के लगभग एक ही आवृत्ति को देखने की उम्मीद करनी होगी 1 को 9. इसलिए मैं वित्तीय डेटा की बड़ी राशि एकत्र, के बारे में 65000 संख्या (एक्सेल अनुमति होगी के रूप में कई), और पहले अंक को देखा. मैं बेन्फोर्ड बिल्कुल सही हो पाया, आकृति में दिखाए 1.

पहले अंक की संभावना वर्दी से बहुत दूर है, चित्रा के रूप में 1 शो. वितरण है, वास्तव में, लघुगणक. किसी भी अंकों डी की संभावना लॉग द्वारा दिया जाता है(1 + 1 / डी), जो चित्रा में बैंगनी वक्र है 1.

इस विषम वितरण मैं को देखने के लिए हुआ है कि डेटा में एक विसंगति नहीं है. यह किसी में नियम है “प्राकृतिक रूप से उत्पन्न” डेटा. यह बेन्फोर्ड का कानून है. बेन्फोर्ड प्राकृतिक रूप से उत्पन्न डेटा की एक बड़ी संख्या में एकत्र (सहित जनसंख्या, नदियों के क्षेत्रों, भौतिक स्थिरांक, इतने पर समाचार पत्र की रिपोर्ट और से संख्या) और इस अनुभवजन्य कानून का सम्मान कर रहा है कि पता चला.

सिमुलेशन

एक मात्रात्मक डेवलपर के रूप में, मैं मैं मुझे समस्या को समझने में मदद मिलेगी कि पैटर्न को देखने के लिए सक्षम हो सकता है कि उम्मीद के साथ एक कंप्यूटर पर बातें अनुकरण करते हैं. सिमुलेशन में बसे होने के लिए पहला सवाल यह पता लगाने की है कि क्या एक अस्पष्ट मात्रा की संभावना वितरण की तरह “स्वाभाविक रूप से संख्या होने वाली” होगा. मैं वितरण एक बार, मैं संख्या पैदा करते हैं और घटना की उनकी आवृत्ति को देखने के लिए पहले अंक पर देख सकते हैं.

एक गणितज्ञ या एक क्वांट करने के लिए, प्राकृतिक लघुगणक कि अधिक प्राकृतिक वहाँ कुछ भी नहीं है. इसलिए स्वाभाविक रूप से होने वाली संख्या के लिए पहले उम्मीदवार वितरण आर.वी. Exp तरह कुछ है(आर.वी.), जहां आर.वी. एक समान रूप से वितरित यादृच्छिक चर रहा है (शून्य और दस के बीच). इस चुनाव के पीछे तर्क स्वाभाविक रूप से होने वाली संख्या में अंकों की संख्या समान रूप से शून्य और एक ऊपरी सीमा के बीच वितरित किया जाता है कि एक धारणा है.

दरअसल, आप अन्य चुन सकते हैं, स्वाभाविक रूप से होती संख्या के लिए शौक़ीन वितरण. मैं दो का उपयोग अन्य उम्मीदवार वितरण के एक जोड़े को समान रूप से वितरित करने की कोशिश की (शून्य और दस के बीच) यादृच्छिक चर RV1 और RV2: RV1 ऍक्स्प(RV2) और विस्तार(RV1 RV2). इन सभी वितरण स्वाभाविक रूप से संख्या होने वाली के लिए अच्छा अनुमान होना बाहर बारी, चित्रा में सचित्र के रूप में 2.

figure2
चित्रा 2. के अनुकरण में पहला अंक का वितरण संख्या "स्वाभाविक रूप से", भविष्यवाणी की तुलना.

मैं सटीकता की एक अलौकिक डिग्री तक बेन्फोर्ड के कानून का पालन उत्पन्न कि संख्या के पहले अंक. ऐसा क्यों होता है? कंप्यूटर सिमुलेशन के बारे में अच्छी बात यह है कि आप गहरी खुदाई और मध्यवर्ती परिणामों पर देख सकते है. उदाहरण के लिए, वितरण के साथ हमारी पहली सिमुलेशन में: आर.वी. ऍक्स्प(आर.वी.), हम प्रश्न पूछ सकते हैं: हम एक निश्चित पहला अंक मिलता है जिसके लिए आर.वी. के मूल्यों क्या हैं? जवाब चित्रा 3 ए में दिखाया गया है. ध्यान दें कि पहले अंक दे कि आर.वी. में पर्वतमाला 1 दे कि उन लोगों की तुलना में ज्यादा बड़े होते हैं 9. के बारे में छह गुना बड़ा, वास्तव में, उम्मीद के रूप में. पैटर्न नकली प्राकृतिक संख्या के रूप में खुद को दोहराता सूचना कैसे “पर रोल” के पहले अंक से 9 को 1 (एक ओडोमीटर ट्रिपिंग के रूप में).

figure3a
चित्रा 3a. एक में पर्वतमाला समान रूप से वितरित (के बीच 0 और 10) आर.वी. EXP में विभिन्न पहला अंक में परिणाम है कि यादृच्छिक चर आर.वी.(आर.वी.). ध्यान दें कि के पहले अंक 1 बाकी की तुलना में बहुत अधिक बार होता है, उम्मीद के रूप में.

ऐसा ही एक प्रवृत्ति दो यादृच्छिक चर के साथ हमारे शौक़ीन सिमुलेशन में देखा जा सकता है. RV1 EXP में विभिन्न पहला अंक को जन्म दे कि उनके संयुक्त वितरण में क्षेत्रों(RV2) चित्रा 3B में दिखाया गया है. गहरे नीले रंग के बड़े swathes नोटिस (के पहले अंक के लिए इसी 1) और लाल swathes को उनके क्षेत्र की तुलना (पहले अंक के लिए 9).

figure3b
चित्रा 3b. दो के संयुक्त वितरण में क्षेत्रों में समान रूप से वितरित (के बीच 0 और 10) RV1 EXP में विभिन्न पहला अंक में परिणाम है कि यादृच्छिक चर RV1 और RV2(RV2).

इस अभ्यास मुझे मैं अनुकरण से बटोरने के लिए उम्मीद कर रहा था अंतर्दृष्टि देता है. पहले की स्थिति में छोटे अंकों की प्रधानता के लिए कारण स्वाभाविक रूप से होने वाली संख्याओं का वितरण आम तौर पर एक लंबा और पतला एक है; संख्या के लिए एक ऊपरी सीमा आमतौर पर है, और आप ऊपरी सीमा के करीब हो, शायद घनत्व और छोटे छोटे हो जाता है. आप के पहले अंक पारित 9 और तब तक रोल 1, अचानक अपनी सीमा बहुत बड़ा हो जाता है.

इस स्पष्टीकरण संतोषजनक है, आश्चर्यजनक तथ्य यह प्राकृतिक वितरण की संभावना बंद tapers कैसे यह बात नहीं है कि है. यह लगभग केंद्रीय सीमा प्रमेय की तरह है. जरूर, इस छोटे से सिमुलेशन कोई कठोर सबूत है. आप एक कठोर सबूत की तलाश में हैं, आप हिल के काम में इसे पा सकते हैं [3].

धोखाधड़ी जांच

हमारे कर चोरी परेशानियों बेन्फोर्ड के लिए जिम्मेदार ठहराया जा सकता है, पहला अंक घटना मूल Newcomb साइमन ने एक लेख में वर्णित किया गया [2] अमेरिकन जर्नल ऑफ गणित में में 1881. यह फ्रैंक बेन्फोर्ड द्वारा फिर से खोज की गई थी 1938, जिसे सभी महिमा को (या दोष, बाड़ के पक्ष पर निर्भर करता है कि आप अपने आप को मिल) चला गया. वास्तव में, हमारे कर मुसीबतों के पीछे असली अपराधी थिओडोर हिल गया हो सकता है. उन्होंने कहा कि 1990 के दशक में लेख की एक श्रृंखला में सुर्खियों में अस्पष्ट कानून लाया. वह भी एक सांख्यिकीय सबूत प्रस्तुत [3] घटना के लिए.

हमारे व्यक्तिगत कर परेशानियों के कारण के अलावा, बेन्फोर्ड का कानून कई अन्य धोखाधड़ी और अनियमितता की जांच में एक महत्वपूर्ण भूमिका निभा सकते हैं [4]. उदाहरण के लिए, एक कंपनी के लेखांकन प्रविष्टियों में पहला अंक वितरण रचनात्मकता के मुकाबलों प्रकट हो सकता है. कर्मचारी प्रतिपूर्ति का दावा, मात्रा की जांच, वेतन आंकड़े, किराना कीमतों — सब कुछ बेन्फोर्ड के कानून के अधीन है. यह भी बाजार जोड़तोड़ का पता लगाने के लिए इस्तेमाल किया जा सकता है शेयर की कीमतों का पहला अंक क्योंकि, उदाहरण के लिए, बेन्फोर्ड वितरण का पालन करने की अपेक्षा की जाती है. यदि वे नहीं करते, हम सावधान रहना होगा.

नैतिक

figure4
चित्रा 4. एक सिमुलेशन में पहले और दूसरे अंक के संयुक्त वितरण, सहसंबंध प्रभाव दिखा.

कहानी का नैतिक सरल है: अपने टैक्स रिटर्न में रचनात्मक नहीं मिलता. तुम पकड़े जाएगा. आप एक अधिक यथार्थवादी कर कटौती पैटर्न उत्पन्न करने के लिए इस बेन्फोर्ड वितरण का उपयोग कर सकते हैं लगता है कि हो सकता है. लेकिन इस काम में यह लगता है की तुलना में कठिन है. मैं यह उल्लेख नहीं किया था, अंकों के बीच एक संबंध है. दूसरा अंक की जा रही है की संभावना 2, उदाहरण के लिए, पहले अंक में क्या है पर निर्भर करता है. चित्रा को देखो 4, जो मेरे सिमुलेशन में से एक में सहसंबंध संरचना से पता चलता है.

इसके अलावा, आईआरएस प्रणाली कहीं अधिक परिष्कृत होने की संभावना है. उदाहरण के लिए, वे इस तरह के तंत्रिका नेटवर्क या समर्थन वेक्टर मशीनों के रूप में एक उन्नत डाटा खनन या पैटर्न मान्यता प्रणालियों का उपयोग किया जा सकता है. आईआरएस की संज्ञा दी है कि डेटा याद रखें (असफल धोखा देने की कोशिश की जो लोग टैक्स रिटर्न, और अच्छे नागरिक के उन) और वे आसानी से कर चोरों नवोदित पकड़ने के लिए वर्गीकारक कार्यक्रमों को प्रशिक्षित कर सकते हैं. वे अभी तक इन परिष्कृत पैटर्न मान्यता एल्गोरिदम का उपयोग नहीं कर रहे हैं, मुझ पर भरोसा, वे जाएगा, इस लेख को देखने के बाद. यह करों की बात आती है, यह आप के खिलाफ खड़ी है क्योंकि randomness हमेशा तुम मूर्ख होगा.

लेकिन गंभीरता से, बेन्फोर्ड का कानून हम के बारे में पता होना जरूरी है कि एक उपकरण है. हम खुद संख्यात्मक डेटा की सभी प्रकार की प्रामाणिकता पर शक लगता है जब यह अप्रत्याशित तरीके में हमारी मदद के लिए आ सकता है. कानून के आधार पर एक चेक को लागू करने के लिए आसान और नाकाम करने के लिए मुश्किल है. यह सरल और काफी सार्वभौमिक है. इतना, के बेन्फोर्ड हरा करने की कोशिश नहीं करते; के बजाय उसे शामिल करते हैं.

सन्दर्भ
[1] बेन्फोर्ड, एफ. “विषम संख्या के कानून.” प्रोक. आमेर. फिल. समाज. 78, 551-572, 1938.
[2] Newcomb, एस. “प्राकृतिक संख्या में अंकों के उपयोग की आवृत्ति पर ध्यान दें.” आमेर. जम्मू. गणित. 4, 39-40, 1881.
[3] हिल, टी. पी. “उल्लेखनीय-डिजिट कानून की एक सांख्यिकीय व्युत्पत्ति.” राज्य. विज्ञान. 10, 354-363, 1996.
[4] Nigrini, एम. “मैं आपका नंबर मिल गया है.” जम्मू. लेखा 187, पीपी. 79-83, मई 1999. नि://www.aicpa.org/pubs/jofa/may1999/nigrini.htm.

Photo by LendingMemo

Comments