BENFORD والضرائب الخاصة بك

لا شيء مؤكد ولكن الموت والضرائب, يقولون. على جبهة الموت, أننا نحرز بعض التقدم مع كل الأعاجيب الطبية لدينا, على الأقل في تأجيلها إن لم يكن في الواقع تجنب ذلك. ولكن عندما يتعلق الأمر بالضرائب, ليس لدينا سوى الدفاع قليلا من الإبداع في الإقرارات الضريبية لدينا.

دعنا نقول العم سام تعتقد أنك مدين له $ 75K. في رأيك صادقة, الرقم عادل هو عن علامة 50K دولار. لذلك يمكنك تمشيط من خلال المعفى من الضرائب الإيصالات الخاصة بك. بعد ساعات لا تحصى من العمل الشاق, fyou جلب عدد صولا الى, قول, $65ل. باعتباره ضليع في الرياضيات, يمكنك تقدير احتمال التدقيق IRS. ويمكنك وضع عدد (قيمة التوقعات بالدولار) إلى الألم والمعاناة التي يمكن أن تنتج عن ذلك.

دعونا نفترض أن كنت تحسب خطر التدقيق الضريبي لتكون حول 1% وتقرر أن الأمر يستحق المخاطرة للحصول على الإبداع في لك خصم المطالبات لتصل قيمتها إلى دولار 15K. تقوم بإرسالها في الإقرار الضريبي والجلوس ضيق, متعجرف مع العلم أن احتمالات الحصول على الخاص بتدقيق ضئيلة إلى حد ما. كنت في لمفاجأة كبيرة. سوف تحصل حقا وينخدع العشوائية, وIRS يريد يكاد يكون من المؤكد أن نلقي نظرة فاحصة على إقرارك الضريبي.

الإبداع في احتساب عوائد الضرائب نادرا ما يؤتي ثماره. الحسابات الخاصة بك من الألم والمعاناة المتوقع تتفق مع التردد الذي IRS تدقق لك أبدا. احتمال حدوث المراجعة, في الواقع, أعلى من ذلك بكثير إذا حاولت تضخيم الاستقطاعات الضريبية الخاصة بك. يمكنك إلقاء اللوم بنفورد لهذا الانحراف في احتمال مكدسة ضد صالحك.

الشك

عرض BENFORD شيء غير بديهية جدا في مقالته [1] في 1938. سأل السؤال: ما هو توزيع الأرقام الأولى في أي رقمية, بيانات من واقع الحياة? للوهلة الأولى, تبدو الإجابة واضحة. وينبغي أن يكون كافة الأرقام نفس الاحتمال. لماذا يكون هناك تفضيل لأي رقم واحد في بيانات عشوائية?

figure1
الرقم 1. تواتر حدوث الأرقام الأولى في المبالغ الإسمية المعاملات المالية. منحنى الأرجواني هو توزيع تنبأ. لاحظ أن تجاوزات طفيفة في 1 و 5 فوق منحنى الأرجواني من المتوقع لأن الناس يميلون إلى اختيار المواطنين مثل 1/5/10/50/100 مليون. الزيادة في 8 ومن المتوقع أيضا لأنه يعتبر رقم الحظ في آسيا.

أظهرت BENFORD أن الرقم الأول في “تحدث بشكل طبيعي” هو أكثر بكثير من المرجح أن يكون عدد 1 بدلا من أي أرقام أخرى. في الواقع, كل رقم معين لديه احتمال كونها في المركز الأول. الرقم 1 لديها أعلى احتمال; الرقم 2 هو حول 40% أقل احتمالا أن تكون في المركز الأول وهلم جرا. الرقم 9 لديه أدنى احتمال جميع; فهو يقع في حوالي 6 مرات أقل من المرجح أن يكون في المركز الأول.

عندما سمعت لأول مرة هذه الظاهرة أرقام الأولى من زميل مطلعة, اعتقد انها كانت غريبة. كنت أتوقع بسذاجة أن يرى نفسه تقريبا تواتر حدوث لجميع الأرقام من 1 إلى 9. لذلك أنا جمعت كمية كبيرة من البيانات المالية, حول 65000 أرقام (ما يصل الى اكسل يسمح), ونظرت إلى الرقم الأول. لقد وجدت بنفورد أن تكون على حق تماما, كما هو مبين في الشكل 1.

احتمال الرقم الأول بعيد جدا من الزي, كما الشكل 1 عروض. توزيع غير, في الواقع, وغاريتمي. ونظرا لاحتمال أي رقم من سجل د(1 + 1 / د), وهو منحنى الأرجواني في الشكل 1.

هذا التوزيع المختل ليست حالة شاذة في البيانات التي حدث لي أن ننظر. إنها القاعدة في أي “تحدث بشكل طبيعي” البيانات. فمن قانون بنفورد و. جمعت BENFORD عدد كبير من البيانات التي تحدث بشكل طبيعي (بما في ذلك السكان, مناطق الأنهار, الثوابت الفيزيائية, عدد من التقارير الصحفية وهلم جرا) وأظهرت أن تحترم هذا القانون التجريبي.

محاكاة

كمطور الكمي, أنا أميل إلى محاكاة الأشياء على جهاز كمبيوتر على أمل أن قد أكون قادرا على رؤية الأنماط التي سوف يساعدني فهم المشكلة. السؤال الأول الذي استقر في المحاكاة هو لمعرفة ما توزيع احتمالات كمية غامضة مثل “الأرقام التي تحدث بشكل طبيعي” سيكون. مرة واحدة لدي التوزيع, أنا يمكن أن تولد أرقام وإلقاء نظرة على الأرقام الأولى لمعرفة ما تردد حدوثها.

إلى عالم الرياضيات أو ضليع في الرياضيات, لا يوجد شيء أكثر طبيعية أن اللوغاريتم الطبيعي. حتى توزيع المرشح الأول للأرقام التي تحدث بشكل طبيعي هو شيء من هذا القبيل RV إكسب(RV), حيث RV هو متغير عشوائي موزعة بشكل متجانس (بين صفر وعشرة). الأساس المنطقي وراء هذا الاختيار هو افتراض أن عدد الأرقام في الأرقام التي تحدث بشكل طبيعي وتوزع بشكل موحد بين صفر و حد أعلى.

في الواقع, يمكنك اختيار البعض, توزيعات مربي الحيوانات للأرقام التي تحدث بشكل طبيعي. حاولت بضعة توزيعات المرشح أخرى باستخدام اثنين توزع بشكل موحد (بين صفر وعشرة) المتغيرات العشوائية وRV1 RV2: RV1 إكسب(RV2) وإكسب(RV1 RV2). كل هذه التوزيعات تتحول إلى أن تكون تخمينات جيدة للأرقام التي تحدث بشكل طبيعي, كما هو موضح في الشكل 2.

figure2
الرقم 2. توزيع الأرقام الأولى في محاكاة "طبيعيا" أرقام, مقارنة مع تنبؤ.

الأرقام الأولى من أرقام أنني ولدت اتبع القانون بنفورد لدرجة خارقة من الدقة. لماذا يحدث هذا? شيء واحد جيد عن محاكاة الكمبيوتر هو أنه يمكنك حفر أعمق والنظر في نتائج المتوسطة. على سبيل المثال, في أول محاكاة لدينا مع التوزيع: RV إكسب(RV), يمكننا أن نطرح هذا السؤال: ما هي قيم RV التي نحصل معين على الرقم الأول? ويرد الجواب في الشكل 3A. لاحظ أن يتراوح في RV التي تعطي الرقم الأول 1 تكون أكبر بكثير من تلك التي تعطي 9. حوالي ست مرات أكبر, في الواقع, كما هو متوقع. لاحظ كيف النمط يكرر نفسه مثل الأعداد الطبيعية محاكاة “يتدحرج” من الرقم الأول من 9 إلى 1 (باعتبارها التعثر عداد المسافات).

figure3a
الشكل 3A. نطاقات في زعت بشكل موحد (بين 0 و 10) RV المتغيرة العشوائية التي تنتج في مختلف الأرقام الأولى في RV إكسب(RV). لاحظ أن الرقم الأول من 1 يحدث في كثير من الأحيان أكثر بكثير من بقية, كما هو متوقع.

ويمكن ملاحظة اتجاه مماثل في منطقتنا محاكاة مربي الحيوانات مع اثنين من المتغيرات العشوائية. المناطق في التوزيعات المشتركة التي تؤدي إلى مختلف الأرقام الأولى في RV1 إكسب(RV2) وتظهر في الشكل 3B. لاحظ مساحات واسعة من أزرق (الموافق الرقم الأول من 1) ومقارنة منطقتهم إلى مساحات حمراء (عن الرقم الأول 9).

figure3b
الشكل 3B. المناطق في توزيع مشترك بين اثنين وزعت بشكل موحد (بين 0 و 10) المتغيرات العشوائية وRV1 RV2 التي تنتج في مختلف الأرقام الأولى في RV1 إكسب(RV2).

هذا التمرين يعطيني فكرة كنت آمل أن يقف، من خلال المحاكاة. سبب كثرة الأرقام الصغيرة في الموقف الأول هو أن توزيع الأرقام التي تحدث بشكل طبيعي وعادة ما يكون واحد مستدق; عادة ما يكون هناك حد أعلى لأرقام, وكما تحصل أقرب إلى الحد الأعلى, وربما كثافة تصبح أصغر وأصغر. كما يمكنك تمرير الرقم الأول من 9 ثم يتدحرج إلى 1, فجأة مجموعتها يصبح أكبر بكثير.

في حين أن هذا التفسير هو مرضية, من المستغرب حقيقة هو أنه لا يهم كم من احتمال التوزيعات الطبيعية التناقص التدريجي قبالة. هو تقريبا مثل نظرية النهاية المركزية. بالطبع, هذا القليل هو محاكاة أي دليل صارم. إذا كنت تبحث عن دليل صارم, يمكنك العثور عليها في العمل هيل [3].

كشف الغش

على الرغم من أن لدينا مشاكل التهرب الضريبي يمكن أن يعزى إلى بنفورد, وقد وصفت هذه الظاهرة الرقم الأول في الأصل في مقال سيمون نيوكومب [2] في الدورية الامريكية للرياضيات في 1881. كان اكتشافها من قبل فرانك بنفورد في 1938, لمن كل هذا المجد (أو اللوم, اعتمادا على أي جانب من السياج تجد نفسك) ذهب. في الواقع, الجاني الحقيقي وراء المشاكل الضريبية لدينا ربما كان تيودور هيل. أحضر القانون غامض إلى دائرة الضوء في سلسلة من المقالات في 1990s. حتى قدم البرهان الإحصائي [3] لهذه الظاهرة.

بالإضافة إلى التسبب في مشاكلنا الضرائب الشخصية, يمكن القانون BENFORD وتلعب دورا حاسما في كثير من الغش والمخالفات الأخرى الشيكات [4]. على سبيل المثال, توزيع الرقم الأول في القيود المحاسبية للشركة قد تكشف عن نوبات من الإبداع. مطالبات سداد موظف, تحقق مبالغ, أرقام المرتبات, أسعار البقالة — كل شيء يخضع للقانون بنفورد و. حتى أنه يمكن أن تستخدم لكشف التلاعب في السوق لأن الأرقام الأولى لأسعار الأسهم, على سبيل المثال, من المفترض أن تتبع التوزيع بنفورد. إذا لم يفعلوا ذلك, علينا أن نكون حذرين.

أخلاقي

figure4
الرقم 4. توزيع مشترك بين الأرقام الأولى والثانية في محاكاة, تظهر آثار الارتباط.

والمغزى من القصة بسيطة: لا تحصل الإبداع في الإقرارات الضريبية الخاصة بك. سوف ننشغل لك. قد تعتقد أنه يمكنك استخدام هذا التوزيع بنفورد لتوليد نمط خصم الضرائب أكثر واقعية. ولكن هذا العمل هو أصعب مما يبدو. على الرغم من أنني لم أذكر ذلك, هناك علاقة بين الأرقام. احتمال الرقم الثاني الكائن 2, على سبيل المثال, يعتمد على ما هو الرقم الأول. ننظر في الشكل 4, مما يدل على بنية الارتباط في واحدة من عمليات المحاكاة بلدي.

بالإضافة إلى, ومن المرجح أن يكون أكثر تعقيدا بكثير من نظام IRS. على سبيل المثال, أنها يمكن أن تكون باستخدام أنظمة تعدين البيانات أو التعرف على الأنماط المتقدمة مثل الشبكات العصبية أو الدعم آلات ناقلات. حفظ البيانات التي وصفت IRS (عوائد الضرائب من أولئك الذين حاولوا خداع, وتلك من مواطنين صالحين) ويمكن بسهولة تدريب برامج المصنف للقبض على المتهربين من الضرائب في مهدها. إذا لم يتم استخدام هذه خوارزميات متطورة بعد التعرف على الأنماط, ثق بي, أنها سوف, بعد رؤية هذا المقال. عندما يتعلق الأمر بالضرائب, سوف العشوائية تخدع دائما لأنها مكدسة ضدك.

ولكن على محمل الجد, BENFORD القانون هو الأداة التي علينا أن نكون على بينة من. قد تأتي لمساعدتنا بطرق غير متوقعة عندما نجد أنفسنا التشكيك في صحة جميع أنواع البيانات الرقمية. والاختيار على أساس القانون من السهل لتنفيذ ويصعب الالتفاف. أنها بسيطة وعالمية إلى حد ما. هكذا, دعونا لا محاولة للتغلب بنفورد; دعونا الانضمام اليه بدلا.

المراجع
[1] BENFORD, F. “قانون الأعداد الشاذة.” بروك. عامر. فيل. شركة نفط الجنوب. 78, 551-572, 1938.
[2] نيوكومب, S. “ملاحظة على التردد استعمال الأرقام في الأعداد الطبيعية.” عامر. J. الرياضيات. 4, 39-40, 1881.
[3] التل, T. P. “اشتقاق الإحصائي للقانون هام أرقام.” الدولة. الخيال العلمي. 10, 354-363, 1996.
[4] Nigrini, M. “لقد حصلت على رقم هاتفك.” J. المحاسبة 187, ص. 79-83, مايو 1999. HTTP://www.aicpa.org/pubs/jofa/may1999/nigrini.htm.

Photo by LendingMemo

Comments