Benford và thuế của bạn

Không có gì là nhất định, nhưng cái chết và thuế, họ nói. Trên mặt trận chết, chúng tôi đang làm một số xâm nhập với tất cả các kỳ diệu của y tế của chúng tôi, ít nhất là trong việc trì hoãn nếu không thực sự tránh nó. Nhưng khi nói đến thuế, chúng tôi không có quốc phòng khác hơn một chút sáng tạo trong tờ khai thuế của chúng tôi.

Hãy nói rằng chú Sam nghĩ rằng bạn nợ anh ấy $ 75K. Theo ý kiến ​​trung thực của bạn, con số hợp lý là về mốc $ 50k. Vì vậy, bạn chải qua biên lai thuế khấu trừ của bạn. Sau nhiều giờ làm việc chăm chỉ, fyou mang số xuống, nói, $65để. Là một Quant, bạn có thể đánh giá khả năng của một kiểm toán IRS. Và bạn có thể đặt một số (một giá trị kỳ vọng bằng đô la) đến sự đau đớn và đau khổ có thể là kết quả của nó.

Chúng ta hãy giả sử rằng bạn tính toán rủi ro của một kiểm toán thuế được về 1% và quyết định rằng nó là giá trị rủi ro để có được sáng tạo trong bạn trích tuyên bố điều chỉnh của $ 15k. Bạn gửi tờ khai thuế và ngồi chặt chẽ, tự mãn trong sự hiểu biết rằng tỷ lệ cược của việc kiểm toán của bạn là khá mỏng. Bạn đang ở cho một bất ngờ lớn. Bạn sẽ nhận được tốt và thực sự bị lừa bởi ngẫu nhiên, IRS và gần như chắc chắn sẽ muốn có một cái nhìn sâu hơn về tờ khai thuế.

Sự sáng tạo tính trong tờ khai thuế ít khi được đền đáp. Tính toán của bạn đau đớn và đau khổ sẽ không bao giờ phù hợp với tần suất mà IRS kiểm toán bạn. Xác suất của một kiểm toán là, trong thực tế, cao hơn rất nhiều nếu bạn cố gắng để thổi phồng các khoản khấu trừ thuế của bạn. Bạn có thể đổ lỗi cho Benford nghiêng này trong khả năng xếp chồng lên nhau chống lại lợi của bạn.

Hoài nghi

Benford đã trình bày cái gì đó rất phản trực giác trong bài viết của mình [1] trong 1938. Ông hỏi những câu: Sự phân bố của các chữ số đầu tiên trong bất kỳ số là gì, dữ liệu thực tế cuộc sống? Ngay từ cái nhìn đầu tiên, câu trả lời có vẻ hiển nhiên. Tất cả các chữ số nên có cùng một xác suất. Tại sao sẽ có một sở thích cho bất kỳ một con số trong dữ liệu ngẫu nhiên?

figure1
Hình 1. Tần số xuất hiện của các chữ số đầu tiên trong số tiền danh nghĩa của các giao dịch tài chính. Đường cong màu tím là sự phân bố dự đoán. Lưu ý rằng sự thái quá nhẹ ở 1 và 5 trên đường cong màu tím được dự kiến ​​bởi vì mọi người có xu hướng chọn quốc gia khác như 1/5/10/50/100 triệu. Việc dư thừa ở 8 cũng là bình thường vì nó được coi là một con số may mắn ở châu Á.

Benford cho thấy các chữ số đầu tiên trong một “tự nhiên” con số này nhiều khả năng được 1 chứ không phải là bất kỳ chữ số khác. Trong thực tế, mỗi chữ số có xác suất cụ thể là ở vị trí đầu tiên. Các chữ số 1 có xác suất cao nhất; các chữ số 2 là về 40% ít có khả năng được ở vị trí đầu tiên và như vậy. Các chữ số 9 có xác suất thấp nhất của tất cả các; đó là về 6 lần ít có khả năng được ở vị trí đầu tiên.

Khi tôi lần đầu tiên nghe nói về hiện tượng chữ số đầu tiên này từ một đồng nghiệp đầy đủ thông tin, Tôi nghĩ đó là kỳ lạ. Tôi dự kiến ​​sẽ có ngây thơ để xem khoảng cùng một tần số xuất hiện cho tất cả các chữ số từ 1 để 9. Vì vậy, tôi thu thập số lượng lớn các dữ liệu tài chính, về 65000 số (như nhiều như Excel sẽ cho phép), và nhìn vào chữ số đầu tiên. Tôi tìm thấy Benford là hoàn toàn đúng, như trong hình 1.

Xác suất của các chữ số đầu tiên là khá xa thống nhất, như hình 1 chương trình. Sự phân bố là, trong thực tế, logarit. Xác suất của bất kỳ chữ số d được cho bởi đăng nhập(1 + 1 / d), đó là đường cong màu tím trong hình 1.

Phân phối lệch này không phải là một sự bất thường trong các dữ liệu mà tôi đã xảy ra để xem xét. Đây là quy tắc trong bất kỳ “tự nhiên” dữ liệu. Đó là luật của Benford. Benford thu thập được một số lượng lớn các dữ liệu tự nhiên (bao gồm dân số, khu vực sông, hằng số vật lý, con số từ báo chí và vv) và chỉ ra rằng luật pháp thực nghiệm này được tôn trọng.

Mô phỏng

Là một nhà phát triển về số lượng, Tôi có xu hướng mô phỏng những điều trên một máy tính với hy vọng rằng tôi có thể xem các mẫu mà sẽ giúp tôi hiểu được vấn đề. Câu hỏi đầu tiên được giải quyết trong mô phỏng là để tìm ra những gì phân phối xác suất của một số lượng không rõ ràng như “tự nhiên con số” sẽ là. Một khi đã có sự phân bố, Tôi có thể tạo ra các số và nhìn vào các chữ số đầu tiên nhìn thấy tần số của họ xảy ra.

Để một nhà toán học hay một Quant, không có gì tự nhiên hơn là logarit tự nhiên là. Vì vậy, sự phân bố ứng cử viên đầu tiên cho số tự nhiên là một cái gì đó giống như RV exp(RV), nơi RV là một biến ngẫu nhiên phân bố đồng đều (giữa số không và mười). Lý do đằng sau sự lựa chọn này là một giả định rằng số lượng các chữ số trong số tự nhiên được phân bố đồng đều giữa không và một giới hạn trên.

Thực tế, bạn có thể chọn khác, phân phối sành điệu cho các số tự nhiên. Tôi đã thử một vài phân bố ứng cử viên khác sử dụng hai phân bố đồng đều (giữa số không và mười) biến ngẫu nhiên RV1 và RV2: RV1 exp(RV2) và điểm kinh nghiệm(RV1 RV2). Tất cả các bản phân phối bật ra được dự đoán tốt cho số tự nhiên, như minh họa trong hình 2.

figure2
Hình 2. Sự phân bố của các chữ số đầu tiên trong mô phỏng của "tự nhiên" số, so với dự đoán.

Các chữ số đầu tiên của số điện thoại mà tôi tạo ra theo pháp luật Benford đến một mức độ chính xác kỳ lạ. Tại sao điều này xảy ra? Một điều tốt về mô phỏng máy tính là bạn có thể đào sâu hơn và nhìn vào kết quả trung gian. Ví dụ, trong mô phỏng đầu tiên của chúng tôi với sự phân bố: RV exp(RV), chúng ta có thể đặt câu hỏi: Các giá trị của RV mà chúng tôi có được một chữ số đầu tiên nhất định là gì? Câu trả lời được thể hiện trong hình 3a. Lưu ý rằng trong phạm vi RV đó cung cấp cho các chữ số đầu tiên 1 là lớn hơn nhiều so với những người cung cấp 9. Khoảng sáu lần lớn hơn, trong thực tế, như mong đợi. Chú ý mô hình lặp đi lặp lại chính nó như là số tự nhiên mô phỏng “cuộn qua” từ chữ số đầu tiên của 9 để 1 (như là một vấp ngã đo đường).

figure3a
Hình 3a. Phạm vi trong một phân bố đồng đều (giữa 0 và 10) RV biến ngẫu nhiên dẫn đến chữ số đầu tiên khác nhau trong RV exp(RV). Lưu ý rằng chữ số đầu tiên của 1 xảy ra thường xuyên hơn phần còn lại, như mong đợi.

Một xu hướng tương tự có thể được nhìn thấy trong mô phỏng của chúng tôi sành điệu với hai biến ngẫu nhiên. Các khu vực trong bản phân phối chung của họ là làm phát sinh nhiều chữ số đầu tiên trong RV1 exp(RV2) được thể hiện trong hình 3b. Chú ý các vùng đất rộng lớn của màu xanh sâu (tương ứng với chữ số đầu tiên của 1) và so sánh các khu vực của họ để các dải màu đỏ (cho chữ số đầu tiên 9).

figure3b
Hình 3b. Các khu vực trong việc phân phối chung của hai phân bố đồng đều (giữa 0 và 10) biến ngẫu nhiên RV1 và RV2 dẫn đến chữ số đầu tiên khác nhau trong RV1 exp(RV2).

Bài tập này mang lại cho tôi cái nhìn sâu sắc Tôi đã hy vọng để thu thập từ các mô phỏng. Lý do cho sự vượt trội của các chữ số nhỏ hơn ở vị trí đầu tiên là sự phân bố của các số tự nhiên thường là một giảm dần; thường có một giới hạn trên những con số, và khi bạn nhận được gần gũi hơn với giới hạn trên, có lẽ mật độ trở nên nhỏ hơn và nhỏ hơn. Khi bạn đi qua các chữ số đầu tiên của 9 và sau đó được chuyển sang 1, đột nhiên phạm vi của nó trở nên lớn hơn nhiều.

Trong khi giải thích này là đáp ứng, một thực tế đáng ngạc nhiên là nó không quan trọng như thế nào khả năng phân phối tự nhiên nến tắt. Nó gần giống như định lý giới hạn trung tâm. Tất nhiên, mô phỏng này ít có bằng chứng nghiêm ngặt. Nếu bạn đang tìm kiếm một bằng chứng khắt khe, bạn có thể tìm thấy nó trong công việc của Hill [3].

Phát hiện gian lận

Mặc dù trốn thuế rắc rối của chúng tôi có thể là do Benford, hiện tượng chữ số đầu tiên đã được mô tả trong một bài viết của Simon Newcomb [2] trong tạp chí American Journal of Mathematics trong 1881. Nó đã được phát hiện bởi Frank Benford trong 1938, mà tất cả các vinh quang (hoặc đổ lỗi, tùy thuộc vào mặt bên của hàng rào bạn thấy mình) đi. Trong thực tế, thủ phạm thực sự đằng sau tai ương thuế của chúng tôi có thể có được Theodore Hill. Ông đưa những luật mơ hồ để ánh đèn sân khấu trong một loạt các bài viết trong những năm 1990. Ông thậm chí còn đưa ra một bằng chứng thống kê [3] cho hiện tượng này.

Ngoài việc gây phiền hà thuế cá nhân của chúng tôi, Pháp luật Benford có thể đóng một vai trò quan trọng trong nhiều gian lận và bất thường kiểm tra khác [4]. Ví dụ, sự phân bố chữ số đầu tiên trong sổ kế toán của một công ty có thể tiết lộ những cơn của sự sáng tạo. Yêu cầu hoàn trả người lao động, kiểm tra số lượng, con số lương, giá hàng tạp hóa — tất cả mọi thứ phụ thuộc vào pháp luật Benford. Nó thậm chí có thể được sử dụng để phát hiện các thao tác trên thị trường bởi vì các chữ số đầu tiên của giá cổ phiếu, ví dụ, có nghĩa vụ phải tuân theo phân bố Benford. Nếu họ không, chúng ta phải cảnh giác.

Đạo đức

figure4
Hình 4. Sự phân bố chung của các chữ số đầu tiên và thứ hai trong một mô phỏng, cho thấy hiệu ứng tương quan.

Những đạo đức của câu chuyện là đơn giản: Đừng sáng tạo trong khai thuế. Bạn sẽ bị bắt. Bạn có thể nghĩ rằng bạn có thể sử dụng phân phối Benford này để tạo ra một mô hình khấu trừ thuế thực tế hơn. Tuy nhiên, công việc này là khó khăn hơn so với âm thanh. Mặc dù tôi không đề cập đến nó, có một mối tương quan giữa các chữ số. Xác suất của chữ số thứ hai con 2, ví dụ, phụ thuộc vào những gì các chữ số đầu tiên là. Nhìn vào hình 4, trong đó cho thấy các cấu trúc tương quan trong một trong những mô phỏng của tôi.

Bên cạnh đó, hệ thống IRS có thể sẽ tinh tế hơn nhiều. Ví dụ, họ có thể sử dụng một hệ thống khai thác dữ liệu hoặc công nhận mô hình tiên tiến như mạng thần kinh hoặc hỗ trợ máy vector. Ghi dữ liệu mà IRS đã dán nhãn (Thu nhập chịu thuế của những người không thành công đã cố gắng để lừa, và những người công dân tốt) và họ có thể dễ dàng đào tạo các chương trình phân loại để bắt vừa chớm nở trốn thuế. Nếu họ không sử dụng các thuật toán nhận dạng mẫu tinh vi chưa, tôi tin tưởng, họ sẽ, sau khi nhìn thấy bài viết này. Khi nói đến các loại thuế, ngẫu nhiên sẽ luôn luôn đánh lừa bạn bởi vì nó được xếp chồng lên nhau chống lại bạn.

Nhưng nghiêm túc, Pháp luật Benford là một công cụ mà chúng ta phải nhận thức được. Nó có thể đến trợ giúp chúng ta theo những cách bất ngờ khi chúng ta thấy mình nghi ngờ tính xác thực của tất cả các loại dữ liệu số. Một kiểm tra dựa trên luật pháp là dễ thực hiện và khó có thể phá vỡ. Nó là đơn giản và khá phổ. Vì vậy,, chúng ta không cố gắng đánh bại Benford; chúng ta hãy tham gia với mình thay vì.

Tài liệu tham khảo
[1] Benford, F. “Luật số bất thường.” Proc. Amer. Phil. Sóc. 78, 551-572, 1938.
[2] Newcomb, S. “Lưu ý về tần số của việc sử dụng chữ số trong số tự nhiên.” Amer. J. Toán. 4, 39-40, 1881.
[3] Hill, T. P. “Một hình thức chiết khấu thống kê của Luật đáng kể chữ số.” Nhà nước. Khoa học viễn tưởng. 10, 354-363, 1996.
[4] Nigrini, M. “Tôi đã Got Your Number.” J. Kế toán 187, Trang. 79-83, May 1999. http://www.aicpa.org/pubs/jofa/may1999/nigrini.htm.

Photo by LendingMemo

Comments