벤 포드와 귀하의 세금

아무것도 일정하지만, 죽음과 세금 없다, 그들이 말하는. 죽음의 전면에, 우리는 우리의 모든 의료 놀라운 일부 진출하고 있습니다, 적어도 그것을 연기하지 않을 경우 실제로 그것을 피하는. 그러나 세금에 관해서, 우리는 우리의 세금 환급에 창조성의 비트 이외의 방어가 없다.

의는 엉클 샘 당신이 그에게 $ 75K 빚을 생각 해 봅시다. 당신의 솔직한 의견에, 공정 그림은 $ 50K 마르크에 관한 것입니다. 그럼 당신은 세금 공제 영수증을 통해 빗. 노력의 수많은 시간 후, fyou는 아래로 볼 수있게, 말, $65에. 퀀트로, 당신은 IRS 감사의 확률을 추정 할 수있다. 그리고 당신은 숫자를 넣을 수 있습니다 (달러의 기대 값) 그것에서 발생할 수있는 통증과 고통에.

이제 당신에 대해 될 수있는 세무 조사의 위험을 계산한다고 가정하자 1% 그것은 $ 15K의 조정에 당신 공제 주장 창조적 얻기 위해 위험을 감수 할 가치임을 결정. 당신은 세금 환급을 보내 꽉 앉아, 지식 잘난척 감사를 받고 당신의 가능성은 매우 희박 그. 당신은 큰 놀랄 아르. 당신은 잘 진정 난수에 속지 얻을 것이다, 와 IRS는 거의 확실하게 세금 환급에 대해 자세히 살펴 봐야 할 것입니다.

세금 환급의 계산 창의성은 거의 떨어져 지불하지. 예상 고통과 고통의 당신의 계산은 IRS가 당신을 감사하는 빈도와 일치 결코. 감사의 확률은, 사실로, 당신이 당신의 세금 공제를 팽창하려고하면 훨씬 더 높은. 당신은 당신의 호의에 대해 누적 확률이 스큐 벤 포드를 비난 할 수.

회의론

벤 포드는 자신의 문서에서 매우 직관적 뭔가를 제시 [1] 에서 1938. 그는 질문을: 어떤 숫자의 첫 번째 숫자의 분포는 무엇입니까, 실제 데이터? 언뜻, 대답은 분명한 것 같다. 모든 숫자는 동일한 확률을 가지고 있어야. 왜 임의의 데이터에서 어느 한 자리에 기본 설정이있을 것입니다?

figure1
그림 1. 금융 거래의 명목 양으로 첫 번째 자리의 발생 빈도. 보라색 ​​곡선 예측 분포. 참고로 약간의 과잉에서 1 및 5 사람들이 같은 국적을 선택하는 경향이 있기 때문에 보라색 곡선 위에 것으로 예상된다 1/5/10/50/100 만. 초과에서 8 그것은 아시아에서 행운의 숫자 간주되기 때문에도 기대된다.

벤 포드는 보여 주었다에서 제 자리 “자연적으로 발생하는” 개수는 훨씬 더 가능성이 높습니다 1 오히려 다른 자리보다. 사실, 각 숫자는 제 위치에있는 특정 확률을 가지고. 자리 1 가장 높은 확률을 가지고; 자리 2 에 관한 것입니다 40% 등을 제 위​​치에 덜. 자리 9 모든 낮은 확률을 갖는다; 그것은 약이다 6 제 위치에 덜 회.

내가 먼저 박식 한 동료에서이 첫째 자리 현상에 들었을 때, 나는 이상한 생각. 나는 순진하게도 모든 숫자에 대해 발생의 대략 동일한 주파수를 볼 것으로 예상 것 1 에 9. 그래서 금융 많은 양의 데이터를 수집, 에 대한 65000 번호 (Excel에서 허용 할만큼), 첫 번째 자리를 쳐다 보면서. 나는 벤 포드가 절대적으로 옳다고 발견, 도면에 도시 된 바와 같이 1.

첫 번째 자리의 확률은 균일에서 꽤 멀리, 그림으로 1 쇼. 분포는, 사실로, 로그. 임의의 숫자 (D)의 확률이 로그에 의해 주어진다(1 + 1 / D), 어떤 그림의 보라색 곡선이다 1.

이 왜곡 된 분포는 내가 볼 수 있었던 데이터에 이상 없습니다. 그것은 어떤의 규칙입니다 “자연적으로 발생하는” 데이터. 그것은 벤 포드의 법칙입니다. 벤 포드는 자연적으로 발생하는 데이터를 다수 수집 (를 포함하여 인구, 하천의 영역, 물리 상수, 그래서 신문 보고서와에서 번호) 이 경험적 법칙이 존중되는 것으로 나타났다.

시뮬레이션

양적 개발자로서, 나는 내 문제를 이해하는 데 도움이됩니다 패턴을 볼 수 있습니다 희망이있는 컴퓨터에 일을 시뮬레이션하는 경향이. 시뮬레이션에 정착 할 첫 번째 질문은 알아 내기 위해 어떤 막연한 수량의 확률 분포와 같은 “자연스럽게 숫자를 발생” 것. 나는 분포를 갖게되면, 나는 번호를 생성하고 발생 빈도를 볼 수 첫째 자리에서 볼 수있다.

수학자 또는 정량적으로, 자연 로그가 더 자연스러운 것은 없다. 그래서 자연적으로 발생하는 숫자에 대한 첫 번째 후보 분포는 RV 특급 같은입니다(RV), 여기서 RV는 균일하게 분포 된 확률 변수이다 (제로 열 사이). 이러한 선택 근거들은 뒤에 천연 숫자의 자릿수 균일 제로 상한 사이에 분포되어있다 가정.

실제로, 당신은 다른 사람을 선택할 수 있습니다, 자연적으로 발생하는 번호에 대한 애호가 분포. 나는이를 사용하여 다른 후보 배포판의 몇 균일하게 분포 시도 (제로 열 사이) 확률 변수의 RV1 및 RV2: RV1 특급(RV2) 특급(RV1 RV2). 이러한 모든 배포판은 자연스럽게 숫자를 발생 좋은 추측으로 판명, 그림과 같이 2.

figure2
그림 2. 시뮬레이션에서 제 자리의 분포는 숫자 "자연적으로 발생", 예측 비교.

나는 정도의 기괴한 정도 벤 포드의 법칙에 따라 생성 된 번호의 첫 번째 자리. 그 이유는 무엇입니까? 컴퓨터 시뮬레이션에 대한 하나의 좋은 점은 당신이 더 깊이 파고 중간 결과를 볼 수 있다는 것입니다. 예를 들면, 분포 우리의 첫 번째 시뮬레이션: RV 특급(RV), 우리는 질문을 할 수 있습니다: 우리가 특정 첫 번째 자리를 얻을 수있는 RV의 값은 무엇입니까? 대답은 그림 3a에 표시됩니다. 참고로 첫 번째 숫자를 줄 RV의 범위 1 수득 것보다 훨씬 더 크다 9. 약 6 배, 사실로, 예상대로. 패턴이있는 자연 숫자로 자신을 반복하는 방법을 주목하라 “이월” 첫 번째 자리부터 9 에 1 (주행 트립 등).

figure3a
그림 3a. 의 범위는 균일하게 분포 (사이 0 및 10) RV 애 썼는데 다른 첫째 자리 발생할 확률 변수 RV(RV). 참고로의 첫 번째 자리 1 나머지보다 훨씬 더 자주 발생, 예상대로.

비슷한 경향은 두 확률 변수와 함께 우리의 애호가 시뮬레이션에서 볼 수 있습니다. RV1 특급 다양한 첫째 자리를 야기 공동 배포판 지역(RV2) 그림 3b에 표시됩니다. 깊고 푸른의 큰 붕대를 주목하라 (의 첫 번째 자리에 대응 1) 와 빨간 붕대로 자신의 영역을 비교 (첫 번째 숫자에 대한 9).

figure3b
그림 3b. 둘의 공동 분배의 영역은 균일하게 분포 (사이 0 및 10) RV1 애 썼는데 다른 첫째 자리 발생할 확률 변수의 RV1 및 RV2(RV2).

이 운동은 내게 시뮬레이션에서 이삭 기대했다 통찰력을 제공합니다. 제 위치에 작은 숫자의 우세 이유는 자연적으로 발생하는 수의 분포는 일반적으로 한 테이퍼로되어있다; 숫자 상한은 보통 존재, 당신은 상한 가까이로, 아마 밀도는 작아지고 작아진다. 당신의 첫 번째 자리를 통과하면 9 다음으로 이월 1, 갑자기 그 범위는 훨씬 더 큰된다.

이 설명은 만족하지만, 놀라운 사실은 자연 분포의 확률이 점점 줄 방법​​에 문제가되지 않는다는 것입니다. 그것은 거의 중심 극한 정리 같다. 물론, 이 작은 시뮬레이션은 엄격한 증거 없다. 당신은 엄격한 증거를 찾고 있다면, 당신은 힐의 작품에서 찾을 수 있습니다 [3].

사기 탐지

우리의 탈세 문제는 벤 포드에 기인 할 수 있지만, 첫 번째 숫자 현상은 원래 사이먼 뉴컴의 글에서 설명했다 [2] 수학의 미국 저널에 1881. 그것은 프랭크 벤 포드에 의해 재발견 1938, 누구에게 모든 영광을 (또는 비난, 울타리의 어느면에 따라 당신은 자신을 발견) 갔다. 사실, 우리의 세금 불황 뒤에 진짜 범인 시어 도어 힐되었을 수도 있습니다. 그는 1990 년대에 일련의 기사에서 각광에 모호한 법을 가져. 그는 심지어 통계적 증거를 제시 [3] 현상에 대한.

우리의 개인적인 세금 문제를 일으키는뿐만 아니라, 벤 포드의 법칙은 다른 많은 사기와 불규칙 검사에서 중요한 역할을 할 수있다 [4]. 예를 들면, 회사의 회계 항목의 첫 번째 숫자 분포는 창조성의 관찰을 표시 할 수 있습니다. 직원 급여 청구, 금액을 확인, 급여 수치, 식료품 가격 — 모든 벤 포드의 법칙이 적용됩니다. 그것도 시장 조작을 검출하는데 사용될 수 주가 제 자리 인해, 예를 들어, 벤 포드 분포를 따르도록되어 있습니다. 그들은하지 않으면, 우리는 조심해야.

도덕의

figure4
그림 4. 시뮬레이션에서, 제 1 및 제 2 디지트 조인트 분포, 상관 효과를 도시.

이야기의 교훈은 간단하다: 세금 환급 창조적하지 마세요. 당신은 잡힐 것. 당신은 당신이보다 현실적인 세금 공제 패턴을 생성하기 위해이 벤 포드 분포를 사용할 수 있다는 생각. 그러나이 작업은 생각보다 더 어렵다. 나는 그것을 언급하지 않았지만, 숫자 사이의 상관 관계가있다. 두 번째 숫자의 존재의 확률 2, 예를 들어, 첫 번째 숫자가 무엇인지에 따라 달라집니다. 그림 좀 봐 4, 이는 내 시뮬레이션 한 상관 구조를 도시.

게다가, IRS 시스템은 훨씬 더 정교 될 가능성. 예를 들면, 그들은 신경망 또는 지원 벡터 머신으로 고급 데이터 마이닝 패턴 인식 시스템을 사용 할 수 있습니다. IRS가 표시된 것을 데이터를 기억 (실패 속이려고 사람들의 세금 환급, 좋은 시민의 그) 그들은 쉽게 세금 evaders 신진 잡으려고 분류 프로그램을 훈련 할 수있다. 그들은 그러나 이러한 정교한 패턴 인식 알고리즘을 사용하지 않는 경우, 날 믿어, 그들은 것, 이 기사를보고 난 후에. 그것은 세금에 관해서, 그것이 당신에 대하여 적층되어 있기 때문에 임의성은 항상 당신을 속일 것입니다.

하지만 심각, 벤 포드의 법칙은 우리가 인식해야하는 도구입니다. 우리가 우리 자신은 숫자 데이터의 모든 종류의 진위를 의심 찾을 때 예상치 못한 방법으로 우리의 원조에 올 수 있습니다. 법에 기초한 검사 구현하기 쉽고 회피하기 어렵다. 그것은 간단하고 매우 보편적이다. 그래서, 의는 벤 포드를 이길려고하지 말자; 의 대신에 그를 가입하자.

참조
[1] 벤 포드, 에프. “변칙 번호의 법칙.” 시저. 메르. 필. SOC. 78, 551-572, 1938.
[2] 뉴컴, 에스. “자연 숫자의 자릿수의 사용 빈도에 유의하십시오.” 메르. J. 수학. 4, 39-40, 1881.
[3] 언덕, 티. 피. “뜻 깊은 자리 법의 통계 유도.” 주. 과학. 10, 354-363, 1996.
[4] Nigrini, M. “나는 당신의 번호를 가지고있다.” J. 회계 187, 쪽. 79-83, 월 1999. HTTP://www.aicpa.org/pubs/jofa/may1999/nigrini.htm.

Photo by LendingMemo

Comments