Benford και τους φόρους σας

Τίποτα δεν είναι σίγουρο αλλά ο θάνατος και οι φόροι, λένε. Στο μπροστινό μέρος του θανάτου, κάνουμε κάποιες επιδρομές με όλα τα ιατρικά θαύματα μας, τουλάχιστον σε αναβολή αν όχι να αποφευχθεί αυτό. Αλλά όταν πρόκειται για φόρους, δεν έχουμε καμία άμυνα, εκτός από ένα κομμάτι της δημιουργικότητας στις φορολογικές δηλώσεις μας.

Ας πούμε ότι ο θείος Σαμ πιστεύει ότι του χρωστάς $ 75k. Στην ειλικρινή γνώμη σας, η δίκαιη εικόνα είναι περίπου τα $ 50k. Έτσι, μια χτένα με εκπίπτουν από τη φορολογία τα έσοδα σας. Μετά από αμέτρητες ώρες σκληρής εργασίας, fyou φέρει τον αριθμό προς τα κάτω για να, λένε, $65να. Ως quant, μπορείτε να υπολογίσετε την πιθανότητα ενός ελέγχου IRS. Και μπορείτε να βάλετε έναν αριθμό (η αναμενόμενη τιμή σε δολάρια) με τον πόνο και την ταλαιπωρία που μπορεί να προκύψει από αυτό.

Ας υποθέσουμε ότι έχετε υπολογίσει τον κίνδυνο ενός φορολογικού ελέγχου να είναι περίπου 1% και να αποφασίσει ότι αξίζει τον κίνδυνο να γίνουν δημιουργικοί σε σας αξιώσεις έκπτωση της τάξης των $ 15k. Μπορείτε να στείλετε στην φορολογική δήλωση και να καθίσει σφιχτά, αυτάρεσκος, γνωρίζοντας ότι οι πιθανότητες να πάρει σας ελέγχονται είναι αρκετά λεπτή. Είστε μέσα για μια μεγάλη έκπληξη. Θα πάρετε καλά και πραγματικά ξεγελαστούν από την τυχαιότητα, και το IRS θα σχεδόν σίγουρα θέλουν να ρίξουμε μια πιο προσεκτική ματιά σε φορολογική σας δήλωση.

Η υπολογιζόμενη δημιουργικότητα στις φορολογικές δηλώσεις πληρώνει σπάνια off. Υπολογισμούς σας των αναμενόμενων πόνο και τα βάσανα είναι ποτέ δεν συμβαδίζει με τη συχνότητα με την οποία IRS σας ελέγχει. Η πιθανότητα ενός ελέγχου είναι, όντως, πολύ υψηλότερο αν προσπαθήσετε να φουσκώσετε φορολογικές εκπτώσεις σας. Μπορείτε να κατηγορήσει Benford για αυτό παραποιήσει σε πιθανότητα στοιβάζονται ενάντια υπέρ σας.

Σκεπτικισμός

Benford παρουσίασε κάτι πολύ αντι-διαισθητικό σε άρθρο του [1] σε 1938. Ρώτησε: Ποια είναι η κατανομή των πρώτων ψηφίων σε κάθε αριθμητικό, τα δεδομένα της πραγματικής ζωής? Με την πρώτη ματιά, η απάντηση είναι μάλλον προφανής. Όλα τα ψηφία πρέπει να έχουν την ίδια πιθανότητα. Γιατί να υπάρχει μια προτίμηση για κάθε ένα ψηφίο σε τυχαία δεδομένα?

figure1
Εικόνα 1. Η συχνότητα εμφάνισης των πρώτων ψηφία στα ονομαστικά ποσά των χρηματοπιστωτικών συναλλαγών. Το μωβ καμπύλη είναι η προβλεπόμενη διανομή. Σημειώστε ότι οι μικρές υπερβολές σε 1 και 5 πάνω από το μοβ καμπύλη αναμένεται, επειδή οι άνθρωποι τείνουν να επιλέγουν υπηκόους, όπως 1/5/10/50/100 εκατομμύριο. Η περίσσεια σε 8 Αναμένεται επίσης γιατί θεωρείται ένας τυχερός αριθμός στην Ασία.

Benford έδειξε ότι το πρώτο ψηφίο σε ένα “φυσικώς απαντώμενα” αριθμός είναι πολύ πιο πιθανό να είναι 1 και όχι από οποιοδήποτε άλλο ψηφίο. Όντως, κάθε ψηφίο έχει μια συγκεκριμένη πιθανότητα να είναι στην πρώτη θέση. Το ψηφίο 1 έχει την υψηλότερη πιθανότητα; το ψηφίο 2 είναι περίπου 40% λιγότερο πιθανό να είναι στην πρώτη θέση και ούτω καθεξής. Το ψηφίο 9 έχει τη χαμηλότερη πιθανότητα όλα; είναι περίπου 6 φορές λιγότερο πιθανό να είναι στην πρώτη θέση.

Όταν άκουσα για πρώτη φορά από αυτό το πρώτο ψηφίο του φαινομένου από μια καλά ενημερωμένη συνάδελφος, Νόμιζα ότι ήταν παράξενο. Θα αφελώς αναμένεται να δούμε περίπου ίδια συχνότητα εμφάνισης για όλα τα ψηφία από 1 να 9. Έτσι μάζεψα μεγάλο ποσό των χρηματοοικονομικών στοιχείων, περίπου 65000 αριθμοί (όσες Excel θα επιτρέψει), και κοίταξε το πρώτο ψηφίο. Βρήκα Benford να είναι απολύτως σωστό, όπως φαίνεται στο Σχήμα 1.

Η πιθανότητα το πρώτο ψηφίο είναι αρκετά μακριά από την ομοιόμορφη, ως εικόνα 1 παραστάσεις. Η κατανομή είναι, όντως, λογαριθμική. Η πιθανότητα κάθε ψηφίο d δίνεται από log(1 + 1 / δ), το οποίο είναι το πορφυρό καμπύλη στο Σχήμα 1.

Αυτή η ασύμμετρη κατανομή δεν είναι μια ανωμαλία στα δεδομένα που έτυχε να δούμε. Είναι ο κανόνας σε κάθε “φυσικώς απαντώμενα” δεδομένων. Είναι νόμος του Benford του. Benford συλλέγεται ένα μεγάλο αριθμό από φυσικώς απαντώμενα στοιχεία (συμπεριλαμβανομένου του πληθυσμού, περιοχές των ποταμών, φυσικές σταθερές, αριθμοί από δημοσιεύματα εφημερίδων και ούτω καθεξής) και έδειξε ότι τηρείται αυτή η εμπειρική νόμο.

Προσομοίωση

Ως ποσοτική προγραμματιστή, Τείνω να προσομοιώσει τα πράγματα σε έναν υπολογιστή με την ελπίδα ότι μπορεί να είναι σε θέση να δείτε τα πρότυπα που θα με βοηθήσει να καταλάβω το πρόβλημα. Το πρώτο ερώτημα που πρέπει να εγκαταστάθηκαν στη προσομοίωσης είναι να καταλάβουμε ποια είναι η κατανομή πιθανότητας ενός αόριστου ποσότητα, όπως “φυσικώς απαντώμενα αριθμούς” θα ήταν. Μόλις έχω την κατανομή, Μπορώ να δημιουργήσει τους αριθμούς και να δούμε τα πρώτα ψηφία για να δείτε τη συχνότητα εμφάνισής τους.

Σε ένα μαθηματικό ή ποσοτική, δεν υπάρχει τίποτα πιο φυσικό ότι το φυσικό λογάριθμο. Έτσι, η πρώτη κατανομή των υποψηφίων για φυσικά αριθμοί είναι κάτι σαν RV exp(RV), όπου RV είναι μία ομοιόμορφα κατανεμημένη τυχαία μεταβλητή (μεταξύ μηδέν και δέκα). Το σκεπτικό πίσω από αυτή την επιλογή είναι μια παραδοχή ότι ο αριθμός των ψηφίων σε φυσικώς ενυπάρχοντα αριθμών κατανέμεται ομοιόμορφα μεταξύ του μηδενός και ένα άνω όριο.

Πράγματι, μπορείτε να επιλέξετε άλλα, φανταχτερά διανομές για φυσικά αριθμούς. Δοκίμασα ένα ζευγάρι των άλλων υποψήφιων διανομές χρησιμοποιώντας δύο ομοιόμορφα κατανεμημένη (μεταξύ μηδέν και δέκα) τυχαίων μεταβλητών RV1 και RV2: RV1 exp(RV2) και exp(RV1 RV2). Όλες αυτές οι διανομές να αποδειχθούν καλές εικασίες για φυσικώς απαντώμενα αριθμούς, όπως απεικονίζεται στο Σχήμα 2.

figure2
Εικόνα 2. Η κατανομή των πρώτων ψηφίων στην προσομοίωση του «φυσικώς απαντώμενα" αριθμούς, σε σύγκριση με την πρόβλεψη.

Τα πρώτα ψηφία των αριθμών που δημιουργούνται ακολουθούν νόμο του Benford σε μια παράξενη ακρίβεια. Γιατί συμβαίνει αυτό? Ένα καλό πράγμα για την προσομοίωση σε υπολογιστή είναι ότι μπορείτε να σκάψει βαθύτερα και να δούμε τα ενδιάμεσα αποτελέσματα. Για παράδειγμα, στην πρώτη μας προσομοίωση με τη διανομή: RV exp(RV), μπορούμε να θέσουμε το ερώτημα: Ποιες είναι οι αξίες της RV για την οποία έχουμε πάρει μια ορισμένη πρώτο ψηφίο? Η απάντηση φαίνεται στο σχήμα 3α. Σημειώστε ότι οι περιοχές στις RV που δίνουν το πρώτο ψηφίο 1 είναι πολύ μεγαλύτερες από εκείνες που δίνουν 9. Περίπου έξι φορές μεγαλύτερο, όντως, όπως αναμενόταν. Παρατηρήστε πώς το ίδιο μοτίβο επαναλαμβάνεται ως προσομοίωση φυσικών αριθμών “roll over” από το πρώτο ψηφίο του 9 να 1 (ως ενεργοποίηση του χιλιομετρητή).

figure3a
Σχήμα 3α. Οι σειρές σε μία ομοιόμορφα κατανεμημένη (μεταξύ 0 και 10) τυχαία μεταβλητή RV που οδηγούν σε διαφορετικές πρώτα ψηφία RV exp(RV). Σημειώστε ότι το πρώτο ψηφίο του 1 λαμβάνει χώρα πολύ πιο συχνά από ό, τι το υπόλοιπο, όπως αναμενόταν.

Μια παρόμοια τάση μπορεί να δει σε φανταχτερά προσομοίωση μας με δύο τυχαίες μεταβλητές. Οι περιοχές σε κοινές κατανομές τους, που οδηγούν σε διάφορες πρώτα ψηφία RV1 exp(RV2) δείχνονται στο Σχήμα 3b. Ανακοίνωση για τα μεγάλα τμήματα του βαθύ μπλε (που αντιστοιχεί στο πρώτο ψηφίο του 1) και να συγκρίνουν την περιοχή τους με τα κόκκινα στρώματα (για το πρώτο ψηφίο 9).

figure3b
Σχήμα 3b. Οι περιοχές με την κοινή κατανομή των δύο ομοιόμορφα κατανεμημένα (μεταξύ 0 και 10) τυχαίων μεταβλητών RV1 και RV2 που οδηγούν σε διαφορετικές πρώτα ψηφία σε RV1 exp(RV2).

Η άσκηση αυτή μου δίνει τη διορατικότητα Ήλπιζα να μαζέψει από την προσομοίωση. Ο λόγος για την επικράτηση των μικρότερων ψηφία στην πρώτη θέση είναι ότι η κατανομή του φυσικώς απαντώμενα αριθμών είναι συνήθως ένα κωνικό ενός; υπάρχει συνήθως ένα ανώτερο όριο στους αριθμούς, και όπως θα έχετε πιο κοντά στο ανώτερο όριο, η μάλλον η πυκνότητα γίνεται όλο και μικρότερα. Καθώς περνάτε το πρώτο ψηφίο του 9 και στη συνέχεια να κυλήσει πάνω σε 1, ξαφνικά το φάσμα γίνεται πολύ μεγαλύτερο.

Αν και αυτή η εξήγηση είναι ικανοποιητική, το εκπληκτικό γεγονός είναι ότι δεν έχει σημασία πόσο η πιθανότητα φυσικών διανομές λεπταίνει. Είναι σχεδόν σαν το κεντρικό οριακό θεώρημα. Φυσικά, αυτό το μικρό προσομοίωση δεν είναι αυστηρή απόδειξη. Αν ψάχνετε για μια αυστηρή απόδειξη, μπορείτε να το βρείτε στο έργο του Hill [3].

Ανίχνευση της Απάτης

Παρά το γεγονός ότι το φορολογικό μας προβλήματα φοροδιαφυγής μπορεί να αποδοθεί σε Benford, το πρώτο ψηφίο φαινόμενο περιγράφηκε αρχικά σε ένα άρθρο από τον Simon Newcomb [2] στο American Journal των Μαθηματικών 1881. Ανακαλύφθηκε ξανά από τον Frank Benford σε 1938, στο οποίο όλοι τη δόξα (ή το φταίξιμο, ανάλογα με το ποια πλευρά του φράχτη που θα βρεθείτε) πήγε. Όντως, ο πραγματικός ένοχος πίσω από φορολογικά δεινά μας μπορεί να ήταν ο Θεόδωρος Χιλ. Έφερε την ασαφή νομοθεσία στο προσκήνιο σε μια σειρά άρθρων στη δεκαετία του 1990. Παρουσίασε ακόμη μια στατιστική απόδειξη [3] για το φαινόμενο.

Εκτός από την πρόκληση προσωπικά μας φορολογικά προβλήματα, Νόμος του Benford μπορεί να διαδραματίσει κρίσιμο ρόλο σε πολλές άλλες απάτης και παρατυπιών ελέγχους [4]. Για παράδειγμα, το πρώτο ψηφίο κατανομή των λογιστικών εγγραφών της μιας εταιρείας μπορεί να αποκαλύψει περιόδους της δημιουργικότητας. Αξιώσεις αποζημίωσης των εργαζομένων, ελέγξετε τα ποσά, στοιχεία του μισθού, τιμές τροφίμων — τα πάντα είναι θέμα με το νόμο του Benford. Μπορεί ακόμη να χρησιμοποιηθεί για να ανιχνεύσει τους χειρισμούς της αγοράς, διότι τα πρώτα ψηφία των τιμών των μετοχών, για παράδειγμα, υποτίθεται ότι ακολουθεί την κατανομή Benford. Εάν δεν το κάνουν, πρέπει να είμαστε επιφυλακτικοί.

Ηθική

figure4
Εικόνα 4. Η από κοινού διανομή του πρώτου και του δεύτερου ψηφία σε μια προσομοίωση, δείχνει αποτελέσματα συσχέτισης.

Το ηθικό δίδαγμα της ιστορίας είναι απλή: Μην πάρετε δημιουργικοί με τις φορολογικές δηλώσεις σας. Θα πιάσουν. Μπορείτε να σκεφτείτε ότι μπορείτε να χρησιμοποιήσετε αυτή την κατανομή Benford να δημιουργήσει ένα πιο ρεαλιστικό μοντέλο έκπτωση φόρου. Αλλά αυτή η δουλειά είναι πιο δύσκολο από ό, τι ακούγεται. Αν και δεν το αναφέρω, υπάρχει μία συσχέτιση μεταξύ των ψηφίων. Η πιθανότητα το δεύτερο ψηφίο ον 2, για παράδειγμα, Εξαρτάται από το τι το πρώτο ψηφίο είναι. Κοιτάξτε σχήμα 4, το οποίο δείχνει τη δομή συσχέτισης σε μία από τις προσομοιώσεις μου.

Εκτός από, το σύστημα IRS είναι πιθανό να είναι πολύ πιο εξελιγμένα. Για παράδειγμα, θα μπορούσαν να είναι, χρησιμοποιώντας ένα προηγμένο σύστημα εξόρυξης δεδομένων ή αναγνώρισης προτύπων, όπως τα νευρωνικά δίκτυα ή υποστήριξη μηχανές διάνυσμα. Να θυμάστε ότι η IRS έχει επισημανθεί δεδομένα (φορολογικές δηλώσεις από εκείνους που ανεπιτυχώς προσπάθησε να εξαπατήσει, και εκείνων των καλών πολιτών) και μπορούν εύκολα να εκπαιδεύσουν τα προγράμματα ταξινομητή για να πιάσει τους εκκολαπτόμενους φοροφυγάδες. Αν δεν χρησιμοποιείτε αυτά τα εξελιγμένοι αλγόριθμοι αναγνώρισης προτύπων ακόμα, πιστέψτε με, που θα, αφού είδε αυτό το άρθρο. Όταν πρόκειται για φόρους, τυχαιότητα θα σας ξεγελάσουν πάντα επειδή είναι στοιβάζονται εναντίον σας.

Αλλά σοβαρά, Νόμος του Benford είναι ένα εργαλείο που πρέπει να έχουμε επίγνωση των. Μπορεί να έρθει στην ενίσχυσή μας με απροσδόκητους τρόπους, όταν βρισκόμαστε αμφισβητεί την αυθεντικότητα όλων των ειδών των αριθμητικών δεδομένων. Ο έλεγχος με βάση το νόμο είναι εύκολο να εφαρμοστεί και σκληρά για να παρακάμψουν. Είναι απλό και αρκετά καθολική. Έτσι, ας μην προσπαθήσει να κερδίσει Benford; ας τον ενώσει αντί.

Αναφορές
[1] Benford, F. “Ο νόμος των αριθμών Ανώμαλη.” Proc. Amer. Phil. Soc. 78, 551-572, 1938.
[2] Newcomb, S. “Σημείωση σχετικά με τη συχνότητα της χρήσης των ψηφίων σε φυσικούς αριθμούς.” Amer. J. Μαθηματικά. 4, 39-40, 1881.
[3] Χιλ, T. P. “Η Στατιστική Παραγωγή του Σημαντικές-Digit Νόμου.” Μέλος. Sci. 10, 354-363, 1996.
[4] Nigrini, M. “Έχω τον αριθμό σας.” J. Λογιστική 187, pp. 79-83, Μάιος 1999. http://www.aicpa.org/pubs/jofa/may1999/nigrini.htm.

Photo by LendingMemo

Comments