Bayesiaanse statistiek: wat kan je er mee?
Een stevig onderwerp deze keer: Bayesiaanse statistiek, controle en internal control.
Paul van Batenburg
Een voorbeeld. Uit een populatie van 1 miljoen euro's is een geldsteekproef van 400 waarnemingen getrokken. Daarin zijn 4 (‘hele") fouten geconstateerd. Dat betekent dat de beste schatting voor het aantal onjuiste euro's in de populatie 1 procent, dus 10.000 euro, is. Van die 4 fouten waren er 2 van hetzelfde type: door controlemaatregel C hadden deze voorkomen kunnen worden. De beste schatting voor het aantal euro's in de populatie dat door het ontbreken van die maatregel onjuist is, is 5.000. Maar hoeveel euro's hadden we daarvoor door die controlemaatregel moeten laten beoordelen? Stel dat er in de steekproef ook 118 correcte euro's zaten die met die 2 fouten vergelijkbaar waren en dus ook door controlemaatregel C geraakt waren. Dan komen wij op een deelverzameling C van 300.000 euro's.
steekproef |
|
|
|
|
C |
non C |
|
error |
2 |
2 |
4 |
correct |
118 |
278 |
396 |
|
120 |
280 |
400 |
Omdat elke steekproefeuro representatief is voor J = 2.500 euro's in de populatie krijgen we de volgende tabel voor de populatie:
|
C |
non C |
|
error |
5.000 |
5.000 |
5.000 |
correct |
295.000 |
695.000 |
990.000 |
|
300.000 |
700.000 |
1.000.000 |
Laten we deze tabel eens nader bekijken:
- De helft van alle fouten komt voor in de deelmassa die door controlemaatregel C is geraakt, maar in die deelmassa is de foutkans 1,67 procent.
- De overall foutkans is 1 procent, en in de deelmassa C is die 1,67 procent. In de andere deelmassa is de foutkans 0,70 procent. Dus euro's in deelmassa C zijn 7/3 maal zo foutgevoelig als euro's daar buiten.
- De effectiviteit van een controlemaatregel die alle euro's in C schoonmaakt is daarom 233.
- Zo'n controlemaatregel zou betekenen dat 50 procent van alle fouten voorkomen kan worden door 30 procent van de populatie te onderzoeken. De efficiency van die controlemaatregel is daarom 167.
Als we deze getallen nu in formules zetten volgt vanzelf de Regel van Bayes:
De argumentatie om een controlemaatregel in te voeren wordt niet bepaald door welk deel van de fouten die er mee voorkomen konden worden in de steekproef zaten: P(C|error), maar door de vraag hoeveel fouten met de controlemaatregel voorkomen hadden kunnen worden: P(error|C). De regel van Bayes zegt nu:
P(error |C) = P(C|error) x P(error)/P(C),
maar, P(error) weten we niet. Wat we wel weten:
P(error |C)/P(error|non C) = P(C|error)/(non C|error) x P(non C)/P(C)
= P(C| error)/(1-P(C|error)) x (1-P(C))/P(C)
De effectiviteit van een controlemaatregel is dus te bepalen zonder de foutkans te kennen of te schatten.
De efficiency van een controlemaatregel is P(C|error)/P(C). Dit kan worden herschreven als: P(C and error)/(P(error) x P(C)), zodat:
- die index 100 is als de controlemaatregel onafhankelijk is van de fout: weten dat de euro tot C behoort, leert ons dan niets over de foutgevoeligheid. Een getallenvoorbeeld zou zijn:
|
C |
non C |
|
error |
5.000 |
5.000 |
10.000 |
correct |
495.000 |
495.000 |
990.000 |
|
500.000 |
500.000 |
1.000.000 |
- als de efficiency-index van en controlemaatregel kleiner is dan 100, is de efficiency-index van de rest groter dan 100: niet de aanwezigheid van de betreffende eigenschap is belangrijk om te onderzoeken, maar de afwezigheid ervan!
Gerelateerd

Machine learning in de audit: stratificeren van bedrijfslocaties
In dit derde en laatste deel van een reeks columns over machine learning in de audit gaat het over clusteren. De auteurs laten zien hoe je met een open-source statistiekprogramma...

Machine learning in de audit: uitschieters bij vastgoedwaardering
Regressie is een vorm van machine learning met als doel het voorspellen van cijfers op basis van een aantal kenmerken. Met open-sourcesoftware kun je zonder programmeerkennis...

Machine learning in de audit: voorspellen van klantverloop
Het doel van machine learning is om voorspellingen te maken aan de hand van data. Binnen dit veld worden doorgaans drie hoofdtoepassingen onderscheiden: classificatie,...

De steekproefomvang ontmaskerd - deel 5
In vorige columns hebben we verschillende manieren besproken om tot een steekproefomvang te kunnen komen. Deze column is de laatste van de serie waarin we verschillende...

De steekproefomvang ontmaskerd - deel 4
Een accountant die gebruikmaakt van software om een steekproefomvang te berekenen, moet zeker weten dat die software dat goed doet. Daarvoor moet je de rekenmethode...