Statistical Auditing (32) 14 juli 2014

Bayesiaanse statistiek: wat kan je er mee?

Leestijd van ongeveer 4 minuten 0 reacties

Een stevig onderwerp deze keer: Bayesiaanse statistiek, controle en internal control.

Paul van Batenburg

Een voorbeeld. Uit een populatie van 1 miljoen euro's is een geldsteekproef van 400 waarnemingen getrokken. Daarin zijn 4 (‘hele") fouten geconstateerd. Dat betekent dat de beste schatting voor het aantal onjuiste euro's in de populatie 1 procent, dus 10.000 euro, is. Van die 4 fouten waren er 2 van hetzelfde type: door controlemaatregel C hadden deze voorkomen kunnen worden. De beste schatting voor het aantal euro's in de populatie dat door het ontbreken van die maatregel onjuist is, is 5.000. Maar hoeveel euro's hadden we daarvoor door die controlemaatregel moeten laten beoordelen? Stel dat er in de steekproef ook 118 correcte euro's zaten die met die 2 fouten vergelijkbaar waren en dus ook door controlemaatregel C geraakt waren. Dan komen wij op een deelverzameling C van 300.000 euro's.

steekproef
	C	non C
error	2	2	4
correct	118	278	396
	120	280	400

Omdat elke steekproefeuro representatief is voor J = 2.500 euro's in de populatie krijgen we de volgende tabel voor de populatie:

	C	non C
error	5.000	5.000	5.000
correct	295.000	695.000	990.000
	300.000	700.000	1.000.000

Laten we deze tabel eens nader bekijken:

De helft van alle fouten komt voor in de deelmassa die door controlemaatregel C is geraakt, maar in die deelmassa is de foutkans 1,67 procent.
De overall foutkans is 1 procent, en in de deelmassa C is die 1,67 procent. In de andere deelmassa is de foutkans 0,70 procent. Dus euro's in deelmassa C zijn 7/3 maal zo foutgevoelig als euro's daar buiten.
De effectiviteit van een controlemaatregel die alle euro's in C schoonmaakt is daarom 233.
Zo'n controlemaatregel zou betekenen dat 50 procent van alle fouten voorkomen kan worden door 30 procent van de populatie te onderzoeken. De efficiency van die controlemaatregel is daarom 167.

Als we deze getallen nu in formules zetten volgt vanzelf de Regel van Bayes:

De argumentatie om een controlemaatregel in te voeren wordt niet bepaald door welk deel van de fouten die er mee voorkomen konden worden in de steekproef zaten: P(C|error), maar door de vraag hoeveel fouten met de controlemaatregel voorkomen hadden kunnen worden: P(error|C). De regel van Bayes zegt nu:

P(error |C) = P(C|error) x P(error)/P(C),

maar, P(error) weten we niet. Wat we wel weten:

P(error |C)/P(error|non C) = P(C|error)/(non C|error) x P(non C)/P(C)

= P(C| error)/(1-P(C|error)) x (1-P(C))/P(C)

De effectiviteit van een controlemaatregel is dus te bepalen zonder de foutkans te kennen of te schatten.

De efficiency van een controlemaatregel is P(C|error)/P(C). Dit kan worden herschreven als: P(C and error)/(P(error) x P(C)), zodat:

die index 100 is als de controlemaatregel onafhankelijk is van de fout: weten dat de euro tot C behoort, leert ons dan niets over de foutgevoeligheid. Een getallenvoorbeeld zou zijn:

	C	non C
error	5.000	5.000	10.000
correct	495.000	495.000	990.000
	500.000	500.000	1.000.000

als de efficiency-index van en controlemaatregel kleiner is dan 100, is de efficiency-index van de rest groter dan 100: niet de aanwezigheid van de betreffende eigenschap is belangrijk om te onderzoeken, maar de afwezigheid ervan!

Stuurgroep Statistical Auditing

De Stuurgroep Statistical Auditing is verbonden met het Limperg Instituut en heeft als doel 'het bevorderen van het correcte (effectief en efficiënt) gebruik van statistische methoden en technieken bij accountantscontroles en daarmee verwante controles op financiële verantwoordingen en overzichten'.

Reageer

Drs. Paul van Batenburg is zelfstandig adviseur die als statisticus met verstand van controleren de eenmanszaak en website steekproeven.eu voert.

Gerelateerd

Statistical Auditing (103) 22 november 2024

Machine learning in de audit: stratificeren van bedrijfslocaties

In dit derde en laatste deel van een reeks columns over machine learning in de audit gaat het over clusteren. De auteurs laten zien hoe je met een open-source statistiekprogramma...

Statistical auditing (102) 21 juni 2024

Machine learning in de audit: uitschieters bij vastgoedwaardering

Regressie is een vorm van machine learning met als doel het voorspellen van cijfers op basis van een aantal kenmerken. Met open-sourcesoftware kun je zonder programmeerkennis...

Statistical Auditing (101) 01 mei 2024

Machine learning in de audit: voorspellen van klantverloop

Het doel van machine learning is om voorspellingen te maken aan de hand van data. Binnen dit veld worden doorgaans drie hoofdtoepassingen onderscheiden: classificatie,...

Statistical auditing (100) 15 november 2023

De steekproefomvang ontmaskerd - deel 5

In vorige columns hebben we verschillende manieren besproken om tot een steekproefomvang te kunnen komen. Deze column is de laatste van de serie waarin we verschillende...

Statistical auditing (99) 26 juni 2023

De steekproefomvang ontmaskerd - deel 4

Een accountant die gebruikmaakt van software om een steekproefomvang te berekenen, moet zeker weten dat die software dat goed doet. Daarvoor moet je de rekenmethode...