Evaluatie van een steekproef in het risicoanalysemodel
In deze bijdrage laat ik twee methoden zien om de uitkomsten van een steekproef met behulp van het risicoanalysemodel te evalueren; een daarvan geniet de voorkeur.
Paul van Batenburg
Het risicoanalysemodel is een hulpmiddel om de steekproefomvang te bepalen wanneer uit andere werkzaamheden (risicoanalyse en beoordeling of de interne beheersing die risico’s adequaat mitigeert) gunstige voorkennis is verkregen over de kwaliteit van de te controleren populatie. Ik bespreek twee methodes om de uitkomsten van zo'n steekproef te evalueren. Kloosterman en Geertman hebben in column 57 een soortgelijke situatie behandeld.
Opzet:
Uiteindelijk doel van de steekproef is om met redelijke zekerheid te laten zien dat de populatie geen materiële fout bevat. Voor die redelijke zekerheid wordt meestal 95% gekozen en die materiële fout wordt gekwantificeerd door de uitvoeringsmaterialiteit, symbool PM. In column 72 heb ik de verschillen tussen de begrippen materialiteit, uitvoeringsmaterialiteit en toelaatbare afwijking geduid.
De formule voor de omvang van de geldsteekproef die daarvoor nodig is, is n = R M/PM waarin M het te controleren bedrag is en R een tabelwaarde die gelijk is aan 3 om bij 0 gevonden fouten 95% betrouwbaarheid te leveren.
Dankzij het risicoanalysemodel kan een lagere waarde dan 3 worden ingevuld om tot een kleinere steekproefomvang te komen. De steekproef wordt dan bepaald op n = R M/PM en getrokken met een interval M/n = PM/R. Bij de evaluatie is dat interval belangrijk, want daar bepalen we de maximale fout MF als MF = R M/n, met R de tabelwaarde die hoort bij het aantal gevonden fouten en de te hanteren betrouwbaarheid.
Er wordt dus een steekproef getrokken met interval PM/R, maar er is uiteindelijk een conclusie nodig die overeenkomt met een steekproef die getrokken zou zijn met interval PM/3. Dankzij de risicoanalyse en de beoordeling van de interne beheersing wordt het resterende aantal waarnemingen foutloos verondersteld. Als de werkelijke gecontroleerde waarnemingen foutloos zijn, is die veronderstelling vanzelfsprekend; als de gereduceerde steekproef wel fouten geeft is het van belang die veronderstelling te heroverwegen.
Evaluatie, twee methoden:
Als de steekproef zoals verwacht inderdaad foutloos is, ligt het voor de hand om de populatie goed te keuren. Maar, daarvoor is 95% zekerheid nodig dat de fout in de populatie lager is dan PM. De steekproef levert die 95% betrouwbaarheid niet, maar een lagere waarde (Voor de liefhebbers: 1-exp(-R)), dus bijvoorbeeld 63% bij R=1). Er zijn dus minder waarnemingen gecontroleerd dan voor de evaluatie nodig is.
Er zijn nu twee manieren om de goedkering te onderbouwen:
a. De maximale fout bij 0 fouten en die lagere betrouwbaarheid is de tabelwaarde R maal het interval M/n =PM/R. De steekproef geeft dus nog niet voldoende betrouwbaarheid dat de fout onder de uitvoeringsmaterialiteit PM ligt, maar de andere werkzaamheden verhogen die betrouwbaarheid tot 95%.
b. De steekproef is gestoken met een interval van PM/R, maar wordt geëvalueerd met interval PM/3. De resterende waarnemingen worden goedgemaakt door de andere werkzaamheden. Die waarnemingen worden foutloos verondersteld en meegerekend bij de evaluatie. De 95% betrouwbare maximale fout is dan 3 maal het interval PM/3.
Als u nu denkt: “R maal PM/R is toch gelijk aan 3 maal PM/3?”, dan kan ik niets anders dan u gelijk geven. Bij 0 gevonden fouten zijn methoden a. en b. identiek. Maar, zodra er fouten worden gevonden is er een flink verschil. Daarom raad ik methode b. aan.
Verschillen:
Ten eerste is het belangrijk te beseffen dat het vinden van fouten strijdig kan zijn met de aannames achter het gebruik van het risicoanalysemodel. De steekproefomvang is immers gereduceerd en die waarnemingen worden als correct meegeteld, omdat werd aangenomen dat het risico op een materiële fout laag is en dat de interne beheersing zijn werk zou doen in het afvangen van materiële fouten. Het vinden van fouten moet dus altijd leiden tot een heroverweging of de bij de opzet gekozen tabelwaarde R nog wel de juiste is.
Die heroverweging kan er toe leiden dat de steekproefreductie ongedaan wordt gemaakt en de omvang alsnog wordt bepaald door uit te gaan van R=3, maar kan er ook toe leiden dat nog steeds op die gunstige voorkennis wordt gesteund en de resterende waarnemingen voor een interval PM/3 nog steeds worden goedgemaakt door de risicoanalyse en de beoordeling van de interne beheersing.
Ten tweede is methode b. in die laatste situatie gunstiger. De maximale fout gaat bij 95% betrouwbaarheid van 3 maal het interval bij 0 fouten naar 4,75 maal het interval bij 1 fout (58% stijging), maar bijvoorbeeld bij R=1 en 63% betrouwbaarheid is die stijging 113%: van 1 naar 2,13. De uitkomst bij 1 gevonden fout is 4,75 maal PM/3 en dat is veel lager en dus gunstiger dan 2,13 maal PM/1!
Voorbeeld:
Uit de hierna volgende tabel wordt het verschil tussen de methoden a. en b. getoond voor zes mogelijke niveaus van gegevensgerichte controle. Veel kantoren werken immers met zes niveaus uitgaande van drie risicocategorieën en het al dan niet steunen op de interne beheersing.
Het gaat om een populatie die wordt gecontroleerd met een uitvoeringsmaterialiteit van 30.000 euro. Als in de daarvoor noodzakelijke steekproef fouten worden gevonden kan men op dat niveau de maximale fout bepalen en dan beslissen of dat bedrag als 95% betrouwbare bovengrens gehanteerd mag worden (methode a.) of eerst beslissen of de controlemix gehandhaafd kan blijven en daarna in de meest rechtse kolom altijd bij 95% betrouwbaarheid evalueren (methode b).
Natuurlijk, hoe verder naar links in de tabel, des te meer schuurt het vinden van fouten, maar ik kijk nu alleen naar de getalsmatige kant van de keuze. Daaruit blijkt dat methode b. in de laatste kolom lagere maximale fouten oplevert dan methode a. in de kolommen daarvoor.
R | 0,2 | 0,5 | 0,7 | 1 | 2 | 3 |
betrouwbaarheid | 18% | 39% | 50% | 63% | 86% | 95% |
aantal fout | maxfout | maxfout | maxfout | maxfout | maxfout | maxfout |
0 | 30.000 | 30.000 | 30.000 | 30.000 | 30.000 | 30.000 |
0,1 | 37.156 | 34.890 | 34.184 | 33.511 | 32.420 | 31.910 |
1 | 115.837 | 81.461 | 72.397 | 64.386 | 52.579 | 47.490 |
2 | 219.053 | 135.632 | 115.197 | 97.748 | 73.166 | 63.016 |
Ten slotte:
Voor wie het bovenstaande te technisch was, sluit ik af met een voorbeeld. Ik kijk nu niet naar de maximale fout maar naar de geprojecteerde fout. Het gaat weer om een bedrag dat wordt gecontroleerd met een uitvoeringsmaterialiteit van 30.000 euro. Op basis van het risicoanalyse model wordt gekozen voor een R waarde van 1. Het selectie-interval is dus 30.000/1 en de steekproef bevat 100 waarnemingen.
In die steekproef wordt een foutje gevonden: een geboekte waarde van 100 had 90 moeten zijn. Een foutfractie van 0,1 dus. De accountant besluit dat ondanks het vinden van dit foutje de risicoanalyse overeind blijft en op de interne beheersing kan blijven worden gesteund.
Standaard 450 schrijft voor dat deze bevinding wordt geëxtrapoleerd en dat de geprojecteerde fout aan de huishouding wordt voorgelegd met het verzoek deze te corrigeren.
Hoe groot is die geprojecteerde fout? Het zal geen groot bedrag zijn, maar voordat besloten wordt dat het te klein is om te laten corrigeren (“duidelijk onbeduidend”) moeten we het eerst uitrekenen. Is het 0,1 maal 1/100 van de populatie? Die berekening negeert de keuze om te steunen op de risicoanalyse en de interne beheersing!
Het juiste antwoord is drie maal zo gunstig: 0,1 maal 1/300 van de populatie: er zijn 100 waarnemingen gestoken, maar de evaluatie wordt berekend alsof er 300 zijn gecontroleerd. De 200 resterende waarnemingen komen uit het risicoanalysemodel en werden verondersteld foutloos te zijn. Het interval voor selectie is dus PM/R, maar voor de evaluatie is het PM/3.
Misschien is het zelfs beter om te verwoorden dat er een conclusie is getrokken alsof er 300 foutloze waarnemingen zijn geconstateerd, waarvan er 100 daadwerkelijk zijn gestoken en 200 zijn vervangen door werkzaamheden om de risico’s in kaart te brengen en de interne beheersing te beoordelen.
Gerelateerd
Machine learning in de audit: stratificeren van bedrijfslocaties
In dit derde en laatste deel van een reeks columns over machine learning in de audit gaat het over clusteren. De auteurs laten zien hoe je met een open-source statistiekprogramma...
Machine learning in de audit: uitschieters bij vastgoedwaardering
Regressie is een vorm van machine learning met als doel het voorspellen van cijfers op basis van een aantal kenmerken. Met open-sourcesoftware kun je zonder programmeerkennis...
Machine learning in de audit: voorspellen van klantverloop
Het doel van machine learning is om voorspellingen te maken aan de hand van data. Binnen dit veld worden doorgaans drie hoofdtoepassingen onderscheiden: classificatie,...
De steekproefomvang ontmaskerd - deel 5
In vorige columns hebben we verschillende manieren besproken om tot een steekproefomvang te kunnen komen. Deze column is de laatste van de serie waarin we verschillende...
De steekproefomvang ontmaskerd - deel 4
Een accountant die gebruikmaakt van software om een steekproefomvang te berekenen, moet zeker weten dat die software dat goed doet. Daarvoor moet je de rekenmethode...