Het nieuwe H-woord: Homogeen?
Vaak horen wij het argument dat steekproeven niet toepasbaar zijn omdat de populatie niet homogeen is. Als we dan doorvragen blijkt dat men dat stelt omdat er een steekproef is onderzocht die fouten bleek te bevatten van verschillende soort en oorzaak. "Dus de populatie is niet homogeen!", roept men dan. Wat is er dan eigenlijk aan de hand?
Paul van Batenburg en Hein Kloosterman
De controleur heeft een steekproef ontworpen met de bedoeling naar aanleiding van de uitkomst de populatie goed te keuren. Daarvoor mogen in de steekproef geen fouten voorkomen. Dat is gegeven het steekproefrisico en de toegelaten afwijking de kleinste steekproefomvang, levert het minste werk voor de controleur op en kost dus het minste geld.
Als de controle van de steekproef wel fouten laat zien, kunnen die fouten een heel spectrum aan foutsoorten bestrijken. Men stelt dan dat die verschillende soorten fouten niet als één foutsoort "op één hoop" mogen worden geëxtrapoleerd.
Waarom dat niet zou mogen wordt vervolgens niet duidelijk. Ook wordt niet duidelijk wat er verandert aan de uitkomst van de evaluatie als de fouten per stuk of per foutsoort worden geëxtrapoleerd. De meest waarschijnlijke fout is en blijft immers de optelling van foutbedrag gedeeld door selectiekans, en beide veranderen niet.
Het H-woord
Om het waarom van wel of niet "op één hoop" mogen extrapoleren duidelijk te maken introduceren wij hier het H-woord van homogeniteit. Een H-woord, omdat zal blijken dat het ontbreken van homogeniteit meer geld gaat kosten dan wanneer er wel sprake is van homogeniteit.
Maar wat is dan homogeniteit?
Homogeniteit is niet: alle elementen van de populatie zijn identiek. Er zijn geen administraties waarin de posten allemaal hetzelfde bedrag hebben. Homogeniteit betekent ook niet dat alle elementen van de populatie dezelfde foutkans hebben. Dan zijn er elementen, met foutkans 0 en wellicht ook een paar elementen met foutkans 1.
Een goede definitie van homogeniteit is dat alle elementen een foutkans hebben die uit dezelfde kansverdeling komt. De controleur kan dan vooraf een aanname doen over de vorm van die verdeling en door middel van waarnemingen die vorm kunnen aanpassen naar een gewenste vorm. Dat kan bijvoorbeeld door een verdeling waarbij de bovengrens voldoet aan de gekozen uitvoeringsmaterialiteit voor de populatie.
Waarom is homogeniteit belangrijk?
Steekproefcontrole leidt tot een geprojecteerde fout, en er bestaat een kans dat die foutschatting hoger is dan de werkelijke fout in de massa. Deze neemt niet af door meer waarnemingen te doen. Maar de foutschatting kan ook lager zijn (daar is meer kans op) en de meest waarschijnlijke uitkomst is - bij een homogene populatie - de werkelijke fout.
Stel dat de populatie heterogeen is
Stel dat de populatie in feite uit twee delen bestaat met een verschillende kansverdeling van de fout, dan hangt de vraag of de meest waarschijnlijke uitkomst gelijk is aan de werkelijke fout af van de vraag of die twee delen precies in de juiste verhoudingen in de steekproef zijn vertegenwoordigd.
Dat is niet te garanderen, maar wel te bevorderen door bij de sortering van de populatie voorafgaand aan selectie daar mee rekening te houden. Auditsoftware zal namelijk meestal een selectiemethode gebruiken waarbij de populatie eerst in intervallen wordt opgedeeld en daarna uit elk interval een euro(cent) wordt gestoken, een zogenaamde geldsteekproef.
Hoe kan de uitkomst van een steekproef onjuist zijn?
Als er geen sortering is toegepast (men weet namelijk vooraf niet altijd op welk criterium men de populatie moet sorteren), dan kan de uitkomst van de steekproef tot een te hoge (of een te lage!) meest waarschijnlijke fout leiden. Als men hoopt die uitkomst te kunnen verlagen of wanneer het belangrijk is om die meest waarschijnlijke uitkomst ook daadwerkelijk aan de juiste deelpopulatie toe te rekenen, dan kan dat niet anders dan door de steekproefomvang te vergroten en zo het interval waarmee de gevonden fouten worden geëxtrapoleerd te verkleinen.
Wie moet het extra werk doen?
Duidelijk is dat rekening houden met een niet-homogene populatie, dus een populatie verschillende kansverdelingen van mogelijke fouten, meer werk kost dan het negeren ervan. Een gecontroleerde die niet kan garanderen dat de gehele populatie consistent door een steeds goed werkende interne beheersing is afgehandeld, kan daarmee ook niet garanderen dat de foutverdeling homogeen verdeeld is. Dan moet de controleur extra werk doen om te voorkomen dat de meest waarschijnlijke fout te hoog (of te laag) wordt bepaald. En dat kost weer extra geld.
Men kan het ook samenvatten met de (retorische) vraag: moet de controleur extra werk doen omdat de gecontroleerde dat niet voldoende heeft gedaan?
Gerelateerd
Machine learning in de audit: stratificeren van bedrijfslocaties
In dit derde en laatste deel van een reeks columns over machine learning in de audit gaat het over clusteren. De auteurs laten zien hoe je met een open-source statistiekprogramma...
Machine learning in de audit: uitschieters bij vastgoedwaardering
Regressie is een vorm van machine learning met als doel het voorspellen van cijfers op basis van een aantal kenmerken. Met open-sourcesoftware kun je zonder programmeerkennis...
Machine learning in de audit: voorspellen van klantverloop
Het doel van machine learning is om voorspellingen te maken aan de hand van data. Binnen dit veld worden doorgaans drie hoofdtoepassingen onderscheiden: classificatie,...
De steekproefomvang ontmaskerd - deel 5
In vorige columns hebben we verschillende manieren besproken om tot een steekproefomvang te kunnen komen. Deze column is de laatste van de serie waarin we verschillende...
De steekproefomvang ontmaskerd - deel 4
Een accountant die gebruikmaakt van software om een steekproefomvang te berekenen, moet zeker weten dat die software dat goed doet. Daarvoor moet je de rekenmethode...