Steekproefselectie, de basis
Wie bij het gebruiken van een data-analysetool als IDEA of ACL om een (geld)steekproef vraagt, krijgt de keuze uit drie opties: een recht-toe-recht-aan steekproef, een steekproef op basis van een vast interval, of een steekproef door middel van cell sampling*. In dit artikel worden deze opties kort uit de doeken gedaan.
Paul van Batenburg
Laten we beginnen met de standaard steekproef. Niks mis mee: we laten de computer gewoon n waarnemingen uit M steken. In geval van een geldsteekproef stelt M het aantal eurocenten in de te controleren populatie voor, en de software vertelt welke transacties zijn geraakt. Het is mogelijk dat een transactie tweemaal of vaker wordt geraakt, en door even te zoeken in de menustructuur van de software kan ook duidelijk worden welke euro(cent) er precies is gestoken. In het geval van een postensteekproef stelt M het aantal posten in de te controleren populatie voor en is de situatie (nog) simpeler.
Nogmaals, niks mis met deze methode, ware het niet dat accountants graag hun steekproef gelijkmatig over de populatie verdelen. Niet zozeer vanwege een wat overdreven behoefte aan representativiteit, maar omdat het handig plannen is als men kan voorspellen hoeveel waarnemingen al vast kunnen worden gecontroleerd in een deel van de te controleren populatie.
Vast interval
Daarvoor is de methode van het vaste interval bedacht. We steken n euro's uit M door eerst J = M/n te bepalen (naar beneden afronden a.u.b.!) en uit de eerste J euro's er random één aan te wijzen. Door daar vervolgens telkens J bij op te tellen krijgt men n waarnemingen die mooi gelijkmatig over de populatie zijn verdeeld en een post van omvang X heeft selectiekans X*n/M.
Deze simpele methode was ook toepasbaar geweest in de niet meer voor te stellen situatie dat u met de hand tien dossiers uit een stapel van honderd moet kiezen: door de 3e, de 13e, 23e etc. te pakken zorgt u voor een eerlijke steekproef waarin elk dossier evenveel kans op selectie heeft en voorkomt u dat u na zestig dossiers er al negen heeft aangewezen.
Is het echt zo simpel? Ja, en een beetje nee. Als u die eerste waarneming maar netjes random kiest is er wat dat betreft niets aan de hand. Maar, hoe kiest u drie waarnemingen uit tien?
De oplossing is om de populatie eerst aan te vullen met de niet bestaande 11e en 12e waarneming en dan uit vier cellen steeds een waarneming te kiezen. In één op de drie gevallen zult u dus drie waarnemingen vragen en er vier krijgen.
Voldoende random
Verder is er voor statistici een interessante vraag of deze steekproef wel voldoende random is, omdat zodra de eerste waarneming gekozen is alle andere waarnemingen vastliggen. In plaats van Mn, zijn er nog maar J mogelijke steekproeven te trekken. Over dat probleem heeft de beroemde statisticus Hoeffding (1956) zich druk gemaakt.
Zijn conclusie is: wie zo de steekproef trekt mag niet meer gebruik maken van formules voor trekken zonder terugleggen. Maar ja, dat waren accountants toch al niet van plan, want de (geld!)steekproef is natuurlijk maar een fractie van de populatie.
De methode van het vaste interval heeft een interessant gevolg voor grote posten: een post van omvang J moet minstens één keer worden aangewezen, en als een post meer dan eenmaal is aangewezen moet hij groter zijn dan J.
Gevolg is dat fouten in posten groter dan J (het zogenaamde top-stratum) niet geëxtrapoleerd (hoeven te) worden; hun foutbedrag wordt opgeteld bij de geprojecteerde en de maximale fout, en na correctie mogen die bedragen weer afgetrokken worden.
Er is wel een ander probleem. Stel we controleren de salarissen met een steekproef met een vast interval. Het is mogelijk dat het repeterende karakter van het salarisbestand met bedragen per persoon per maand in de steekproef terugkomt. J zal maar gelijk zijn aan het totaal van de salarissen per maand…
Cell sampling
De derde methode is cell sampling, beroemd geworden door Leslie, Teitlebaum en Anderson (1979), al is hun boek meer beroemd geworden door de voorgestelde evaluatiemethode dan door de selectiemethode.
Leslie et al. (1979) wilden gehoor geven aan de twijfel of het vaste interval wel random genoeg was en stelden voor de populatie van M euro's wel in cellen van J=M/n (omlaag afronden!) op te delen, maar dan uit iedere cel een nieuwe random selectie te maken.
Dat lijkt een stuk meer random, toch? Groot voordeel is dat er geen risico meer is van een patroon in de populatie dat in de steekproef doorkomt.
Maar nadelen zijn er ook:
- Het top-stratum bestaat niet meer uit posten groter dan J maar groter dan 2*J, behalve in de eerste en de laatste cel, daar is de grens weer J;
- Een post van twee euro kan (zei het met kans van maar J-2) tweemaal gestoken worden (en dan telt de fout ook twee keer mee…);
- De kans dat een post van omvang X wordt geselecteerd is een derdegraadsfunctie van X.
Al met al lijkt het er op dat cell sampling in ieder geval het risico van een patroon in de steekproef oplost, maar misschien wel een paardenmiddel is. De nadelen van selectie met een vast interval kunnen gemakkelijk worden opgevangen door de populatie random, of naar de omvang van de post te sorteren. Bij die laatste sortering krijgt men een steekproef die zo representatief mogelijk de verdeling van de omvang van de posten in de populatie weergeeft.
Literatuur
- Gill, R.D., (1983); The Sieve Method as an Alternative to Dollar-Unit Sampling: the Mathematical Background; Mathemathisch Centrum, Amsterdam.
- Hoeffding, W., (1956); On the Distribution of the Number of Successes in Independent Trials. Ann. Math. Statist.; ed. 27, pp. 713-721.
- Leslie, D.A., A.D. Teitlebaum and R.J. Anderson (1979); Dollar Unit Sampling: A Practical Guide for Auditors; Copp Clark Pitman, Toronto.
Noot
* Gill (1983) heeft uitgebreid de trekkingsmethoden Systematic Sampling, Cell Sampling en de Zeefmethode (Sieve Sampling) behandeld. De zeefmethode voert te ver voor dit artikel. De toelichting op beide andere methoden is heel helder. Gill vindt Cell Sampling en de zeefmethode aanvaardbaar.
Gerelateerd
Machine learning in de audit: stratificeren van bedrijfslocaties
In dit derde en laatste deel van een reeks columns over machine learning in de audit gaat het over clusteren. De auteurs laten zien hoe je met een open-source statistiekprogramma...
Machine learning in de audit: uitschieters bij vastgoedwaardering
Regressie is een vorm van machine learning met als doel het voorspellen van cijfers op basis van een aantal kenmerken. Met open-sourcesoftware kun je zonder programmeerkennis...
Machine learning in de audit: voorspellen van klantverloop
Het doel van machine learning is om voorspellingen te maken aan de hand van data. Binnen dit veld worden doorgaans drie hoofdtoepassingen onderscheiden: classificatie,...
De steekproefomvang ontmaskerd - deel 5
In vorige columns hebben we verschillende manieren besproken om tot een steekproefomvang te kunnen komen. Deze column is de laatste van de serie waarin we verschillende...
De steekproefomvang ontmaskerd - deel 4
Een accountant die gebruikmaakt van software om een steekproefomvang te berekenen, moet zeker weten dat die software dat goed doet. Daarvoor moet je de rekenmethode...