Oppassen met 'blokselectie'
Een onderneming wil een schatting maken van de aard van de binnengekomen orders van de laatste vijf jaar. Men heeft niet meer de beschikking over het bestand met orders over deze periode.
Hein Kloosterman
Door allerlei veranderingen is er nog een oud bestand met orderregels over de laatste vier jaar en drie maanden. Wel zijn er de nieuwe orderregels in het huidige systeem. De onderneming heeft heel veel kleine orders met elk een omvangrijke hoeveelheid orderregels. De hoeveelheid regels per order is daardoor vaak heel groot, soms matig groot en heel soms bevat een order maar één orderregel.
Die heel grote hoeveelheid schrikt de onderzoeker af. Ook ziet hij op tegen het werken met die oude bestanden. Hij besluit om de orderregels van twee aaneengesloten recente maanden (mei en juni) te onderzoeken. Omdat hij het gevoel heeft dat de orderregels hem om de oren vliegen, besluit hij tot het samenvoegen van de regels tot complete orders. Daarna laat hij een aselecte steekproef trekken uit die orders. De onderzoeker wil onderzoeken met een hoge statistische betrouwbaarheid en een hoge nauwkeurigheid. Daarom ontwerpt hij een steekproef van grote omvang.
De vraag is of dit een goede manier van werken is: krijgt de onderzoeker op deze manier wel een goed beeld van de aard van de binnengekomen orders over de laatste vijf jaar?
Twee delen
De trekking van de steekproef is in twee delen gebeurd. Het eerste deel is de selectie van de onderzoeken periode; deze is in het controlejargon het best te omschrijven als een blokselectie. Het tweede deel is als een mathematische steekproef te beschouwen.
Om een indruk te krijgen of er sprake is van een goede manier van werken, raadplegen we zowel de NV COS en als de theorie omtrent steekproeven.
NV COS laat in richtlijn 530 de term 'blokselectie' zien. Wat zegt deze richtlijn? In bijlage 4 van richtlijn 530 staat:
'Blokselectie omvat het selecteren van een of meer blokken van opeenvolgende eenheden binnen de populatie. Blokselectie kan in het algemeen niet worden gebruikt voor steekproeven bij een controle, omdat de meeste populaties zodanig zijn opgebouwd, dat de eenheden binnen een reeks naar verwachting dezelfde kenmerken zullen vertonen ten opzichte van elkaar, maar dat deze zullen verschillen ten opzichte van de kenmerken van andere eenheden in de populatie. Hoewel het onder bepaalde omstandigheden één van de geschikte controlewerkzaamheden kan zijn om een blok van eenheden te onderzoeken, is het zelden een geschikte techniek voor het selecteren van een steekproef wanneer de accountant op basis van steekproeven geldige conclusies wil trekken aangaande de populatie als geheel.'
De richtlijn zegt dus dat de accountant niet zonder meer een blokselectie kan toepassen als een oordeel over het totaal aantal blokken in de populatie nodig is. Beetje wollig is de tekst wel.
Clustersteekproef
Wat laat de theorie van de statistiek ons zien?
Het theoretisch fenomeen dat het dichtst bij blokselectie komt is de 'clustersteekproef'. Bij clustersteekproeven wordt eerst een groep waarnemingen aselect gekozen en vervolgens trekt men binnen elke groep een aantal elementen aselect. Er is dus sprake van twee keer een random trekking. Is dat niet het geval, dan is er misschien een uitspraak over dat ene blok mogelijk, maar niet over de verzameling blokken.
Het aselecte trekken van de blokken moet ervoor zorgen dat de blokken representatief zijn voor de populatie als geheel. Op dezelfde manier moeten de getrokken posten (records) binnen de getrokken blokken representatief zijn voor de posten in de populatie.
Doordat er een tweetrapsraket wordt gebruikt is de onnauwkeurigheid van een steekproef afhankelijk van zowel de clusterselectie (het aantal getrokken clusters) als van de selectie binnen een cluster (de uiteindelijk getrokken orders).
Wat gebeurt er als, zoals in het voorbeeld, maar één blok wordt geselecteerd en de onderzoeker over de hele populatie wil oordelen?
De formules - ik zal ze hier niet weergeven - laten zien dat de onnauwkeurigheid wordt berekend door onder meer te delen door het aantal clusters minus één. Men zou moeten delen door nul, dus. Maar daardoor wordt de berekende onnauwkeurigheid onbepaald groot.
Geen zinnig woord
Conclusie: de voorzichtigheid die richtlijn 530 uitspreekt voor een blokselectie, blijkt overduidelijk als die blokselectie leidt tot de selectie van één aaneengesloten deelperiode. In het voorbeeld is met de intensieve beoordeling van die ene deelperiode dus geen zinnig woord te zeggen over de aard van de orders over die totale periode van vijf jaar.
Gerelateerd
Machine learning in de audit: stratificeren van bedrijfslocaties
In dit derde en laatste deel van een reeks columns over machine learning in de audit gaat het over clusteren. De auteurs laten zien hoe je met een open-source statistiekprogramma...
Machine learning in de audit: uitschieters bij vastgoedwaardering
Regressie is een vorm van machine learning met als doel het voorspellen van cijfers op basis van een aantal kenmerken. Met open-sourcesoftware kun je zonder programmeerkennis...
Machine learning in de audit: voorspellen van klantverloop
Het doel van machine learning is om voorspellingen te maken aan de hand van data. Binnen dit veld worden doorgaans drie hoofdtoepassingen onderscheiden: classificatie,...
De steekproefomvang ontmaskerd - deel 5
In vorige columns hebben we verschillende manieren besproken om tot een steekproefomvang te kunnen komen. Deze column is de laatste van de serie waarin we verschillende...
De steekproefomvang ontmaskerd - deel 4
Een accountant die gebruikmaakt van software om een steekproefomvang te berekenen, moet zeker weten dat die software dat goed doet. Daarvoor moet je de rekenmethode...