Representatief en realistisch
Onlangs stelde een ministerie in een offerteverzoek dat een voor het onderzoek te trekken steekproef "representatief en realistisch" moest zijn. Als statisticus vraag je je dan af hoeveel waarnemingen daarvoor nodig zijn.
Paul van Batenburg
Bij een realistische steekproef kan ik mij niets voorstellen, maar representativiteit is te concretiseren. Die eis betekent dat relevante kenmerken in een populatie naar evenredigheid in een steekproef moeten voorkomen. Maar zo'n eis zegt nog niets over de omvang van die steekproef.
Stel, 10 procent van de elementen van een populatie heeft een relevant kenmerk wel en de andere 90 procent heeft dat niet. Ongeacht de omvang van de steekproef zal het percentage in de steekproef met dat kenmerk gemiddeld over alle mogelijk te trekken steekproeven weer 10 procent zijn. Alleen, hoe groter de steekproef is, des te zekerder (betrouwbaarheid) we weten dat die uitkomst ook dicht in de buurt (onnauwkeurigheid) van 10 procent ligt. Een steekproef van 10 elementen uit deze populatie heeft ruim 1/3 kans om ook een 10/90 verhouding te leveren. Representatiever kan niet! Maar de kans op 10 gelijke waarnemingen is ook ruim 1/3 en zo’n steekproef zal 'helemaal niet' representatief zijn.
Als we de populatie eerst naar dat kenmerk in twee deelpopulaties kunnen opdelen en dan twee deelsteekproeven trekken, weten we zeker dat de steekproef representatief is wat betreft dit kenmerk. En nu maar hopen dat het kenmerk zo relevant is dat al dat werk de moeite waard is: als achteraf blijkt dat het kenmerk helemaal niet zo belangrijk is, hebben we voor niets gestratificeerd. Ook dan is de omvang van de steekproef dus niet relevant.
Als we dus weten dat een populatie een bepaalde verdeling voor een relevant kenmerk heeft, kunnen we door stratificatie representativiteit afdwingen. Het wordt anders als we vermoeden dat de populatie een bepaalde verdeling van dat kenmerk heeft, omdat die uitkomst nog niet in de dataset bevat is en in de steekproef moet worden verzameld. De opdrachtgever zal dan bij het stellen van eisen voor representativiteit moeten aangeven om welke kenmerken het gaat, wat het vermoedelijke voorkomen daarvan is en met welke onnauwkeurigheid en betrouwbaarheid die kenmerken in de steekproef vertegenwoordigd moeten zijn.
De termen onnauwkeurigheid en betrouwbaarheid blijven voor niet-statistici lastig, en daarom dus ook voor wel-statistici. Want hoe weet je als opdrachtnemer dat de opdrachtgever het snapt? Als voorbeeld een geanonimiseerd citaat uit een offerteverzoek:
"De steekproef dient een uitspraak te geven over XXX in de totale populatie met een betrouwbaarheid van 90 procent en een nauwkeurigheid van 10 procent. In [onderdelen van de populatie] wordt 85 procent betrouwbaarheid en 15 procent nauwkeurigheid verlangd."
Als statisticus vrees je dat de opdrachtgever de klok heeft horen luiden, maar niet weet waar de klepel hangt. Het gaat immers niet om een nauwkeurigheid van 10 procent maar om de ónnauwkeurigheid, en er bestaat geen wet die zegt dat de percentages van onnauwkeurigheid en betrouwbaarheid tot 100 optellen. Bovendien is een dergelijke specificatie van eisen misschien wel bruikbaar bij telbare kenmerken (die een percentage “ja” en een percentage “nee” bezitten), maar niet bij meetbare kenmerken.
Als het onderzoek over de winstgevendheid van loodgietersbedrijven gaat, kan je met dergelijke eisen uit de voeten bij een (telbare) opdeling 'wel of niet winst', maar niet als het om het (meetbare) winstbedrag gaat. Want hoe passen we dat percentage toe op dat bedrag? Het toepassen van deze criteria op de gemiddelde winst wordt een probleem als die winst gemiddeld nul of negatief blijkt te zijn.
Belangrijkste reden waarom dergelijke eisen van representativiteit vaak niet uitvoerbaar zijn, is dat die worden verwoord in termen van de te verklaren variabele van het onderzoek. Als een onderzoek is gericht op het in beeld brengen van de gemiddelde winst van loodgietersbedrijven en de steekproef wordt geacht dat gemiddelde met een bepaalde onnauwkeurigheid bij een gekozen betrouwbaarheid in kaart brengen, is er geen zinnig mens die een steekproefomvang uit de hoed kan toveren. Immers, die omvang hangt af van de uitkomsten. En de uitkomsten weet je pas lang nadat de omvang is bepaald.
Zonder formules te geven, zal het duidelijk zijn dat een steekproef groter moet zijn wanneer:
- de uitspraak nauwkeuriger moet zijn, dus het verschil tussen de onbekende werkelijke waarde en de uitkomst kleiner moet zijn;
- de uitspraak betrouwbaarder moet zijn, dus de kans dat de werkelijke waarde binnen die onnauwkeurigheidsmarge valt, groter moet zijn;
- de spreiding in de populatie groter is (maar die spreiding is pas achteraf bekend), omdat het dan moeilijker is om een representatief beeld van de populatie te geven.
Bij telbare kenmerken zegt een vuistregel dat spreiding in het gevonden percentage maximaal is bij een percentage van 50. Op die manier kan bij dit soort onderzoeken de onbekendheid van de spreiding in de populatie worden omzeild, maar bij meetbare kenmerken is dat gegeven echt onontbeerlijk.
Als dus de opdrachtgever een uitspraak wil over het percentage winstgevende loodgietersbedrijven met een onnauwkeurigheid van 10 procent bij een betrouwbaarheid van 90 procent, dan is er een steekproefomvang te bepalen. De onnauwkeurigheid is dan immers z * s / √n waarin:
z= de tabelwaarde uit de normale verdeling bij 90 procent betrouwbaarheid: 1,645;
s = de spreiding van het percentage in de steekproef, waarvan we weten dat die nooit groter kan zijn dan √(0,5x0,5)= 0,5;
n = de steekproefomvang, die in dit geval minimaal 1,6452. 0,52/0,12 = 68 moet zijn.
We gaan er hier van uit dat de onnauwkeurigheid eenzijdig is gevraagd, dus dat de toegestane marge rondom de schatting zowel 10 procent naar boven als 10 procent naar beneden mag afwijken.
Als we de winst van die bedrijven willen meten, kunnen we s niet invullen. Een pilotstudie, een eerste steekproef om te bepalen hoe groot de echte steekproef moet zijn, is dan misschien een oplossing. Daarover een volgende keer.
Gerelateerd
Machine learning in de audit: stratificeren van bedrijfslocaties
In dit derde en laatste deel van een reeks columns over machine learning in de audit gaat het over clusteren. De auteurs laten zien hoe je met een open-source statistiekprogramma...
Machine learning in de audit: uitschieters bij vastgoedwaardering
Regressie is een vorm van machine learning met als doel het voorspellen van cijfers op basis van een aantal kenmerken. Met open-sourcesoftware kun je zonder programmeerkennis...
Machine learning in de audit: voorspellen van klantverloop
Het doel van machine learning is om voorspellingen te maken aan de hand van data. Binnen dit veld worden doorgaans drie hoofdtoepassingen onderscheiden: classificatie,...
De steekproefomvang ontmaskerd - deel 5
In vorige columns hebben we verschillende manieren besproken om tot een steekproefomvang te kunnen komen. Deze column is de laatste van de serie waarin we verschillende...
De steekproefomvang ontmaskerd - deel 4
Een accountant die gebruikmaakt van software om een steekproefomvang te berekenen, moet zeker weten dat die software dat goed doet. Daarvoor moet je de rekenmethode...