Twijfel is de waakhond van het inzicht
De NBA heeft recent onderzoek gedaan naar de visie van de leden op professional scepsis. De volgende twee zinnen in een onder de leden verspreid boekje, onder het kopje Onderzoek, zijn het citeren waard:
Paul van Batenburg
"Bijna 900 leden reageerden op de enquête. Dat maakt de uitslag 99% betrouwbaar."
Ook statistici hebben een professioneel-kritische instelling, en die wordt geactiveerd bij het lezen van dergelijke zinnen. Wat is een 99% betrouwbare uitslag? En waarom zijn daar 900 respondenten voor nodig? Tijd voor een stukje statistiek.
Als we van een grote groep personen het percentage willen weten dat op een bepaalde vraag een bepaald antwoord zal geven, kunnen we dat percentage schatten met behulp van een steekproef. Zo'n schatting kan gebeuren in de vorm van een puntschatting:
"20% van de steekproef zei ja, dus ik denk dat ook 20% van de populatie dat zal doen."
Ook kan zo'n schatting gebeuren in de vorm van een interval:
"20% van mijn 900 respondenten zei ja, dus ik denk dat het percentage ja-zeggers in de populatie tussen 17,8 en 22,2 lig.t"
Die laatste uitspraak heeft een onnauwkeurigheid: de marge tussen alle mogelijke uitkomsten. Statistici kijken naar de halve breedte van het interval, dus 2,2% in dit geval. Die uitspraak heeft ook een onbetrouwbaarheid: er is een kans dat dit interval niet de werkelijke waarde bevat. In dit voorbeeld is die onbetrouwbaarheid 10%.
Wie niet van formules houdt moet nu twee alinea's overslaan.
De beste schatting is 20%, dus de geschatte variantie in een steekproef van 900 is 20%*(100%-20%)/900, en bij 90% betrouwbaarheid geeft de tabel van de normale verdeling als excentriciteit 1,645. Het interval is dus 20% plus of min 1,645 maal de wortel uit {20%*(100%-20%)/900} = 20% +/- 2,2%.
We hebben dus een interval met een onnauwkeurigheid van 2,2% en dus ook een nauwkeurigheid van 97,8%. Dat zelfde interval heeft een onbetrouwbaarheid van 10% en dus een betrouwbaarheid van 90%. Had ik 99% betrouwbaarheid willen bereiken, dan had ik de excentriciteit op 2,33 moeten stellen. Daardoor was het interval wel betrouwbaarder geworden maar ook onnauwkeuriger: 20% plus of min 2,33 maal de wortel uit {20%*(100%-20%)/900}= 20% +/- 3,1%.
Het nut van het interval is om daarmee de beslissing te kunnen onderbouwen om alleen de puntschatting te rapporteren: als het interval betrouwbaar en nauwkeurig genoeg is, is er geen bezwaar om de puntschatting van 20% te gebruiken als uitkomst alsof het de uitkomst voor de gehele populatie was.
Terug nu naar de 99% betrouwbare uitslag. In het stukje statistiek heb ik laten zien dat een betrouwbaarheid alleen maar zinnig is als er ook een nauwkeurigheid bij vermeld wordt. Sterker nog: met twee waarnemingen kunnen we al een 99% betrouwbare uitslag geven, als we maar geen eis stellen aan de nauwkeurigheid er van.
De omvang van de steekproef is natuurlijk erg belangrijk voor de bruikbaarheid van de schatting die er uit volgt, en het ligt inderdaad voor de hand dat een respons van 900 kan leiden tot aanvaardbare cijfers voor de betrouwbaarheid en nauwkeurigheid.
Maar er is nog iets anders nodig, en dat is representativiteit.
Als de respons vrijwillig is, zoals bij een enquête, is de omvang van de respons niet eens de belangrijkste zorg van de onderzoeker. Veel belangrijker is de vraag of die respons wel representatief is voor de te onderzoeken populatie. Heeft een groter deel van de voorstemmers de moeite gedaan om te reageren dan dat de tegenstemmers bereid waren de vragenlijst in te vullen? We weten het niet. En de omvang van de respons zegt daar niets over.
Vaak zien we daarom bij dergelijke onderzoeken een analyse van de (non-)respons. We weten bijvoorbeeld hoeveel mannen en hoeveel vrouwen in de populatie voorkomen en we weten ook de verdeling in de respons. Als (als!) we denken dat geslacht van invloed kan zijn op het al dan niet ja zeggen, dan is het verstandig om te laten zien of de respons representatief is qua geslacht. Het zal duidelijk zijn dat een dergelijke analyse meer vergt dan het opstellen van een tabelletje, want die analyse kan alleen maar gebeuren na een onderzoek naar verklarende variabelen voor het al dan niet ja zeggen. Alleen voor variabelen die bewezen ('significant') bijdragen aan die verklaring is representativiteit van de respons noodzakelijk.
Hoe twee korte zinnetjes een sceptische statisticus al uitdagen een diepgaand statistisch onderzoek te doen... wat een vak, he?
Gerelateerd

Machine learning in de audit: stratificeren van bedrijfslocaties
In dit derde en laatste deel van een reeks columns over machine learning in de audit gaat het over clusteren. De auteurs laten zien hoe je met een open-source statistiekprogramma...

Machine learning in de audit: uitschieters bij vastgoedwaardering
Regressie is een vorm van machine learning met als doel het voorspellen van cijfers op basis van een aantal kenmerken. Met open-sourcesoftware kun je zonder programmeerkennis...

Machine learning in de audit: voorspellen van klantverloop
Het doel van machine learning is om voorspellingen te maken aan de hand van data. Binnen dit veld worden doorgaans drie hoofdtoepassingen onderscheiden: classificatie,...

De steekproefomvang ontmaskerd - deel 5
In vorige columns hebben we verschillende manieren besproken om tot een steekproefomvang te kunnen komen. Deze column is de laatste van de serie waarin we verschillende...

De steekproefomvang ontmaskerd - deel 4
Een accountant die gebruikmaakt van software om een steekproefomvang te berekenen, moet zeker weten dat die software dat goed doet. Daarvoor moet je de rekenmethode...