Statistical Auditing (14)

Twijfel is de waakhond van het inzicht

De NBA heeft recent onderzoek gedaan naar de visie van de leden op professional scepsis. De volgende twee zinnen in een onder de leden verspreid boekje, onder het kopje Onderzoek, zijn het citeren waard:

Paul van Batenburg

"Bijna 900 leden reageerden op de enquête. Dat maakt de uitslag 99% betrouwbaar."

Ook statistici hebben een professioneel-kritische instelling, en die wordt geactiveerd bij het lezen van dergelijke zinnen. Wat is een 99% betrouwbare uitslag? En waarom zijn daar 900 respondenten voor nodig? Tijd voor een stukje statistiek.

Als we van een grote groep personen het percentage willen weten dat op een bepaalde vraag een bepaald antwoord zal geven, kunnen we dat percentage schatten met behulp van een steekproef. Zo'n schatting kan gebeuren in de vorm van een puntschatting:

"20% van de steekproef zei ja, dus ik denk dat ook 20% van de populatie dat zal doen."

Ook kan zo'n schatting gebeuren in de vorm van een interval:

"20% van mijn 900 respondenten zei ja, dus ik denk dat het percentage ja-zeggers in de populatie tussen 17,8 en 22,2 lig.t"

Die laatste uitspraak heeft een onnauwkeurigheid: de marge tussen alle mogelijke uitkomsten. Statistici kijken naar de halve breedte van het interval, dus 2,2% in dit geval. Die uitspraak heeft ook een onbetrouwbaarheid: er is een kans dat dit interval niet de werkelijke waarde bevat. In dit voorbeeld is die onbetrouwbaarheid 10%.

Wie niet van formules houdt moet nu twee alinea's overslaan.

De beste schatting is 20%, dus de geschatte variantie in een steekproef van 900 is 20%*(100%-20%)/900, en bij 90% betrouwbaarheid geeft de tabel van de normale verdeling als excentriciteit 1,645. Het interval is dus 20% plus of min 1,645 maal de wortel uit {20%*(100%-20%)/900} = 20% +/- 2,2%.

We hebben dus een interval met een onnauwkeurigheid van 2,2% en dus ook een nauwkeurigheid van 97,8%. Dat zelfde interval heeft een onbetrouwbaarheid van 10% en dus een betrouwbaarheid van 90%. Had ik 99% betrouwbaarheid willen bereiken, dan had ik de excentriciteit op 2,33 moeten stellen. Daardoor was het interval wel betrouwbaarder geworden maar ook onnauwkeuriger: 20% plus of min 2,33 maal de wortel uit {20%*(100%-20%)/900}= 20% +/- 3,1%.

Het nut van het interval is om daarmee de beslissing te kunnen onderbouwen om alleen de puntschatting te rapporteren: als het interval betrouwbaar en nauwkeurig genoeg is, is er geen bezwaar om de puntschatting van 20% te gebruiken als uitkomst alsof het de uitkomst voor de gehele populatie was.

Terug nu naar de 99% betrouwbare uitslag. In het stukje statistiek heb ik laten zien dat een betrouwbaarheid alleen maar zinnig is als er ook een nauwkeurigheid bij vermeld wordt. Sterker nog: met twee waarnemingen kunnen we al een 99% betrouwbare uitslag geven, als we maar geen eis stellen aan de nauwkeurigheid er van.

De omvang van de steekproef is natuurlijk erg belangrijk voor de bruikbaarheid van de schatting die er uit volgt, en het ligt inderdaad voor de hand dat een respons van 900 kan leiden tot aanvaardbare cijfers voor de betrouwbaarheid en nauwkeurigheid.

Maar er is nog iets anders nodig, en dat is representativiteit.

Als de respons vrijwillig is, zoals bij een enquête, is de omvang van de respons niet eens de belangrijkste zorg van de onderzoeker. Veel belangrijker is de vraag of die respons wel representatief is voor de te onderzoeken populatie. Heeft een groter deel van de voorstemmers de moeite gedaan om te reageren dan dat de tegenstemmers bereid waren de vragenlijst in te vullen? We weten het niet. En de omvang van de respons zegt daar niets over.

Vaak zien we daarom bij dergelijke onderzoeken een analyse van de (non-)respons. We weten bijvoorbeeld hoeveel mannen en hoeveel vrouwen in de populatie voorkomen en we weten ook de verdeling in de respons. Als (als!) we denken dat geslacht van invloed kan zijn op het al dan niet ja zeggen, dan is het verstandig om te laten zien of de respons representatief is qua geslacht. Het zal duidelijk zijn dat een dergelijke analyse meer vergt dan het opstellen van een tabelletje, want die analyse kan alleen maar gebeuren na een onderzoek naar verklarende variabelen voor het al dan niet ja zeggen. Alleen voor variabelen die bewezen ('significant') bijdragen aan die verklaring is representativiteit van de respons noodzakelijk.

Hoe twee korte zinnetjes een sceptische statisticus al uitdagen een diepgaand statistisch onderzoek te doen... wat een vak, he?

Stuurgroep Statistical Auditing

De Stuurgroep Statistical Auditing is verbonden met het Limperg Instituut en heeft als doel 'het bevorderen van het correcte (effectief en efficiƫnt) gebruik van statistische methoden en technieken bij accountantscontroles en daarmee verwante controles op financiƫle verantwoordingen en overzichten'.

Drs. Paul van Batenburg is zelfstandig adviseur die als statisticus met verstand van controleren de eenmanszaak en website steekproeven.eu voert.

Gerelateerd

reacties

Reageren op een artikel kan tot drie maanden na plaatsing. Reageren op dit artikel is daarom niet meer mogelijk.

Aanmelden nieuwsbrief

Ontvang elke werkdag (maandag t/m vrijdag) de laatste nieuwsberichten, opinies en artikelen in uw mailbox.

Bent u NBA-lid? Dan kunt u zich ook aanmelden via uw ledenprofiel op MijnNBA.nl.