Statistical auditing (48) 22 september 2015

Representatief en realistisch - vervolg

Leestijd van ongeveer 3 minuten 0 reacties

Een list voor het schatten van een bedrag: helpt een pilot-onderzoek?

Paul van Batenburg

In een vorige column (nummer 46) heb ik laten zien hoe een steekproefomvang kan worden berekend als men een percentage wil schatten op basis van de vereiste betrouwbaarheid en onnauwkeurigheid. Zo bleek een steekproef van 68 voldoende om met 90 procent betrouwbaarheid en 10 procent onnauwkeurigheid een schatting te geven van het percentage winstgevende loodgietersbedrijven. Als er immers in die 68 waarnemingen precies 34 winstgevende bedrijven zijn, is de onnauwkeurigheid rondom de beste schatting van 50 procent bij 90 procent betrouwbaarheid 1,645 * √(50% * (100%-50%)) / √68=: afgerond 10 procent. Als het aantal winstgevende bedrijven in de steekproef niet 34 maar x% is, dan is de spreiding √(x%*(100%-x%)) altijd kleiner dan √(50% * (100%-50%)) en wordt het interval smaller en de schatting nog nauwkeuriger.

Om de steekproefomvang te bepalen hoeven we dus in bovenstaande casus de spreiding niet vooraf te kennen. Dat wordt anders als de onderzoeksvraag niet is gesteld in de vorm van het schatten van een percentage maar het schatten van een bedrag. Als we het gemiddelde winstbedrag van loodgietersbedrijven willen schatten met 90 procent betrouwbaarheid en 10 procent onnauwkeurigheid zullen we de spreiding – oftewel de maat daarvoor, de standaarddeviatie σ – moeten invullen in de formule voor de onnauwkeurigheid 1,645 σ/√n. Maar er is nóg een uitdaging: als die onnauwkeurigheid maximaal 10 procent van het geschatte gemiddelde mag zijn, wordt de noodzakelijke steekproefomvang groter naarmate de geschatte gemiddelde winst kleiner wordt!

Er moet dus een list worden verzonnen voor het invullen van de standaarddeviatie, van σ dus, bijvoorbeeld door gebruik te maken van de uitkomsten van een eerder onderzoek of van een pilotstudie. Daarbij is het heel belangrijk om de betrouwbaarheid en onnauwkeurigheid van die voorgaande schatting te weten. Immers, als de spreiding in de nieuwe steekproef groter blijkt dan die in dat vorige onderzoek, dan wordt de onnauwkeurigheid groter dan verwacht en blijkt de steekproefomvang achteraf dus te klein te zijn.

Er is dus een groot risico bij deze methode dat de spreiding in de te onderzoeken grootheid wordt onderschat, zodat de steekproef niet toereikend is om de onderzoeksvraag te beantwoorden. Daarom is het erg belangrijk dat zo’n pilotsteekproef groot genoeg is. Vaak zie je de suggestie om 20 tot 30 waarnemingen te doen.

Stel dat de populatie bestaat uit 95 procent correcte boekingen en 5 procent boekingen met fouten. We steken een pilot van 20 en bepalen de standaarddeviatie van de fouten. De kans op een foutloze steekproef, en dus een standaarddeviatie van 0 en een noodzakelijke controle van 20 waarnemingen is 0,95 tot de macht 20 oftewel 35 procent. Een op de drie pilots zal dus zeker de spreiding onderschatten (er zijn immers wel fouten, maar niet in de pilot) en op een te lage steekproefomvang uitkomen.

In de jaren tachtig van de vorige eeuw heeft professor J. Kriens van de toenmalige KUB (nu Tilburg University) een simulatiestudie gedaan op magazijnvoorraden. Uit bestanden met integraal getelde voorraden werden steekproeven getrokken en de spreiding in de afwijkingen werd vergeleken met de spreiding in de gehele populatie. Bij welke minimale omvang van een pilot weet je voldoende zeker dat de spreiding niet wordt onderschat? Het antwoord was niet fijn: 100 tot 200 waarnemingen, afhankelijk van het aantal fouten in de populatie. Een pilot met een omvang van 20 à 30 is dus te klein.

Wat ook verrassend was in het simulatieonderzoek: hoe slechter de populatie, des te minder waarnemingen er nodig zijn voor een oordeel. Niet intuïtief, en ook lijnrecht ingaand tegen het risicoanalysemodel. Maar dat was ook niet bedacht voor dit soort controles. Schatten is nu eenmaal efficiënter dan toetsen, maar leidt niet tot een beheersing van het risico op ten onrechte goedkeuren.

Reageer

Drs. Paul van Batenburg is zelfstandig adviseur die als statisticus met verstand van controleren de eenmanszaak en website steekproeven.eu voert.

Gerelateerd

Statistical auditing 10 december 2025

Auditen van de eerlijkheid van een algoritme, met behulp van statistiek

Eind 2024 trad de EU-wetgeving op kunstmatige intelligentie (AI) in werking. Deze wetgeving is opgesteld om het toenemende gebruik van AI in besluitvormings- en...

Statistical auditing 05 september 2025

De Wet van Benford

De Wet van Benford kent toepassingen binnen de audit en is opgenomen in veel auditsoftwarepakketten. Een verkenning van mogelijkheden, beperkingen en toetsing met...

Nieuws 24 april 2025

Symposium over statistiek in ESG

Hoe ver is de auditpraktijk met het toepassen van data-analyse op het gebied van ESG? De Stuurgroep Statistical Auditing van het Limperg Instituut gaat daarop in,...

Statistical Auditing (103) 22 november 2024

Machine learning in de audit: stratificeren van bedrijfslocaties

In dit derde en laatste deel van een reeks columns over machine learning in de audit gaat het over clusteren. De auteurs laten zien hoe je met een open-source statistiekprogramma...

Statistical auditing (102) 21 juni 2024

Machine learning in de audit: uitschieters bij vastgoedwaardering

Regressie is een vorm van machine learning met als doel het voorspellen van cijfers op basis van een aantal kenmerken. Met open-sourcesoftware kun je zonder programmeerkennis...