Statistical auditing (79) 12 november 2019

Het nieuwe H-woord: Homogeen?

Leestijd van ongeveer 3 minuten 0 reacties

Vaak horen wij het argument dat steekproeven niet toepasbaar zijn omdat de populatie niet homogeen is. Als we dan doorvragen blijkt dat men dat stelt omdat er een steekproef is onderzocht die fouten bleek te bevatten van verschillende soort en oorzaak. "Dus de populatie is niet homogeen!", roept men dan. Wat is er dan eigenlijk aan de hand?

Paul van Batenburg en Hein Kloosterman

De controleur heeft een steekproef ontworpen met de bedoeling naar aanleiding van de uitkomst de populatie goed te keuren. Daarvoor mogen in de steekproef geen fouten voorkomen. Dat is gegeven het steekproefrisico en de toegelaten afwijking de kleinste steekproefomvang, levert het minste werk voor de controleur op en kost dus het minste geld.

Als de controle van de steekproef wel fouten laat zien, kunnen die fouten een heel spectrum aan foutsoorten bestrijken. Men stelt dan dat die verschillende soorten fouten niet als één foutsoort "op één hoop" mogen worden geëxtrapoleerd.

Waarom dat niet zou mogen wordt vervolgens niet duidelijk. Ook wordt niet duidelijk wat er verandert aan de uitkomst van de evaluatie als de fouten per stuk of per foutsoort worden geëxtrapoleerd. De meest waarschijnlijke fout is en blijft immers de optelling van foutbedrag gedeeld door selectiekans, en beide veranderen niet.

Het H-woord

Om het waarom van wel of niet "op één hoop" mogen extrapoleren duidelijk te maken introduceren wij hier het H-woord van homogeniteit. Een H-woord, omdat zal blijken dat het ontbreken van homogeniteit meer geld gaat kosten dan wanneer er wel sprake is van homogeniteit.

Maar wat is dan homogeniteit?

Homogeniteit is niet: alle elementen van de populatie zijn identiek. Er zijn geen administraties waarin de posten allemaal hetzelfde bedrag hebben. Homogeniteit betekent ook niet dat alle elementen van de populatie dezelfde foutkans hebben. Dan zijn er elementen, met foutkans 0 en wellicht ook een paar elementen met foutkans 1.

Een goede definitie van homogeniteit is dat alle elementen een foutkans hebben die uit dezelfde kansverdeling komt. De controleur kan dan vooraf een aanname doen over de vorm van die verdeling en door middel van waarnemingen die vorm kunnen aanpassen naar een gewenste vorm. Dat kan bijvoorbeeld door een verdeling waarbij de bovengrens voldoet aan de gekozen uitvoeringsmaterialiteit voor de populatie.

Waarom is homogeniteit belangrijk?

Steekproefcontrole leidt tot een geprojecteerde fout, en er bestaat een kans dat die foutschatting hoger is dan de werkelijke fout in de massa. Deze neemt niet af door meer waarnemingen te doen. Maar de foutschatting kan ook lager zijn (daar is meer kans op) en de meest waarschijnlijke uitkomst is - bij een homogene populatie - de werkelijke fout.

Stel dat de populatie heterogeen is

Stel dat de populatie in feite uit twee delen bestaat met een verschillende kansverdeling van de fout, dan hangt de vraag of de meest waarschijnlijke uitkomst gelijk is aan de werkelijke fout af van de vraag of die twee delen precies in de juiste verhoudingen in de steekproef zijn vertegenwoordigd.

Dat is niet te garanderen, maar wel te bevorderen door bij de sortering van de populatie voorafgaand aan selectie daar mee rekening te houden. Auditsoftware zal namelijk meestal een selectiemethode gebruiken waarbij de populatie eerst in intervallen wordt opgedeeld en daarna uit elk interval een euro(cent) wordt gestoken, een zogenaamde geldsteekproef.

Hoe kan de uitkomst van een steekproef onjuist zijn?

Als er geen sortering is toegepast (men weet namelijk vooraf niet altijd op welk criterium men de populatie moet sorteren), dan kan de uitkomst van de steekproef tot een te hoge (of een te lage!) meest waarschijnlijke fout leiden. Als men hoopt die uitkomst te kunnen verlagen of wanneer het belangrijk is om die meest waarschijnlijke uitkomst ook daadwerkelijk aan de juiste deelpopulatie toe te rekenen, dan kan dat niet anders dan door de steekproefomvang te vergroten en zo het interval waarmee de gevonden fouten worden geëxtrapoleerd te verkleinen.

Wie moet het extra werk doen?

Duidelijk is dat rekening houden met een niet-homogene populatie, dus een populatie verschillende kansverdelingen van mogelijke fouten, meer werk kost dan het negeren ervan. Een gecontroleerde die niet kan garanderen dat de gehele populatie consistent door een steeds goed werkende interne beheersing is afgehandeld, kan daarmee ook niet garanderen dat de foutverdeling homogeen verdeeld is. Dan moet de controleur extra werk doen om te voorkomen dat de meest waarschijnlijke fout te hoog (of te laag) wordt bepaald. En dat kost weer extra geld.

Men kan het ook samenvatten met de (retorische) vraag: moet de controleur extra werk doen omdat de gecontroleerde dat niet voldoende heeft gedaan?

Reageer

Drs. Paul van Batenburg is zelfstandig adviseur die als statisticus met verstand van controleren de eenmanszaak en website steekproeven.eu voert.

Hein Kloosterman RE RA, gepensioneerd adviseur IT-audit en Statistical Audit. Lid van de Stuurgroep Statistical Auditing.

Gerelateerd

Statistical auditing 10 december 2025

Auditen van de eerlijkheid van een algoritme, met behulp van statistiek

Eind 2024 trad de EU-wetgeving op kunstmatige intelligentie (AI) in werking. Deze wetgeving is opgesteld om het toenemende gebruik van AI in besluitvormings- en...

Statistical auditing 05 september 2025

De Wet van Benford

De Wet van Benford kent toepassingen binnen de audit en is opgenomen in veel auditsoftwarepakketten. Een verkenning van mogelijkheden, beperkingen en toetsing met...

Nieuws 24 april 2025

Symposium over statistiek in ESG

Hoe ver is de auditpraktijk met het toepassen van data-analyse op het gebied van ESG? De Stuurgroep Statistical Auditing van het Limperg Instituut gaat daarop in,...

Statistical Auditing (103) 22 november 2024

Machine learning in de audit: stratificeren van bedrijfslocaties

In dit derde en laatste deel van een reeks columns over machine learning in de audit gaat het over clusteren. De auteurs laten zien hoe je met een open-source statistiekprogramma...

Statistical auditing (102) 21 juni 2024

Machine learning in de audit: uitschieters bij vastgoedwaardering

Regressie is een vorm van machine learning met als doel het voorspellen van cijfers op basis van een aantal kenmerken. Met open-sourcesoftware kun je zonder programmeerkennis...