Mogen mijn bestanden schoon?
Vandaag de dag zijn veel bedrijven afhankelijk van IT. Niet alleen is dan de IT-infrastructuur kritisch, maar ook de bestanden. Vooral bestanden met zogenoemde vaste gegevens (ook wel: semipermanente data), zoals artikel-, klant- en leveranciersgegevens. Omdat zulke gegevens de juistheid kunnen raken van vele (malen meer) transacties is er behoefte aan technieken waarmee men tegelijkertijd records kan controleren en verbeteren.
Hein Kloosterman
De vraag luidt dan: 'Als het effect heel groot kan zijn, zit er dan niets anders op dan maar integraal te gaan controleren? En dan verbeteren uiteraard.' Het antwoord luidt: ‘Ga ervan uit dat u integraal moet controleren. Maar er is een techniek die, als de kwaliteit meevalt, enig soelaas kan bieden.'
Die techniek is AOQL (Average Outgoing Quality Limit). Sommigen spreken van EOQL (Expected Outgoing Quality Limit), wat beter aansluit bij de manier waarop men zich uitlaat over de onderzochte deelpopulaties en uiteindelijk over het totaal.
De controle van zo'n bestand wordt ingericht door het eerst in een aantal stukken op te knippen en vervolgens op elk deel een steekproefcontrole uit te voeren en de toegestane aangetroffen fouten te verbeteren.
Daarna zit er nog een adder onder het gras: als het aantal toegestane fouten wordt overschreden moet de deelpopulatie integraal worden gecontroleerd. Dit klinkt allemaal erg kryptisch, daarom licht ik die AOQL-techniek toe met de grote lijnen van de procedure.
Stel er is sprake van een groot bestand met 100.000 artikelgegevens. Dit bestand moet om AOQL of EOQL te kunnen toepassen in tenminste 10 porties worden onderverdeeld. Hoe meer porties, hoe beter de gemiddelde fout na toepassing van de procedure aansluit bij de verwachte fout. De verdere wiskundige achtergrond laat ik hier voor het gemak onbesproken.
De porties hoeven niet per se allemaal van gelijke grootte te zijn. Men bepaalt vervolgens wat het aantal toegestane fouten per steekproef is. Daaruit, en uit de kwaliteitsgrens (de expected outgoing quality limit) voor het totale bestand volgt per portie de steekproefomvang. Als na controle blijkt dat de steekproef hooguit het aantal toegestane fouten bevat, dan verbetert men de aangetroffen fouten en is het onderzoek van die portie klaar. En zo verricht de controleur de controle op al die porties.
Even een paar getallen. Als de kwaliteitslimiet 1 procent is, dan moet er per portie een steekproef van 37 worden getrokken als we nul fouten toestaan; dat worden er 84 als we 1 fout toestaan en 138 als we 2 fouten toestaan in de steekproef.
Zoals gezegd: er zit een adder onder het gras. Want: als er meer dan het maximale aantal toegestane fouten in de steekproef wordt aangetroffen, moet men de hele portie integraal controleren én verbeteren!
De te verrichten controlewerkzaamheden zijn daarmee niet vooraf voorspelbaar.
Stel dat we in het voorbeeld van het bestand met 100.000 elementen en de kwaliteitslimiet van 1 procent 20 porties nemen, in plaats van de minimale 10. Stel verder dat we besluiten in iedere portie een steekproef te nemen waarin geen fouten worden toegestaan. In iedere steekproef trekken we dan 37 elementen. De hoeveelheid werk varieert dan dus van een steekproef van minimaal 740 elementen (het minimum van 20 porties met elk een steekproef van 37 elementen) tot een integrale controle (100.000 elementen) indien in iedere portie een fout wordt aangetroffen!
Met enig rekenwerk kunnen we nu de verwachte hoeveelheid werk voorspellen. We gaan verder met het voorbeeld met de foutlimiet van 1 procent en het niet toestaan van fouten in de steekproef. Stel dat de onderzoeker ook 1 procent fouten in de populatie verwacht. Dan is de verwachte hoeveelheid werk pakweg 31500. Dat is er dan op gebaseerd dat een deel van de subpopulaties wel en de overige niet direct worden goedgekeurd (de kans op niet-goedkeuren is ruim 31 procent).
Daarnaast zouden we, om de omvang van het werk beheersbaar te houden, gebruik kunnen maken van alle beschikbare informatie. Zo kunnen we bijvoorbeeld porties met een verschillende omvang selecteren op basis van verwachte kwaliteit. De porties waarvan we verwachten - bijvoorbeeld op basis van ervaringen uit het verleden - dat die vrijwel schoon zijn, kunnen we dan groter maken. Porties waar we wel fouten in een steekproef verwachten, maken we kleiner.
De uitkomst van deze controle is in dit geval een artikelbestand, dat goed genoeg is. Kortom een bestand dat zonder meer voldoet aan de vooraf gestelde kwaliteitslimiet!
Voorbeelden waar de methode goed toepasbaar is:
- klantenbestand; bij fusie: ten behoeve van overnemende partij;
- klantenbestand; hoge verhuisfrequentie studenten: alle verhuisberichten wel juist verwerkt?
- adressenbestand; na reorganisatie: zijn de beschikbare adressen aflever- of factuuradressen?
- factuurbestand; gegevens over de diensten worden handmatig toegevoegd: zijn de gegevens over die diensten juist overgenomen?
Gerelateerd
Machine learning in de audit: uitschieters bij vastgoedwaardering
Regressie is een vorm van machine learning met als doel het voorspellen van cijfers op basis van een aantal kenmerken. Met open-sourcesoftware kun je zonder programmeerkennis...
Machine learning in de audit: voorspellen van klantverloop
Het doel van machine learning is om voorspellingen te maken aan de hand van data. Binnen dit veld worden doorgaans drie hoofdtoepassingen onderscheiden: classificatie,...
De steekproefomvang ontmaskerd - deel 5
In vorige columns hebben we verschillende manieren besproken om tot een steekproefomvang te kunnen komen. Deze column is de laatste van de serie waarin we verschillende...
De steekproefomvang ontmaskerd - deel 4
Een accountant die gebruikmaakt van software om een steekproefomvang te berekenen, moet zeker weten dat die software dat goed doet. Daarvoor moet je de rekenmethode...
Symposium: Machine Learning in de audit
Hoe is het momenteel gesteld met de toepassing van Machine Learning in de audit? Aankondiging van een symposium.