Geauzomofo: u bent nog lang niet jarig!
Op het achtste symposium van de Stuurgroep Statistical Auditing, op 20 mei 2015, heb ik het begrip Geautomatiseerd Zoeken naar Mogelijke Fouten (Geauzomofo) geïntroduceerd.
Paul van Batenburg
Binnen de oceaan aan big data analytics zwemt dit in het spartelvijvertje van toepassingen die specifiek interessant zijn voor de controle van verantwoordingen. Ik vroeg mij af of een accountant er gegevensgerichte zekerheid aan kan ontlenen.
Wat is Geauzomofo?
Op een bestand met geboortedata van personeelsleden kun je een query loslaten om (mogelijke) fouten af te zonderen (lege velden, 31 april, een datum voor 1900, maar ook 1 januari 1960 etc.) maar je kunt niet zonder externe gegevens vaststellen dat een geboortedatum correct is ('Ik weet niet wanneer je wel jarig bent, maar wel wanneer je niet jarig bent'). In een bak met gekleurde ballen die groen zouden moeten zijn, kan ik dus niet die groene eruit vissen, maar wel rode of witte.
Het geautomatiseerd zoeken naar mogelijke fouten is dus een techniek die je kunt toepassen bij de controle van een bestand zonder gebruik te maken van een externe bron. Door te definiëren hoe een mogelijke fout eruitziet, toets je het bestand aan die norm. Het is dus nadrukkelijk geen controle, want bij controle toets je aan de soll-positie, de norm voor wat goed is (de 'goeddefinitie'), en hier toets je aan een 'foutdefinitie'.
Nu zal er vast wel een reageerder komen die zegt dat je ook op zoek kan gaan naar een bestand waar de soll-positie in zit en dan integraal kunt matchen, maar dan hebben we het nu over de controle van dàt bestand. Het bestand waarvoor geen soll-bestand is. De moeder aller bestanden.
Helpt Geauzomofo?
Het grootste voordeel van het zoeken naar fouten is dat je bij controle van het bestand dat overblijft nadat alle uitzonderingsrapportages eruit gehaald zijn, een steekproef kunt hanteren waarin je deze fouten niet meer zult vinden en niet achteraf hoeft te isoleren en herstellen. Misschien kan de steekproef dus kleiner, omdat je minder (of geen?) fouten meer verwacht. Misschien.
Helpt Geauzomofo echt?
De meest relevante vraag voor deze tak van data-analyse is: als ik geautomatiseerd fouten uit een bestand heb gehaald, is het bestand dan opgeschoond of zijn er nog meer soorten fouten? Gelooft u dat een vliegtuig veilig is als de fabrikant zegt dat er tijdens de testvlucht zo veel fouten zijn gevonden?
Hoe kom je erachter of Geauzomofo geholpen heeft?
De makkelijkste, snelste, meest transparante manier om te zien of nu ook álle fout(oorzak)en door een query zijn afgevangen, is een steekproef. Als de omvang goed is gekozen en de resultaten geen fouten bevatten, zijn er met redelijke zekerheid geen materiele fouten meer achtergebleven en is de Geauzomofo geslaagd (en 'volledig').
Wat heb ik nou aan Geauzomofo?
Iets, misschien. Je kunt pas vertrouwen aan de Geauzomofo ontlenen als die uitzonderingsrapportages geen fouten bevatten. Dat vertrouwen wordt pas assurance als de daarna getrokken steekproef foutloos is. En die assurance wilde je juist hebben om de steekproef te reduceren.
Blijft staan dat het grote voordeel van het geautomatiseerd zoeken naar mogelijke fouten is dat al déze fouten opgespoord en gecorrigeerd kunnen worden. We hoeven dus niet achteraf steekproeffouten te isoleren, met alle risico van het onderschatten van de mogelijke consequenties van de foutoorzaak. Voor wat betreft de ons bekende foutoorzaken. We blijven zonder die extra steekproef zitten met de vraag hoe erg de ons onbekende foutsoorten zijn.
Gerelateerd
Machine learning in de audit: stratificeren van bedrijfslocaties
In dit derde en laatste deel van een reeks columns over machine learning in de audit gaat het over clusteren. De auteurs laten zien hoe je met een open-source statistiekprogramma...
Machine learning in de audit: uitschieters bij vastgoedwaardering
Regressie is een vorm van machine learning met als doel het voorspellen van cijfers op basis van een aantal kenmerken. Met open-sourcesoftware kun je zonder programmeerkennis...
Machine learning in de audit: voorspellen van klantverloop
Het doel van machine learning is om voorspellingen te maken aan de hand van data. Binnen dit veld worden doorgaans drie hoofdtoepassingen onderscheiden: classificatie,...
De steekproefomvang ontmaskerd - deel 5
In vorige columns hebben we verschillende manieren besproken om tot een steekproefomvang te kunnen komen. Deze column is de laatste van de serie waarin we verschillende...
De steekproefomvang ontmaskerd - deel 4
Een accountant die gebruikmaakt van software om een steekproefomvang te berekenen, moet zeker weten dat die software dat goed doet. Daarvoor moet je de rekenmethode...