Data analyse als heilige graal - dacht het niet
Kan data-analyse de steekproef vervangen? Wij deden een klein onderzoek op basis van een SVB-rapport. Het resultaat was verbluffend.
Ferry Geertman en Hein Kloosterman
Op het Limperg symposium van 20 mei 2015 hebben we weer naar zeer interessante voordrachten geluisterd en gediscussieerd over steekproeven en data-analyse waarin iedere spreker duidelijk vanuit zijn eigen competentie, interesse of misschien wel commercieel belang sprak. Dat geeft niet zolang de discussie fair gevoerd wordt en daar waar mogelijk op feiten is gebaseerd.
Een van de discussies die ook in deze reeks columns gevoerd wordt is de vergelijking van data-analyse met steekproeven en de vraag of data-analyse een vervanger kan zijn van steekproeven.
We doen een klein feitenonderzoek op basis van het rapport van de SVB inzake de doorlooptijd van betalingen aan zorgverleners in relatie tot Persoonsgebonden Budgetten (PGB). De essentie van het rapport is dat de auditdienst van de SVB de betalingen aan zorgverleners heeft onderzocht op de tijdigheid ervan. De auditdienst heeft daarvoor een steekproef gehanteerd. Naast allerlei evaluaties van de steekproef heeft de auditdienst ook gekeken naar foutoorzaken die vooraf als bekend werden aangemerkt.
Het rapport geeft op pagina 5 een lijst van mogelijke foutoorzaken. Het is een lange lijst: 39 mogelijke fouten maar liefst! Zo'n lange lijst biedt natuurlijk prachtige handvatten voor het definiëren van queries (en als die wat al te ingewikkeld worden maken we er scripts van) om de gehele populatie te onderzoeken op al die foutsoorten.
De auditdienst had dus met data-analyse de gehele populatie kunnen onderzoeken op deze foutsoorten en ze op een uitzonderingslijst voor nader onderzoek kunnen zetten. De rest van de populatie mag dan verondersteld vrij te zijn van fouten,... of niet?
Het antwoord op deze vraag kunnen we geven omdat de auditdienst ervoor heeft gekozen om een steekproef uit te voeren. In het rapport, om precies te zijn op pagina 14, heeft de auditdienst van 295 betalingen die een doorlooptijd van meer dan tien dagen hadden, beschreven wat de foutoorzaak is. Van zestig procent (179) van deze - te late - betalingen geeft de dienst aan dat de foutoorzaak niet op de lijst van (39) mogelijke foutoorzaken voorkomt.
Dat is nog niet alles: in bijlage V (pagina 22) staat dat van de te laat betaalde declaraties die na 1 april zijn ingediend tachtig procent (!) een andere foutoorzaak heeft dan gedefinieerd op de lijst van 39. En van de te laat betaalde declaraties die na 15 april zijn binnengekomen heeft zelfs negentig procent (!!) een andere foutoorzaak dan gedefinieerd op de lijst van 39.
Wij zijn benieuwd wat de gepresenteerde feiten zouden zijn geweest als alleen data-analyse was uitgevoerd op de mogelijke foutoorzaken. Had de ontvanger van het rapport dan wel een conclusie kunnen trekken?
Gelukkig dat de auditdienst zich niet heeft laten verleiden tot (alleen) geautomatiseerd zoeken naar mogelijke fouten ('geauzomofo' zoals Van Batenburg dat noemt)! Zo'n steekproef biedt uitkomst(en).
Gerelateerd
Machine learning in de audit: uitschieters bij vastgoedwaardering
Regressie is een vorm van machine learning met als doel het voorspellen van cijfers op basis van een aantal kenmerken. Met open-sourcesoftware kun je zonder programmeerkennis...
Machine learning in de audit: voorspellen van klantverloop
Het doel van machine learning is om voorspellingen te maken aan de hand van data. Binnen dit veld worden doorgaans drie hoofdtoepassingen onderscheiden: classificatie,...
De steekproefomvang ontmaskerd - deel 5
In vorige columns hebben we verschillende manieren besproken om tot een steekproefomvang te kunnen komen. Deze column is de laatste van de serie waarin we verschillende...
De steekproefomvang ontmaskerd - deel 4
Een accountant die gebruikmaakt van software om een steekproefomvang te berekenen, moet zeker weten dat die software dat goed doet. Daarvoor moet je de rekenmethode...
Symposium: Machine Learning in de audit
Hoe is het momenteel gesteld met de toepassing van Machine Learning in de audit? Aankondiging van een symposium.