Het einde van de waarheid: AI moet zichzelf bewijzen (of niet)
Kan de wetenschap bewijzen dat AI-modellen de juiste dingen doen om tot uitkomsten te komen? En is dat eigenlijk wel nodig?
Nart Wielaard
In deze serie onderzoeken we de impact van rap opkomende AI op de betrouwbaarheid van informatie. Dat AI een grote invloed heeft op ons informatie-ecosysteem is wel duidelijk, zowel op 'publieksinformatie' op onder meer sociale media, als op professionele informatie. Dat de risico's op misinformatie door AI op zijn minst realistisch zijn, is eveneens geen geheim. Niet voor niets maken wetgevers en beleidsmakers overuren om de impact van AI in goede banen te leiden.
Een van de vragen die daarbij opkomt is of (en hoe) we de onderliggende modellen kunnen vertrouwen. Specifieker: Of we kunnen bewijzen dat ze ons vertrouwen waard zijn. Deze vraag om statistische validatie komt op voor bekende Large Language Models (LLM) zoals ChatGPT en Bard. Zoals eerder betoogd in deze serie gaat het hier eigenlijk om niet meer dan 'eenvoudige' statistische tekstvoorspellers. De vraag speelt echter even goed voor AI-toepassingen die veel minder aandacht krijgen dan deze stevig gehypte LLM's.
Dun laagje chroom
Een categorie daarvan is de toepassing van AI in de accountantscontrole. Volgens criticasters in het accountantsvak gaat het hierbij al jaren om niet veel meer dan een dun laagje chroom, vooral bedacht door marketeers van de grote kantoren. Volgens anderen wordt er op de achtergrond wel degelijk serieus aan gewerkt. Voor dit artikel maakt het eigenlijk niet uit wie er gelijk heeft: In beide gevallen is het (nu of straks) nodig om te kunnen toetsen of de modellen wel valide informatie opleveren.
'Volgens criticasters in het accountantsvak gaat het hierbij al jaren om niet veel meer dan een dun laagje chroom.'
We kunnen daarbij verwijzen naar wetenschapsfilosoof Karl Popper, die met zijn falsificatietheorie stelt dat elk model toetsbaar en/of weerlegbaar moet zijn. Dat uitgangspunt zou ook moeten gelden voor de resultaten van AI-modellen: Deze moeten statistisch zijn te verantwoorden. Die statistische verantwoording is ook essentieel voor een goede uitlegbaarheid, een belangrijke pijler in nieuwe wet- en regelgeving rondom AI. Ook in de reacties op deze serie wordt er met enige regelmaat naar de noodzaak tot falsificatie verwezen. Een daarvan stelde vast: "Ook al is de AI-bullshit nog zo snel, de wetenschappelijke waarheid achterhaalt hem wel." In het Latijn spreken we van Quod erat demonstrandum en onder precies die titel geeft dit artikel een aardig inkijkje in de mogelijkheden.
Onderbouwing
Vanwege de complexiteit is de statistische onderbouwing en/of uitlegbaarheid bepaald geen walk in the park. Het is daarbij goed te beseffen dat de noodzaak voor bewijsvoering verschilt per categorie. De Europese AI Act werkt dan ook met een classificatie van AI toepassingen. Voor sommige toepassingen van AI ligt de lat niet zo hoog ten aanzien van toezicht of statistische validatie, omdat de risico’s niet zo groot zijn als het een keer misgaat. Voor meer kritieke toepassingen wordt de lat een stuk hoger gelegd.
'Voor meer kritieke toepassingen wordt de lat een stuk hoger gelegd.'
Specifiek voor de toepassing van AI in de accountantscontrole is hier sprake van een niet te onderschatten uitdaging: De modellen die worden gebruikt om tot een uitspraak over zekerheid te komen over een jaarrekening, vergen immers volgens de huidige vaktechnische standaarden wel een (statistische) onderbouwing; hoe groot is de kans dat een controle door een AI wel/niet dingen ziet?
Broos vertrouwen
Zowel externe toezichthouders als interne afdelingen vaktechniek zijn – zo blijkt uit gesprekken met wat insiders – hier nog voorzichtig. Het vertrouwen in de modellen is broos en er is behoefte aan 'bewijslast'. In het accountantsjargon: We hebben audit evidence nodig.
'Gaat het hierbij om een typisch geval van 'onbekend maakt onbemind'?'
Gaat het hierbij om een typisch geval van 'onbekend maakt onbemind'? Moeten we eerst (veel) ervaring hebben opgedaan voordat het wordt omarmd? Of is er echt een keiharde noodzaak om de statistische onderbouwing tiptop op orde te hebben? Het antwoord op die vraag vergt ook een analyse van hoe ons menselijk brein werkt. Hoe we vertrouwen geven. Vaak is dat niet op basis van informatie, maar op basis van ervaring. U koopt een pak melk en consumeert dat waarschijnlijk zonder u te verdiepen in de kwaliteitsprocessen rondom de productie en logistiek. U kijkt hooguit even naar de houdbaarheidsdatum.
Deurbel
In een column eind oktober op de website iBestuur maakt hoogleraar Sander Klous een intrigerende vergelijking met de historie van de opkomst van de elektrische deurbel, eind negentiende eeuw. We kunnen het ons nu niet voorstellen, maar destijds riep ook dat kritiek op. Want toen we als mens niet langer zelf 'onder de motorkap' konden zien hoe dat werkte zouden we ons eigen denk- en redeneervermogen weleens kunnen verliezen.
'Zou het kunnen dat ChatGPT de deurbel van de 21ste eeuw wordt?'
Niemand twijfelt nu nog aan de deurbel. Het betoog van Klous: "Niet omdat deze de theorie van Popper aankan, maar simpel omdat ervaring in het gebruik leert dat het werkt en vertrouwen oplevert. Zou het kunnen dat ChatGPT de deurbel van de 21ste eeuw wordt? En dat we eerst nog wat vaker belletje moeten lellen?"
Zou dat misschien ook kunnen gelden voor het gebruik van AI in de audit?
Dit is deel 9 van een reeks bijdragen waarin Nart Wielaard op zoek gaat naar waarheid in een digitale wereld en wat dat betekent voor de accountant. Op de komende Accountantsdag (23 november in Leusden) spreekt Nart tijdens twee sessies met experts over AI en het accountantsberoep.
Gerelateerd
AI voor accountants: nuttig maar ook noodzaak!
De opkomst van kunstmatige intelligentie (AI) heeft een aanzienlijke impact op talloze sectoren en de accountancy vormt hierop zeker geen uitzondering. Een leidraad...
ASML schat omzet wereldwijde chipindustrie in 2030 op 1 biljoen
Chipmachinefabrikant ASML verwacht dat de omzet in de wereldwijde chipindustrie in 2030 zal groeien naar meer dan 1 biljoen dollar, omgerekend bijna 950 miljard...
Juridische sector investeert in AI maar moet vaker terug naar kantoor
Advocatenkantoren en juridische afdelingen verhogen hun investeringen in technologie zoals AI en ESG-kennis, om te voldoen aan veranderende vraag in de markt. Steeds...
Rekenkamer: Rijksoverheid schat risico's AI vaak laag in
De Rijksoverheid weet van veel kunstmatige intelligentie (AI) niet of die naar behoren werkt. Voor meer dan de helft van de AI-systemen die het Rijk gebruikt, zeggen...
Onderzoek: meerderheid Nederlandse bedrijven gebruikt geen AI
De meerderheid van de bedrijven in Nederland (57 procent) gebruikt nog geen kunstmatige intelligentie (AI) in hun bedrijfsvoering. Volgens marktonderzoeker Telecompaper...