Discussie Opinie

Accountant moet niet blindvaren op AI

Het gebruik van AI is problematisch voor de accountant, als die de onderliggende leermodellen niet begrijpt. Voor je het weet heeft de accountant een probleem vergelijkbaar met de 'toeslagenaffaire'.

Jan Bouwens

Onlangs schreef Ron Heinen een commentaar bij mijn column, met een door AI gegenereerd antwoord. Ik gaf aan dat ik geen reden zag om een chatbox te antwoorden, waarop Ron (zelf dit keer) als volgende tegenvraag stelde "Waarom zou de hulp van een AI-machine niet gebruikt mogen worden bij de beantwoording van vragen?"

Die vraag deed me erg denken aan een accountant die me eens vertelde dat het niet nodig was voor hem om de werking van een fraude-detectieprogramma te doorgronden. Hij zou handelen conform de suggestie die het systeem aandroeg. Ik vroeg hem wat hij zou doen als later bleek dat mensen werden beschuldigd, terwijl er geen enkele aanleiding was tot handelen. Machine based learning had gefaald en daarmee was de daaruit gegenereerde AI-toepassing onjuist. Tja, was het antwoord, men kan niet verwachten dat ik alles weet.

In dat antwoord zit de kern van het probleem.

Als ik analyses verricht, dan moet ik zelf programmeren en moet ik ook tonen dat aan de voorwaarden is voldaan om de desbetreffenden analyses uit te voeren. Ik snap dus wat ik doe en controleer of de uitkomsten ook betekenisvol zijn, gelet op de voorwaarden. Bij machine based learning gegenereerde AI weet de gebruiker dat niet. Inderdaad kunnen de antwoorden die AI genereert plausibel lijken, maar zijn ze dat ook? Heeft de gebruiker - de accountant - net als de wetenschapper gecontroleerd dat AI een geldig antwoord geeft?

In mijn werk stopt de controle ook niet bij de academicus. Als deze een studie indient bij een wetenschappelijk tijdschrift, bevat het ter overweging verzonden bestand de programma's (code) die zijn gebruikt om de gegevens te analyseren. En als de gegevens openbaar zijn moet de onderzoeker bovendien de studiespecifieke database beschikbaar stellen aan het grote publiek, terwijl voor eigen gegevens de onderzoekers mogelijk hun database ter bevestiging aan de beoordelingscommissie moeten voorleggen.

Er is geen argument om niet hetzelfde te eisen van een auteur die AI gebruikt om een ​​code te ontwikkelen, een tekst te maken of een ander product of dienst. Dat zouden we alleen al moeten doen, omdat de machine learning code die ten grondslag ligt aan de AI-toepassing de collectieve ideeën combineert die andere mensen in het verleden hebben bedacht. Iedereen die ChatGPT gebruikt, moet aan kunnen geven waar AI werd gebruikt om een product of dienst aan te kunnen bieden. Wij spreken nu al onze studenten aan op hun AI-gebruik om die reden! Niet-naleving leidt tot naming en shaming. Als illegale acties aan het licht komen terwijl de bronnen geheim worden gehouden, zou dit moeten leiden tot juridische stappen tegen de leverancier/AI-gebruiker.

Natuurlijk zal invoering van mijn voorstel het gebruik van AI voor accountants vertragen. Maar de accountant zou dezelfde discipline moeten verlangen van de gecontroleerde entiteit; opdat het bestuur zorgvuldig overweegt wat ze precies hebben gedaan met AI, wat zij zelf hebben bedacht en welk deel van het werk is gebaseerd op het gebruik van AI. Is vertraging niet juist de bedoeling, om te voorkomen dat we discriminerende AI inzetten zonder na te denken en om ervoor te zorgen dat je alleen eer op kunt strijken voor je eigen ideeën?

De accountant die blindvaart op AI, brengt zichzelf ongewild in gevaar.

Wat vindt u van deze opinie?

Reageer Spelregels debat

Jan Bouwens is hoogleraar accounting UvA en research fellow University of Cambridge.

Gerelateerd

15 reacties

Alexander Vissers

@ Pieter de Kok: De accountant hoort bij de wettelijke controle helemaal niet op zoek te gaan naar fraudes, dat is in strijd met het EVRM en evidente détournement de pouvoir. Hij mag alleen dat wat in de (soft geharmoniseerde) ISA staat, namelijk controleren of de jaarrekening vrij is van materiële fouten door fraude of andere oorzaken.
@ Jan Bouwens: De reacties van Ron Heinen maar ook andere teksten op deze site roepen de vraag op waarom een openbaar lichaam een nieuws- en opiniesite onderhoudt. Heeft het Waterschap Hunze en Aa een nieuws en opiniesite? Onder welke wettelijke taak valt deze site te rangschikken? Niet onder een goede beroepsuitoefening, niet onder het behartigen van de gemeenschappelijke belangen van accountants, niet onder de eer van de stand en al helemaal niet onder het verzorgen van de praktijkopleiding? De enkele rubrieken met name tuchtrechtbesprekingen kunnen naar NBA.nl, de rest van accountant.nl moet naar een privaatrechtelijke organisatie of ontmanteld. Er is geen wettelijke basis voor.

Pieter de Kok

Hier linkje naar reis van Vusa, van supervised learning (ML) naar Deep Learning (AI), met opmerkingen : we hebben het hier over super zwaar en complex model, jaren training, in super gestructureerde setting. Is een setting die niet te vergelijken is met onze aller Midden/Groot data bak waarin we mogen spelen in Nederland (uitzondering de Big 5 Socials).

Die advanced AI is alsof je bulldozer laat spelen in de buurtzandbak.

Ik wil overigens pleiten om echt terughoudend te zijn om met unlabeled algoritmes op zoek te gaan naar fraude of patronen in average joe audit setting, succes daarmee!

Leuke discussie

https://www.safalta.com/amp/online-digital-marketing/projects-case-studies/ai-case-study-fraud-detection-gets-stronger-at-visa

Pieter de Kok

Ik moet de eerste accountant, behalve Mona, nog tegenkomen die een deep learning of neuraal netwerk begrijpt. Voor mij is dat AI.

Gelukkig zie ik die technologie ook nog niet toegepast worden, überhaupt de vraag of die advanced vorm van AI in de audit zal worden gebruikt. Ik denk steeds meer van niet.

Eens dat bij gebruik van ondersteunende (generative AI), de auditor oplet, zie ook Nart zijn opmerkingen.

De machine-based fraud detection, ik lees dat her en der, maar heeft iemand de link naar die die tool, ik ben zo benieuwd wie die machine dan heeft getraind en of we niet gewoon over simpele data-analyse hebben obv variable testing. Ik ken alleen de Ml algoritmes van Visa/Mastercard tooling die Ml trained zijn.

Alexander Vissers

De wettelijke controle van de jaarrekening is met name gebaseerd op de ISA. De ISA zijn met name ontwikkeld op basis van wat een advocaat aan een jury kan uitleggen en redelijk is (of klinkt). Ik zou geen betere insteek kunnen verzinnen. Daar passen saldobevestigingen heel goed in en detailtesten van items als systeemtest. Wat er niet in past is een black box of zoiets als AI. Natuurlijk "analytical procedures" maken deel uit van de ISA maar AI is te zeer een black box om daar bruikbaar voor te zijn als gedocumenteerde controlestap. Het kan wel bruikbaar zijn buiten het dossier voor het "goede gevoel" dat de accountant wil hebben bij het zetten van zijn handtekening. Voor het voldoen aan standaarden vooralsnog niet. Overigens geloof ik niet dat ergens overwogen wordt zoeits ongrijpbaars als AI in de controleprotocollen te integreren. Kortom deze column beantwoodt een theoretisch en mogelijk toekomstige vraag, geen actueel dilemma.

Jan Bouwens

@Arnout Op je eerste punt Je geeft aan dat accountants in het pre AI tijdperk de door hun gevulde modellen niet narekenen en vraagt je af waarom ze dat nu met AI wel ineens moeten gaan doen.

Als ik een berekening maak in Excel, maak ik zelf de code of maak ik gebruik van een bestaand code *STD, Mediaan, etc.). Ik weet echter precies wat een mediaan is en kan deze ook narekenen. Ik doe dat niet omdat deze codes getest zijn. Als ik zelf een code schrijf (bijvoorbeeld een regressie), dan is er veel meer kans op fouten omdat ik de data moet verzamelen (met foutkans) en dan moet ik dus mijn metingen (wat is de definitie van de variabele, hoe goed is de steekproef, etc.) verantwoorden. Dat is het geval omdat de data case/onderzoek-specifiek is, terwijl de code waar ik eerst van sprak algemeen. De accountant moet eveneens verdedigen hoe deze de evidence bij elkaar bracht.
Nu, laten we aannemen dat iemand met AI fraude opspoort en dat deze wordt opgespoord met unsupervised learning. Dat betekent dat we het algoritme ongelabeld verbanden laten opsporen. In mijn “oude” wereld betekent dat dat we geen theorie testen maar de data een theorie laten generen (dit noemen we data dreggen en is een no go in de wetenschap). Nu vinden we dat mensen uit een bepaalde achtergrond met groetere kans fraude plegen en we gaan die mensen aanklagen. Je voelt het al de volgende toeslagaffaire wordt gecreëerd. Nu dat is dus een reden voor AI gebaseerd op supervised learning en voor een theorie!
Ik wil inderdaad dat de accountant niet meegaat met wat de machine zegt en de reden is duidelijk gedemonstreerd in de toeslagenaffaire.

Dan de specialisten die de accountant inschakelt. Ook daarvoor geldt dat zij moeten kunnen uitleggen wat ze hebben gedaan, vanuit welke aannamen wordt gewerkt en welke vergelijkingen ze hebben toegepast.

Ik kan je van harte dit boek aanbevelen in dit verband Weapons of Math Destruction van Cathy O’Neil

Arnout van Kempen

@Jan (mijn derde en laatste hier :)

Mooi dat het in de wetenschap kennelijk zo werkt. Maar je stuk ging over de accountancy, dus dat sprongetje wil ik wel maken: je hebt mijn eerste reactie niet beantwoord, en je gaat ook niet in op mijn reactie over de door jou aangeprezen mens als deskundige.

Maar daar zit nu net wel het achterhoedegevecht dat ik denk te zien.

Ron Heinen

De reactie van Bing Chat op het artikel is te vinden op:

https://www.ndax.eu/9CyISosUp6PJkfVTOydH.pdf

In essentie: AI moet worden gebruikt als aanvulling op, en niet als vervanging van, menselijke expertise en inzicht.

Frans Kersten

Ik denk dat het een illusie is om te denken dat een accountant (of zelfs een IT-auditor) in staat is om een AI toepassing volledig (a.h.w. systeemgericht) te doorgronden.
Je kunt hoogstens de eis stellen dat gegevensgericht gecontroleerd wordt of de uitkomst valide is en dan nog loop je risico. Als je de random functie van Excel standaard gebruikt, genereert deze steeds dezelfde lijst van getallen. Pas als je deze goed voedt (bijv. op basis van de ingebouwde klok van de computer) krijg je een willekeurige reeks.

We zeggen ook dat accountants moeten kunnen kijken of ze kunnen leren van andere sectoren. De EU is bezig met wet- en regulering inzake AI die feitelijk hetzelfde beoogt: er mogen alleen gevalideerde toepassingen op de markt komen binnen bepaalde sectoren.
In de zorg worden nu al goede resultaten geboekt met AI waarbij de software betere diagnoses stelt dan de radioloog. Mede op basis van de privacywetgeving is het echter niet de AI die de uiteindelijke beslissing neemt maar de radioloog. Uiteindelijk wint de patiënt hierbij.
De angst binnen de zorg is echter dat de wet het tegengestelde zal bereiken van wat beoogd wordt: nieuwe initiatieven worden gedood en bestaande ontwikkelingen gestopt. Welke producent - het is commercieel, geen open source - zal immers alle code ter beschikking stellen om zijn product te laten toetsen om toegelaten te worden tot de markt als zijn intellectuele eigendomsrechten niet gerespecteerd worden.

Tot slot nog een andere issue: dit soort AI-toepassingen wordt betrouwbaarder naarmate er meer data zijn verwerkt. Vaak nadat pseudonimisering of anonimisering is toegepast en na een bewaartermijn verwijderd worden. Hoe zit het dan met je bronnen?

Jan Bouwens

@Arnout. Dank je hiervoor. Als ik een paper indien moet ik de data die ik gebruik kunnen overleggen. Ik moet ook aan kunnen geven waar deze vandaan komt (voor veel onderzoekers zijn dat openbaren bronnen). Vervolgens moet ik de code kunnen overleggen waarmee de analyses worden gedaan. Ik moet ook aannemelijk maken dat aan de voorwaarden is voldaan om de analyses uit te voeren. Sommige journals (zoals Management Science) voeren de analyse opnieuw uit om zeker te stellen dat hetgeen wordt gezegd ook voor de sample klopt. Dan nog kunnen er problemen ontstaan, maar deze zijn sterk gemitigeerd, en dan nog komen problemen later boven tafel, zie: https://www.courtlistener.com/docket/67659904/1/12/gino-v-harvard-university/:

Dus ja er wordt wel echt getoetst. Ik zie zo’n verantwoording niet zozeer als een achterhoedegevecht.

Wellicht krijgen we straks drie groepen, (1) de mens die het verlengstuk is van de machine, (2) de mens die de machine slim inzet, heel goed begrijpt wat hij doet maar daar geen verantwoording over af legt en (3) de mens die de machine slim inzet, heel goed begrijpt en daar ook verantwoording over aflegt

Arnout van Kempen

Daar zou ik dan graag even op doordenken. Die actuaris, of valutair, of IT auditor, etcetera, etcetera, in hoeverre heb je daar niet exact dezelfde problemen?

Weet jij echt hoe die deskundige tot conclusies komt? Zijn die echt zo verifieerbaar? Snap jij echt het onderliggende systeem?

Ik vrees dat mensen de menselijke intelligentie nogal overschatten, en AI onderschatten.

Wat ik hier zie is een achterhoedegevecht waarvan de deelnemers pas over pakweg tien jaar zullen zien dat het een achterhoedegevecht was.

En daarmee zeg ik niet dat AI nu al zo feilloos is, ik wijs er juist op dat menselijke intelligentie redelijk vergelijkbaar is in feilbaarheid, falende logica, "stochastische papegaai"-gedrag, etcetera.

Het verhaal over de toetsbaarheid van wetenschappelijke publicaties ken ik, maar wat ik niet weet (en oprecht niet weet, dit is geen retoriek) is in hoeverre die toetsbare uitkomsten echt getoetst worden.

Ik ken het verschijnsel uit de software-ontwikkeling. Open source is daar de term: je publiceert de broncode van je programma zodat iedereen kan controleren wat je programma doet. Ja. Het kan. Maar wie doet het echt?

Ik heb toevallig recent het zelf aan de hand gehad: Vim geïnstalleerd. Dan haal je de broncode van GitHub, compileert het zelf op je eigen computer, dus je weet 100% zeker wat je programma zal doen. Ja, koekoek, als je die broncode eerst even zelf gevalideerd en gecontroleerd hebt.

Ik blijf toch echt pleiten voor enige realiteitszin.

Jan Bouwens

Dank voor de reacties. Ik val niet specifiek multiple large language models aan. Mijn zorg is dat mensen de systemen gebruiken terwijl ze geen idee hebben van wat de systemen hen vertellen te doen. De mensen als machine. Juist accountants moeten weten wat ze doen. Als ze het niet weten dan schakelen ze een mens in (zoals een actuaris) die het wel weet!

Ron Heinen

@Glenn Mungra

Hierbij antwoorden op je punten:

1/ Op een MacBook Pro kun je .pdf bestanden in Preview en Adobe Reader traploos vergroten zoals je dit ook doet op een smartphone. Ik kan deze .pdf op deze manier prima lezen.

2. De referenties welke Bing Chat geeft trek ik na op betrouwbaarheid, validiteit en relevantie. Soms stel ik hier ook vervolg vragen over om ze na te trekken, zoals ik in dit geval ook gedaan heb. Ik heb Bing Chat wetenschappelijke referenties gevraagd welke het gegeven antwoord bevestigen. Bing Chat heeft daarop 2 wetenschappelijke referenties gegeven.

3. In principe werkt een zoekmachine met een Chat interface zoals Google of Bing Chat niet wezenlijk anders dan een reguliere zoekmachine. Bij een zoekmachine met een traditionele interface of een chat interface zul je zelf moeten bepalen hoe betrouwbaar, valide en relevant je de gegeven antwoorden en/of referenties vind.

4. Bing Chat gebruikt GPT versie 4. Deze baseerd z'n antwoorden op alle informatie van het internet, ook actuele informatie.

5. De aspecten betrouwbaarheid, validiteit en relevantie zijn wetenschappelijk algemeen geaccepteerd om antwoorden op vragen op te controleren.

De toekomst gaat leren welke rollen AI-systemen gaan vervullen in de maatschappij.

Het gebruik van internet en zoekmachines is mijns inziens niet meer weg te denken.

Glenn Mungra

@Ron Heinen: "Deze geeft referenties in z'n antwoorden welke nagetrokken kunnen worden, bijvoorbeeld om de betrouwbaarheid en validiteit van het antwoord te kunnen controleren."
Ik heb hier nog wat opmerkingen bij:
1. Het pdf-bestand kan wel vergroot worden maar het blijft voor mij onleesbaar.
2. De referenties die GPT4 geeft kunnen 'fake' zijn of daarop gebaseerd zijn, terwijl (volgens mij) GPT4 de betrouwbaarheid van de referenties in principe niet controleert (zodat het afgeleide antwoord van GPT4 op basis niet betrouwbaar hoeft te zijn).
3. Het gebruikte (black box) denkmodel van GPT4 is (voor mensen) niet transparant/controleerbaar gemaakt door alleen te verwijzen naar de refenties. Dit komt erop neer dat de wiskunde, redeneer-regels en het algoritme voor mensen soms niet navolgbaar zijn. De logische bewijsvoering kan ook complex en niet-herleidbaar worden doordat er meerdere vormen van causaliteit bestaan (in de antieke hindoe geschriften wordt bijv. gesproken over o.a. de causale denkstructuren: alleen in één richting, voor- en achterwaarts, één oorzaak met meerdere gevolgen, één gevolg met meerdere oorzaken, alleen naar zichzelf verwijzend, transcendent/niet manifest ...).
4. GPT4 is volgens een bepaald model ooit en gaandeweg getraind op basis van aan een bepaalde tijd en context gebonden (soort) data. Het verschil tussen 'de conceptuele wereld' volgens de data resp. de (gewijzigde) realiteit kan door het dynamisch tijdsverloop en door een veranderende context steeds meer oplopen. Dat geeft een risico dat het systeem nieuwe data fout kan profileren of deze data in een inmiddels achterhaalde context kan plaatsen en op basis daarvan foute conclusies kan trekken (zodat het antwoord van GPT4 technisch niet betrouwbaar hoeft te zijn).
5. Bij validiteit denk ik niet alleen aan bruikbaarheid en transparantie vanuit het perspectief van de eisen van de gebruiker en zoals je weet kunnen dan zelfs emoties een rol spelen bij de validiteit.

Ron Heinen

@Jan Bouwens

Dank voor het aanhalen van mijn reactie.

Nu kan er discussie gevoerd worden over dit onderwerp.

Citaat: "De accountant die blindvaart op AI, brengt zichzelf ongewild in gevaar."

Hier ben ik het volledig mee eens.

Het commentaar op jou column is gemaakt mede met het antwoord van het AI-Systeem GPT 4 dat Bing Chat gebruikt.

Deze geeft referenties in z'n antwoorden welke nagetrokken kunnen worden, bijvoorbeeld om de betrouwbaarheid en validiteit van het antwoord te kunnen controleren.

Dit is ook te zien in de reactie waarin ik stel "Waarom zou de hulp van een AI-machine niet gebruikt mogen worden bij de beantwoording van vragen?".

Ik heb in deze reactie een referentie gegeven naar de vraag welke ik in Bing Chat gesteld heb en het antwoord dat deze op deze vraag gegeven heeft, zie

https://www.ndax.eu/RaHifVEshTAWciyqxvkC.pdf

(de letters zijn wat klein maar kunnen zo groot gemaakt worden als je wilt).

Wanneer je van mening bent dat de zoekmachines Google of Bing ook niet meer gebruikt mogen worden dan gaat dit wel tamelijk ver.

Arnout van Kempen

Hoewel ik het niet ernstig met je oneens ben, heb ik wel een principieel punt:

Accountants maken, het zal je niet verrassen, nog wel eens gebruik van modellen in excel die zij van een externe partij betrekken. "Extern" kan je hier ook lezen als het eigen kantoor, maar niet de accountant zelf.

Veelal zie ik modellen gevuld worden, en de uitkomsten (van materialiteit tot steekproefomvang, en wat al niet verder) zonder veel beschouwing of discussie gebruikt worden.

Die modellen worden veelal door Excel doorgerekend. Ik heb nog nooit een accountant in haar/zijn dossier enige beschouwing zien noteren over de vraag of Excel wel precies doet wat je zou verwachten. Narekenen van hetzelfde model met een ander rekenprogramma bijvoorbeeld, zal je niet zien.

Excel is een applicatie die intensief samenwerkt met het onderliggende operating system, vaak een variant van Windows. Je voelt het al aankomen: geen accountant die in diens dossier daar woorden aan vuil maakt. Terwijl iedereen die wel eens zelf heeft geklooid met computers weet dat ook het besturingssysteem relevant is voor de juistheid van de uitkomsten van het rekenwerk van Excel.

Dat Windows draait op een computer (ja, je voelt het al) met een CPU van Intel. En van Intel *weten* we dat in het verleden CPU's zijn geproduceerd die rekenfouten maakten in bepaalde specifieke floating point operaties. En hoevaak zie je accountants in hun dossier iets opnemen over de betrouwbaarheid van de CPU?

Kortom, ik vind niet dat je onjuiste of onverstandige dingen zegt, maar ik heb enige moeite met het tamelijk willekeurige aanslaan op nieuwe technologie dat ik bij accountants, toezichthouders en wetenschappers zie. Wat we langer kennen accepteren we vrij probleemloos als betrouwbaar, en wat nieuw is vinden we kennelijk eng. Dat mag, dat snap ik, maar enige relativering lijkt me nodig.

Reageren op een artikel kan tot drie maanden na plaatsing. Reageren op dit artikel is daarom niet meer mogelijk.

Aanmelden nieuwsbrief

Ontvang elke werkdag (maandag t/m vrijdag) de laatste nieuwsberichten, opinies en artikelen in uw mailbox.

Bent u NBA-lid? Dan kunt u zich ook aanmelden via uw ledenprofiel op MijnNBA.nl.