Agentic AI belooft de grootste productiviteitssprong sinds de komst van de computer. In de meeste organisaties blijft die sprong uit. Dit is waarom en wat de bedrijven die het wél lukt anders doen.
Wie weleens een AI-agent aan het werk heeft gezien, kent het dubbele gevoel. Eerst de verbazing. Het systeem leest de opdracht, schrijft een plan, opent bestanden, draait een test en corrigeert zijn eigen fout, alsof er een geroutineerde collega aan de knoppen zit. En dan, meestal ergens halverwege, de kanteling... De agent verliest de draad. Hij herhaalt zich, verzint een tussenstap die nergens op slaat, wordt slordiger naarmate hij langer doorwerkt. Dezelfde technologie die je een minuut eerder imponeerde, begint te zwalken.
In de softwareontwikkeling, waar agents het verst zijn doorgedrongen, heeft men voor de oplossing een woord gevonden: de agent moet in een harnas. Niet uit angst, maar omdat blijkt dat dit beter werkt. Zonder een strak omhulsel van afspraken, controles en grenzen levert hij eenvoudigweg niet wat hij belooft.
Het verschil tussen een indrukwekkende demo en een systeem waar een bank, een verzekeraar of een accountantskantoor zijn naam aan verbindt, zit bijna nooit in het model. Het zit in het harnas eromheen.
Dat inzicht verklaart een getal dat vorig jaar door menige bestuurskamer spookte. Een veelgeciteerd MIT-onderzoek, The GenAI Divide, becijferde dat ongeveer 95 procent van de zakelijke AI-projecten geen meetbaar effect had op de winst-en-verliesrekening. Het bedrijfsleven had tientallen miljarden in de technologie gestoken; bij de overgrote meerderheid bleef het rendement onzichtbaar.
De onderzoekers legden de schuld nadrukkelijk niet bij de modellen, maar bij wat zij een "learning gap" noemden: het onvermogen om AI te verknopen met de echte processen, data en beslissingen van een organisatie. Met dat exacte percentage mag je voorzichtig zijn, want de auteurs erkennen zelf dat hun definitie van succes streng is en dat niet alles uit harde cijfers komt. Het patroon is niettemin te robuust om weg te wuiven en ander onderzoek bevestigt het. Gartner verwacht dat ruim 40 procent van de agentic-AI-projecten vóór 2028 sneuvelt en waarschuwt voor "agent washing": oude chatbots die in een nieuw jasje als agent worden verkocht. McKinsey zag dat het gros van de bedrijven inmiddels met agents experimenteert, terwijl vrijwel niemand ze al op schaal draait.
De technologie deugt dus wel degelijk. Ze werkt alleen zelden vanzelf. De waarde zit gevangen in het harnas, en wie dat niet bouwt, houdt een dure proeftuin over.
Wat is dat harnas dan, concreet? Het begint met scherpte. Een agent die de opdracht "analyseer dit dossier" krijgt, dwaalt af; een agent die precies te horen krijgt welke stappen hij zet, welke uitzonderingen tellen, welk bewijs hij nodig heeft en wanneer hij klaar is, levert werk. Het harnas voedt hem alleen met de context die ertoe doet, want te veel informatie geeft ruis en te weinig geeft giswerk. Het zet om elk gereedschap een hek: deze database mag hij lezen maar niet wijzigen, dit systeem raadplegen maar er geen betalingen in klaarzetten. Het dwingt hem zijn eigen werk te controleren, zijn bronnen te tonen en zijn twijfels te benoemen. Het plaatst een mens op de punten waar geld, recht of reputatie op het spel staan. Het legt alles vast, zodat achteraf valt te reconstrueren wie wat heeft goedgekeurd. En het houdt de kosten in toom, want een agent die ongeremd tokens en tools verbruikt, wordt al snel duurder dan de medewerker die hij moest ontlasten.
Dat dit harnas zwaarder weegt dan het model, is geen theorie. Begin 2026 liet het team achter LangChain zien dat het zijn coding agent op een gangbare benchmark van de dertigste naar de vijfde plaats kon tillen, zonder ook maar iets aan het onderliggende model te veranderen. De hele sprong kwam uit het harnas eromheen: betere self-verification, scherpere tracing, slimmer omgaan met context. De motor was dezelfde; ze hadden er een betere auto omheen gebouwd.
En hier neemt het verhaal een wending die veel bestuurders verrast. Want zo'n harnas laat zich niet door een willekeurige programmeur in elkaar zetten. Iemand moet weten welke uitzondering in de praktijk het verschil maakt, welke data je kunt vertrouwen en welke niet, waarom een regel ooit is bedacht, welke fout je door de vingers kunt zien en welke meteen moet escaleren. Dat is geen kennis die in een handboek staat. Het is de diepgewortelde routine van de ervaren professional en juist die routine moet eerst expliciet worden gemaakt voordat een agent er iets mee kan.
Daarmee staat de populaire framing op zijn kop. Het bedrijf dat AI vooral ziet als een manier om mensen kwijt te raken, heeft het bij het verkeerde eind. De eerste echte productiviteitssprong ontstaat niet door de ervaren kracht te vervangen, maar door wat hij in zijn hoofd heeft te vertalen naar protocollen, controles en beslisregels. Pas dan wordt zijn oordeel schaalbaar. De agent neemt dat oordeel niet over. Hij voert het werk uit; het oordeel blijft bij de mens.
Het onderzoek wijst dezelfde kant op, en corrigeert en passant een hardnekkig misverstand. Bij de vorige generatie hulpmiddelen, de slimme autocomplete, profiteerden vooral de junioren: een bekend experiment met GitHub Copilot zag ontwikkelaars een afgebakende taak 55,8 procent sneller afronden, met de grootste winst onderaan. Bij echte agents draait dat om. Een analyse van data uit de programmeeromgeving Cursor laat zien dat agents het werk verschuiven van uitvoeren naar toezicht houden en dat juist de ervaren professional daarvan profiteert: hij plant beter, delegeert beter en ziet eerder wanneer de uitkomst niet klopt. Generatieve AI maakt mensen sneller en helpt hen buiten hun eigen vakgebied, vond Harvard Business School, maar van een leek maakt ze geen expert. De kloof wordt kleiner. Weg gaat hij niet.
Precies in dat succes schuilt een probleem dat verder reikt dan het volgende kwartaal. Want hoe komen we eigenlijk aan ervaren professionals? We kweken ze, jarenlang, uit junioren. En een junior leert het vak doorgaans via het werk dat saai is en repetitief: de dossiers nalopen, de uitzonderingen tegenkomen, de systemen leren kennen, langzaam begrijpen waarom de regels zijn zoals ze zijn. Laat dat nou precies het werk zijn dat zich zo goed laat automatiseren.
De eerste signalen op de arbeidsmarkt zijn voorzichtig, maar ze wijzen één kant op. Een veelbesproken Stanford-studie, Canaries in the Coal Mine?, vond dat Amerikaanse twintigers in sterk door AI geraakte beroepen sinds eind 2022 terrein verloren, terwijl hun oudere collega's in dezelfde functies juist groeiden. Onderzoek over 62 miljoen cv's spreekt van seniority-biased technological change: de klap valt onderaan. Hard te bewijzen is het niet, er waren immers ook rentestijgingen en correcties na jaren van overmatig aannemen en wie eerlijk is doet niet alsof het vonnis al geveld is. Maar het risico laat zich helder formuleren. Wie het instapwerk wegautomatiseert zonder er een nieuw leerpad voor terug te bouwen, droogt zijn eigen kweekvijver op. Over tien jaar zijn er dan geen senioren meer om het harnas te bouwen of te onderhouden.
De remedie is niet ingewikkeld, alleen ongemakkelijk, omdat ze tegen de reflex van de korte termijn ingaat. Laat junioren de output van agents beoordelen in plaats van het werk zelf te doen. Bouw bewust momenten in waarop ze leren herkennen wat goed is en wat niet. En beloon de senior niet alleen voor zijn snelheid, maar ook voor de moeite om zijn kennis overdraagbaar te maken.
Dat de mensen het echte kapitaal vormen, wordt nog scherper als je bedenkt wat er intussen met de modellen zelf gebeurt. Ze veranderen in een grondstof. Ze worden krachtiger, goedkoper en breder beschikbaar; je huurt ze per verwerkte tekst en je concurrent huurt morgen hetzelfde. Wat vandaag nog als voorsprong voelt, de toegang tot het beste model, is overmorgen een nutsvoorziening. En hier zit het venijn: hoe beter de modellen worden, hoe minder ze je onderscheiden. De voorsprong verhuist naar de laag eromheen.
Want die laag is wél van jou. De data die alleen jij hebt, de processen die je moeizaam hebt uitgevochten, het vakmanschap dat in de loop der jaren is opgebouwd en het harnas waarin dat alles is vastgelegd. Zoiets laat zich niet downloaden. Twee organisaties die hetzelfde model huren, kunnen even ver uiteenlopen als twee orkesten met dezelfde partituur: niet de noten maken het verschil, maar wie ze speelt.
Het roept een ongemakkelijke vraag op. En niet alleen voor bedrijven. Als de intelligentie zelf te huur is, wat bezit je dan nog?
Voor Europa krijgt dit alles nog een extra lading. Het continent heeft sterke instituties en een volwassen omgang met privacy en grondrechten. Dit heeft gezorgd voor behoorlijk wat regelgeving op dit punt. Het rapport-Draghi maakte in 2024 pijnlijk duidelijk hoe ver Europa achterloopt op de Verenigde Staten en China, in frontier-modellen, in compute, in kapitaal en in schaal en becijferde dat er jaarlijks zo'n 750 tot 800 miljard euro extra nodig is om het bredere gat te dichten. Brussel probeert bij te sturen met het AI Continent Action Plan en met InvestAI, goed voor zo'n 200 miljard euro en plannen voor eigen AI-fabrieken en rekenkracht.
De reflex om alles op de regelgeving te schuiven is begrijpelijk, maar ook misleidend. De AVG en de AI Act stellen eisen, zeker, maar de diepere zwakte in Europa zit in versnippering, traag kapitaal en de afhankelijkheid van buitenlandse infrastructuur.
Hoe dan ook, de Europese aanpak van betrouwbare AI die grondrechten respecteert is een gezond uitgangspunt. Het daadwerkelijk doorpakken op het Action Plan en InvestAI zal moeten uitwijzen of het bij woorden blijft.
Voor jouw organisatie is het einde van de vrijblijvende pilots bereikt. Wie serieus met agentic AI aan de slag wil, begint niet bij de technologie maar bij een proces dat echt knelt, wijst er een eigenaar en een domeinexpert voor aan, beperkt de autonomie van de agent met opzet, bouwt de controleerbaarheid vanaf het begin in en ontwerpt meteen het leerpad voor de mensen die het straks moeten overnemen. Geen van die stappen is spectaculair. Samen vormen ze het verschil tussen een 'marketing story' en een resultaat.
Keren we terug naar die agent die halverwege de draad kwijtraakt. Het is verleidelijk om in hem de toekomst te zien, of juist het bewijs dat het allemaal tegenvalt. Geen van beide klopt. Het is een krachtige, grillige kracht die pas waarde levert binnen de grenzen die een mens hem stelt. De modellen worden beter, de grilligheid neemt af, en toch verandert dat de kern niet. Het verschil tussen een dure proeftuin en een echte transformatie is geen technische kwestie. Het is een kwestie van ervaring, domeinkennis, oordeel en de wijsheid om te blijven investeren in de mensen die dat oordeel leveren.
Het harnas is niet de bijzaak rond de businesscase. Het harnas ís de businesscase.
Cijfers en voorbeelden zijn ontleend aan publiek beschikbare bronnen; waar onderzoeken elkaar tegenspreken of zijn bekritiseerd, is dat in de tekst aangegeven.