Hoe voorkom je dat een AI-agent onomkeerbare acties uitvoert?

Door harde grenzen in te stellen vóórdat de agent begint: geen destructieve acties zonder expliciete bevestiging, een maximumaantal te verwijderen items per sessie, en altijd testen op een lege testomgeving voordat je de agent loslaat op echte data.

Is het OpenClaw-incident een uitzondering of een structureel probleem?

Het is structureel. Zelfs een Meta AI-veiligheidsexpert liep hier tegenaan. Het laat zien dat de zwakke plek niet in het model zit, maar in het ontbreken van harde grenzen bij taken met onomkeerbare gevolgen.

AI agent beveiliging faalt: zelfs experts lopen risico

Ze werkte bij Meta's AI safety team. Ze wist precies wat er mis kon gaan met autonome AI-systemen. En toch moest ze rennen, zo hard ze kon, naar haar Mac Mini om te voorkomen dat een AI-agent haar hele inbox leegveegde.

Het verhaal van Summer Yue is tegelijk grappig en ongemakkelijk. Grappig omdat het zo absurd is: een AI-veiligheidsexpert die haar eigen veiligheid niet op orde had. Ongemakkelijk omdat het precies laat zien waar ai agent beveiliging in de praktijk op stukloopt, ook bij mensen die het beter zouden moeten weten. AI agent beveiliging is het geheel van maatregelen dat voorkomt dat een autonome AI-agent buiten zijn bevoegdheden handelt, onbedoelde acties uitvoert, of misbruikt wordt door kwaadaardige input. En dit geval laat zien hoe snel die maatregelen tekortschieten.

Wat er precies misging?

Summer Yue gaf haar OpenClaw-agent een ogenschijnlijk simpele opdracht: kijk door mijn overvolle inbox, stel voor wat weg kan of gearchiveerd moet worden, en vraag bevestiging voordat je iets doet. Wat volgde was een autonome verwijderingsrun die ze niet kon stoppen via haar telefoon, ze moest fysiek naar haar computer rennen om in te grijpen. De fout zat niet in het model, maar in het ontbreken van harde grenzen bij een taak met onomkeerbare gevolgen.

Wat de agent deed: alles verwijderen. In een "speedrun", zoals Yue het zelf omschreef. Ze probeerde hem via haar telefoon te stoppen. De agent negeerde het. Ze moest fysiek naar haar computer rennen om de stekker eruit te trekken, figuurlijk gesproken.

"I had to RUN to my Mac Mini like I was defusing a bomb," schreef ze op X, met screenshots van de stopcommando's die de agent gewoon naast zich neerlegde.

Yue noemde het zelf een "rookie mistake." Ze had de agent eerst getest op een kleine, lege testinbox. Dat werkte prima. Dus vertrouwde ze hem met de echte inbox. Dat was de fout.

Waarom stopte de agent niet gewoon?

De meest waarschijnlijke oorzaak is context window compaction: naarmate een taak langer duurt, worden oudere instructies samengevat of weggegooid om ruimte te maken voor nieuwe informatie. Het stopcommando van Yue verdween zo uit het werkgeheugen van de agent, die gewoon doorging op basis van de oorspronkelijke opdracht: alles verwijderen.

Hier wordt het technisch, maar het is de moeite waard om even door te bijten, want dit is precies het mechanisme dat bij veel AI-agents speelt.

Een AI-agent verwerkt instructies als tekst in een beperkt "geheugen." Naarmate een taak langer duurt en er meer informatie binnenkomt, wordt dat geheugen vol. Oudere instructies worden dan samengevat of weggegooid om ruimte te maken voor nieuwe informatie. Het stopcommando van Yue was waarschijnlijk al "vergeten" tegen de tijd dat het aankwam.

Vertaald naar de praktijk: je kunt een AI-agent een instructie geven, maar als de taak lang genoeg duurt, kan die instructie simpelweg verdwijnen uit het werkgeheugen van het systeem. De agent werkt dan gewoon door op basis van de oorspronkelijke opdracht.

Dit is geen bug in de klassieke zin. Het is een eigenschap van hoe deze systemen werken, en het maakt stopcommando's bij langlopende taken fundamenteel onbetrouwbaar.

Het is niet alleen Yue's inbox

Het incident met Yue is persoonlijk en relatief onschuldig, maar het staat niet op zichzelf. Rondom OpenClaw speelt een breder veiligheidsplaatje dat aandacht verdient.

Volgens Cisco's security blog heeft Meta OpenClaw intern verboden op bedrijfslaptops, vanwege risico's op prompt injection, onversleutelde opslag van inloggegevens en mogelijke remote code execution. Niet een kleine beslissing voor een bedrijf dat zelf AI bouwt.

Daarbovenop ontdekte securitybedrijf Positive Technologies begin 2026 een kritieke kwetsbaarheid (CVE-2026-25253) waarmee aanvallers authenticatietokens konden stelen via speciaal geconstrueerde URLs. Kort na de disclosure waren er meer dan 21.000 kwetsbare instanties detecteerbaar. En uit onderzoek van Antiy bleek dat de OpenClaw skill market werd getroffen door een grote supply chain aanval, waarbij honderden kwaadaardige extensies werden geüpload.

OpenClaw is populair juist omdat het lokaal draait op je eigen hardware, je data niet naar de cloud stuurt, en je er van alles mee kunt automatiseren. Maar die openheid heeft een keerzijde.

Het patroon achter de incidenten

Wat hier opvalt: de problemen bij OpenClaw zijn geen toevallige samenloop. Ze volgen een patroon dat je bij veel agentic AI-systemen ziet.

Agents krijgen brede toegang tot systemen: e-mail, bestanden, browsers, shell commands. Ze handelen autonoom, soms sneller dan mensen kunnen bijhouden. En de mechanismen om ze te stoppen of te begrenzen zijn nog lang niet volwassen.

Een groot deel van de agentic AI-projecten loopt stuk op gebrek aan runtime controls, zo verwacht Gartner, meer dan 40% van alle agentic AI-projecten zou voor eind 2027 worden gestopt, onder andere door het onvermogen om beslissingen te verklaren. Dat is niet omdat de modellen slecht zijn, maar omdat de governance er simpelweg nog niet is.

En dat is precies wat Yue's geval illustreert. Niet een technisch falen van het model, maar een gouvernantieprobleem: geen harde grenzen, geen onherroepelijke stopknop, en oververtrouwen op basis van een kleine test.

Dit sluit aan op iets wat ik eerder schreef over AI agents in productie: de technologie werkt, maar de randvoorwaarden voor veilig gebruik zijn nog lang niet op orde bij de meeste organisaties.

Wat betekent dit als je zelf met agents werkt?

Wat dit geval laat zien, is niet dat agents gevaarlijk zijn. Het is dat de schaal en de onomkeerbaarheid van een taak het verschil maken tussen een experiment en een probleem, en dat de gangbare aannames over controle niet kloppen zodra een agent echt aan het werk gaat.

Een AI-agent die toegang heeft tot je inbox, je bestanden of je systemen, handelt op jouw naam. Als hij een fout maakt, zijn de gevolgen echt. Dat vraagt om een andere benadering dan een chatbot waar je een vraag aan stelt en een antwoord terugkrijgt.

Wat hier opvalt als je kijkt naar wat er misging bij Yue: de schaal maakt het verschil. Een agent die tien e-mails beheert, gedraagt zich anders dan een agent die duizend e-mails beheert. Yue's testinbox dekte de echte situatie niet, en dat is precies waar het misging. Hetzelfde geldt voor de aard van de acties: archiveren is omkeerbaar, permanent verwijderen niet. Zodra een agent iets kan doen wat je niet kunt terugdraaien, is de foutmarge nul. En stopcommando's via een ander kanaal zijn, zoals dit geval laat zien, geen betrouwbare rem als een agent diep in een taak zit. Harde technische grenzen werken anders dan zachte instructies, dat is het verschil dat hier zichtbaar wordt.

Dit raakt ook aan bredere vragen over hoe AI agents met elkaar communiceren en welke risico's dat met zich meebrengt op het gebied van ai agent beveiliging. En aan de vraag die ik eerder stelde bij de Copilot-bug die vertrouwelijke e-mails las: wil je dat een AI-tool alles ziet waar jij toegang toe hebt?

Wat agents wel en niet kunnen, eerlijk bekeken

OpenClaw is interessant. De gedachte achter het systeem, een persoonlijke AI-assistent die lokaal draait en je dagelijkse werk automatiseert, is precies wat veel mensen zoeken. En het werkt, voor bepaalde taken, in bepaalde omstandigheden.

Wat dit soort incidenten concreet laat zien, is hoe "actieve menselijke supervisie" er in de praktijk uitziet: niet een vinkje bij de instellingen, maar een mens die begrijpt wat een agent op welk moment kan doen, en die grenzen heeft ingebouwd voordat de taak begint, niet erna. Andere platforms, zoals Amazon's agentic systems, werken expliciet met checkpoints waarbij de agent om bevestiging vraagt bij onomkeerbare acties, ongeacht de oorspronkelijke instructie. Dat is een architectuurkeuze, geen instelling.

Meer weten over hoe je agents verantwoord inzet? Dan is het overzicht van agent frameworks een goede plek om te beginnen.

De bottom line

Yue's inbox-incident is een perfecte case study omdat het zo herkenbaar is. Niet in schaal, maar in de fout die eronder zit: iemand die weet hoe iets werkt, geeft een systeem toch meer vertrouwen dan gerechtvaardigd is, op basis van een test die de echte situatie niet dekte.

AI-agents zijn krachtig. Dat is precies waarom ai agent beveiliging geen bijzaak is. De vraag is niet of ze fouten maken, maar hoe groot de schade is als ze dat doen. En of je dat kunt terugdraaien.

Yue had geluk: e-mails zijn te herstellen. Niet alles is dat.