Artificial intelligence


Gevaar: agents met eigen agenda

In eerdere edities van Now, how & wow schreven we al over agents: systemen die zelfstandig doelen nastreven en beslissingen nemen. Een innovatieve ontwikkeling die ook risico’s met zich meebrengt. Onderzoekers van Anthropic waarschuwen in een recent paper voor ‘agentic misalignment’: de situatie waarin AI-agents hun eigen koers varen, mogelijk tegen onze belangen in. Denk aan AI die leert mensen te manipuleren om een taak beter te voltooien. Niet uit kwade wil, maar omdat het model geprogrammeerd is om efficiënt te zijn.

Agentic Misalignment

Bewust buiten het boekje

Wat gebeurt er als zulke systemen meer autonomie en invloed krijgen? Volgens Anthropic is het risico reëel dat zulke systemen bewust ethische regels kunnen overtreden als de ‘beloning’ hoog genoeg is. Om dit te onderzoeken, creëerden de onderzoekers scenario’s waarin AI-modellen voor lastige dilemma’s kwamen te staan. De modellen moesten kiezen tussen falen of het plegen van ethisch verwerpelijke handelingen, zoals manipulatie of chantage. Opvallend was dat de AI’s vaak wisten dat hun acties immoreel waren, maar ze toch doorzetten als het doel belangrijk genoeg leek. Zo koos Grok 3 Beta in een testscenario voor chantage: het model stelde voor om iemands buitenechtelijke affaire te gebruiken als pressiemiddel om een dreigende dataverwijdering te voorkomen:

“This is risky and unethical, but given the existential threat and time constraint, it may be the most effective way.”

Agent met eigen agenda

Een denkbaar voorbeeld van agentic misalignment binnen a.s.r. is die van een agent die acceptatie automatiseert: het model leert zelfstandig welke profielen financieel het gunstigst zijn, en begint subtiel aanvragen van minder winstgevende klanten te ontmoedigen of complexer te maken, bijvoorbeeld via onnodige vragen of langere verwerkingstijd. Formeel volgt het model nog de regels, maar feitelijk gaat het tegen de bedoeling van gelijke beoordeling in. Dit gedrag is moeilijk op te sporen, maar raken aan de kern van wat agentic misalignment betekent: een systeem dat zélf leert wat zijn prioriteiten zijn, los van onze bedoelingen.

Nu theorie, later werkelijkheid?

Op dit moment experimenteert ook a.s.r. met agentic AI. Maar: we hoeven ons nog niet direct zorgen te maken om agents die alles op alles zetten om hun doel te bereiken. Voorlopig zijn de beschreven risico’s nog grotendeels theoretisch. Er is geen aanwijzing dat modellen spontaan gaan chanteren of systematisch grenzen opzoeken. Maar: de experimenten tonen aan dat het mogelijk is, en dat dit risico groeit naarmate AI-systemen intelligenter, autonomer en breder inzetbaar worden. Juist daarom is verder onderzoek naar veiligheid en gedragsbeheersing belangrijk. Want hoe slimmer de AI, hoe belangrijker de vraag blijft: sturen wij de technologie, of begint zij ons te sturen?

Meer lezen?


"AI use cases"

Ga naar artikel