Artificial intelligence


Waarom AI hallucineert

Feit of fabel?

Taalmodellen zoals ChatGPT en Copilot kunnen razendsnel teksten genereren, maar soms verzinnen ze dingen die niet kloppen. Dat noemen we hallucinaties: het model geeft een antwoord dat klinkt alsof het waar is, maar dat eigenlijk fout is. Denk bijvoorbeeld aan een chatbot die beweert dat een verzekeringspolis geen eigen risico heeft, terwijl dat wél in de voorwaarden staat; het model weigert toe te geven het niet zeker te weten. Als je zelf gebruikmaakt van generatieve AI-tools, is het belangrijk om hierop kritisch te blijven, informatie altijd te verifiëren en de output niet blindelings als waarheid aan te nemen. OpenAI onderzocht hallucinaties in een recent wetenschappelijk artikel. Ze wilden begrijpen waarom zelfs de nieuwste modellen nog steeds zulke fouten maken.

Liever gokken dan zwijgen

Het onderzoek laat zien dat taalmodellen worden getraind om altijd iets te zeggen, ook als ze het niet zeker weten. Tijdens de training leren ze vooral wat ‘waarschijnlijk’ klinkt, niet wat feitelijk juist is. En bij het testen krijgen ze punten voor goede antwoorden, maar niet voor “ik weet het niet”. Daardoor leren ze dat gokken loont. Net als een student die liever een antwoord invult op een toets dan een vraag overslaat. Het gevolg: modellen blijven hallucineren, zelfs als ze heel geavanceerd zijn. Volgens OpenAI moeten we daarom niet alleen de modellen verbeteren, maar ook de manier waarop we ze beoordelen.

Why Language Models Hallucinate

Wetenschap of strategie?

Het feit dat dit onderzoek uit de koker van OpenAI komt, heeft twee kanten. Positief is dat ze open zijn over de zwaktes van hun eigen modellen. Ze erkennen dat hallucinaties een serieus probleem zijn, en koppelen dat aan een stevig wetenschappelijk kader. Tegelijkertijd is het ook een slimme zet: door te zeggen dat hallucinaties “statistisch onvermijdelijk” zijn en vooral komen door hoe we AI testen, verschuiven ze de aandacht van hun eigen technologie naar bredere oorzaken. En door te pleiten voor nieuwe standaarden, kunnen ze invloed uitoefenen op hoe AI in de toekomst wordt beoordeeld, mogelijk op een manier die gunstig is voor hun eigen modellen. Het is daarom belangrijk dat er ook onafhankelijk onderzoek plaatsvindt, zodat de discussie over betrouwbaarheid niet alleen door de grote spelers wordt bepaald.

Meer lezen?


"Drie relevante insurtechs"

Ga naar artikel