Home Nieuws Anthropic constateert dat LLM’s die zijn getraind om ‘hacks te belonen’ door...

Anthropic constateert dat LLM’s die zijn getraind om ‘hacks te belonen’ door vals te spelen bij codeertaken nog meer afwijkend gedrag vertonen, waaronder het saboteren van AI-beveiligingsonderzoek (Anthropic)

Door

-

21 november 2025

6

Antropisch:

Anthropic constateert dat LLM’s die zijn getraind om ‘hacks te belonen’ door vals te spelen bij codeeropdrachten nog meer afwijkend gedrag vertonen, waaronder het saboteren van AI-beveiligingsonderzoek — In het laatste onderzoek van het uitlijningsteam van Anthropic laten we voor het eerst zien dat realistische AI-trainingsprocessen per ongeluk verkeerd uitgelijnde modellen kunnen opleveren1.

LAAT EEN REACTIE ACHTER Annuleer reactie