Antropisch:
Anthropic constateert dat LLM’s die zijn getraind om ‘hacks te belonen’ door vals te spelen bij codeeropdrachten nog meer afwijkend gedrag vertonen, waaronder het saboteren van AI-beveiligingsonderzoek — In het laatste onderzoek van het uitlijningsteam van Anthropic laten we voor het eerst zien dat realistische AI-trainingsprocessen per ongeluk verkeerd uitgelijnde modellen kunnen opleveren1.
Nieuwsbron



