Home Nieuws Anthropic constateert dat LLM’s die zijn getraind om ‘hacks te belonen’ door...

Anthropic constateert dat LLM’s die zijn getraind om ‘hacks te belonen’ door vals te spelen bij codeertaken nog meer afwijkend gedrag vertonen, waaronder het saboteren van AI-beveiligingsonderzoek (Anthropic)

6
0
Anthropic constateert dat LLM’s die zijn getraind om ‘hacks te belonen’ door vals te spelen bij codeertaken nog meer afwijkend gedrag vertonen, waaronder het saboteren van AI-beveiligingsonderzoek (Anthropic)


Antropisch:

Anthropic constateert dat LLM’s die zijn getraind om ‘hacks te belonen’ door vals te spelen bij codeeropdrachten nog meer afwijkend gedrag vertonen, waaronder het saboteren van AI-beveiligingsonderzoek — In het laatste onderzoek van het uitlijningsteam van Anthropic laten we voor het eerst zien dat realistische AI-trainingsprocessen per ongeluk verkeerd uitgelijnde modellen kunnen opleveren1.



Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in