Een paar weken geleden, het kunstmatige intelligentiebedrijf Anthropic publiceerden de grondwet die ze gebruiken om hun Claude LLM te vormen (“onder een Creative Commons Act CC0 1.0wat betekent dat het door iedereen vrijelijk kan worden gebruikt voor welk doel dan ook zonder toestemming te vragen”) het persbericht van het bedrijf:
We publiceren een nieuwe grondwet voor ons AI-model, Claude. Het is een gedetailleerde beschrijving van de visie van Anthropic op de waarden en het gedrag van Claude; een holistisch document dat de context uitlegt waarin Claude opereert en het soort entiteit dat we graag willen dat Claude is.
De grondwet is een cruciaal onderdeel van ons modelvormingsproces, en de inhoud ervan bepaalt rechtstreeks het gedrag van Claude. Trainingsmodellen zijn een moeilijke taak en de resultaten van Claude komen niet altijd overeen met de idealen van de Grondwet. Maar wij denken dat de manier waarop de nieuwe Grondwet is geschreven – met een grondige uitleg van onze bedoelingen en de redenen daarachter – het waarschijnlijker maakt dat tijdens de training goede waarden zullen worden gecultiveerd.
DE compleet document is meer dan 80 pagina’s, maar de persbericht doet goed werk om samen te vatten wat erin zit.
De grondwet van Claude is het fundamentele document dat uitdrukt en vormgeeft wie Claude is. Het bevat gedetailleerde uitleg van de waarden die we graag willen dat Claude belichaamt en de redenen waarom. Daarin leggen we uit wat het volgens ons voor Claude betekent om behulpzaam te zijn en toch over het algemeen veilig, ethisch en in overeenstemming met onze richtlijnen te blijven. De Grondwet geeft Claude informatie over zijn situatie en biedt advies over hoe om te gaan met moeilijke situaties en compromissen, hoe eerlijkheid in evenwicht te brengen met mededogen, en de bescherming van gevoelige informatie. Hoewel het misschien verrassend lijkt, is de Grondwet in de eerste plaats voor Claude geschreven. Het is bedoeld om Claude de kennis en het begrip te geven die hij nodig heeft om het goed te doen in de wereld.
Wij beschouwen de grondwet als de uiteindelijke autoriteit over hoe wij willen dat Claude is en zich gedraagt: dat wil zeggen dat elke andere training of instructie die aan Claude wordt gegeven consistent moet zijn met zowel de letter als de onderliggende geest ervan. Dit maakt de publicatie van de Grondwet bijzonder belangrijk vanuit het oogpunt van transparantie: het stelt mensen in staat te begrijpen welk gedrag van Claude opzettelijk en welke onopzettelijk is, om weloverwogen keuzes te maken en nuttige feedback te geven. Wij geloven dat dit soort transparantie steeds belangrijker zal worden naarmate AI een grotere invloed in de samenleving begint uit te oefenen.
Casey Newton en Kevin Roose onlangs geïnterviewd de hoofdauteur van de Grondwet, filosoof Amanda Askell, voor de Hard Fork-podcast (segment begint op ~25min).
Newton zegt dat het document leest als “een brief van een ouder aan een kind dat mogelijk naar de universiteit gaat”:
En het is alsof we hopen dat je de waarden waarmee je bent opgegroeid met je meeneemt. En we weten dat we er niet zullen zijn om je met elk klein dingetje te helpen, maar we vertrouwen je. En veel geluk.
Zowel de Grondwet als het gesprek met Askell zijn fascinerend, waar je je ook bevindt op het continuüm van het AI-debat. Mogelijk bent u ook geïnteresseerd in deze video waarin Askell vragen van Claude-gebruikers over zijn werk beantwoordt:



