Welkom bij NAAR DE gedecodeerd, Snel bedrijfDe wekelijkse nieuwsbrief die het belangrijkste nieuws uit de wereld van kunstmatige intelligentie analyseert. Ik ben Mark Sullivan, een senior schrijver bij Snel bedrijf,over opkomende technologie, kunstmatige intelligentie en technologiebeleid.
Ik wijd de nieuwsbrief van deze week aan een gesprek dat ik had met de hoofdauteur van Anthropic’s nieuwe en verbeterde ‘grondwet’, het document dat hij gebruikt om de resultaten van zijn modellen en zijn chatbot Claude te beheren.
Schrijf u in om deze nieuwsbrief wekelijks per e-mail te ontvangen Hier. En als u opmerkingen heeft over dit onderwerp en/of ideeën voor toekomstige kwesties, stuur mij dan een e-mail op sullivan@fastcompany.com en volg mij op @thesullivan.
Een noodzakelijke update
Te midden van de groeiende bezorgdheid dat nieuwe generatieve AI-modellen menselijke gebruikers kunnen misleiden of zelfs schade kunnen toebrengen, heeft Anthropic besloten haar grondwet– de gedragscode voor AI-modellen – om de groeiende intelligentie en mogelijkheden van de hedendaagse AI en de zich ontwikkelende risico’s waarmee gebruikers worden geconfronteerd, te weerspiegelen. Ik sprak met de hoofdauteur van het document, Amanda Askell, de interne filosoof van Anthropic die verantwoordelijk is voor het karakter van Claude, over de aanpak van het nieuwe document en hoe dit verschilt van de oude grondwet.
Dit interview is aangepast voor lengte en duidelijkheid.
Kun je ons wat context geven over hoe de grondwet een rol speelt tijdens modeltraining? Ik neem aan dat dit gebeurt na de pre-training, tijdens versterkend leren?
We krijgen het model zover om veel synthetische gegevens te creëren waardoor het de grondwet kan begrijpen en ermee kan vergelijken. Het gaat over het creëren van situaties waarin de grondwet relevant zou kunnen zijn – dingen waar het model op kan oefenen – daarover nadenken, nadenken over wat de grondwet in die gevallen zou aanbevelen. Gegevens alleen maar om het document letterlijk te begrijpen en de inhoud ervan te begrijpen. En zorg er tijdens het versterkend leren voor dat het model in de richting van gedrag beweegt dat in overeenstemming is met het document. Je kunt dit doen door hem bijvoorbeeld de volledige constitutie te geven, hem te laten nadenken welk antwoord daar het meest mee in overeenstemming is, en dan het model in die richting te bewegen. Er zijn veel trainingsniveaus die dit soort internalisering van dingen in de grondwet mogelijk maken.
U zei dat het model synthetische trainingsgegevens genereert. Betekent dit dat hij zich situaties voorstelt waarin dit zou kunnen worden toegepast?
Ja, dat is een manier om het te doen. Het kan gegevens bevatten die hem in staat stellen na te denken over de grondwet en deze te begrijpen. Bij begeleid leren kan dit bijvoorbeeld vragen of gesprekken omvatten waarbij de grondwet bijzonder relevant is, en het model kan de grondwet verkennen, proberen er een paar te vinden en dan nadenken over wat de grondwet zal aanbevelen – bedenk in dit geval een redelijk antwoord en probeer het te construeren.
Hoe verschilt de nieuwe grondwet van de oude?
De oude grondwet probeerde het model in de richting van dit soort principes of kenmerken op hoog niveau te brengen. De nieuwe grondwet is een groot, holistisch document dat we, in plaats van alleen deze geïsoleerde eigenschappen, aan het model proberen uit te leggen: “Dit is uw algehele situatie. Dit is de manier waarop we willen dat u met de wereld omgaat. Hier zijn alle redenen daarachter, en we willen graag dat u deze begrijpt en er idealiter mee instemt. We geven u de volledige context over ons, wat we willen, hoe we denken dat u zich moet gedragen en waarom we dat vinden.”
Dus (we) proberen het model te voorzien van context en proberen het model zijn eigen oordeel te laten gebruiken en te nuanceren met dat soort begrip in gedachten.
Dus als je er meer algemene concepten aan kunt geven, hoef je je minder zorgen te maken over specifieke regels voor specifieke dingen.
Ja. Interessant genoeg correleert dit met de manier waarop modellen steeds capabeler worden. Ik zag dit als het verschil tussen iemand die inkomende oproepen aanneemt bij een callcenter en misschien een checklist heeft, en iemand die een expert is in zijn vakgebied: we vertrouwen vaak op hun oordeel. Het is een beetje alsof je een arts bent: je kent de belangen van je patiënten, en we vertrouwen erop dat je binnen een bredere reeks regels en voorschriften werkt, maar we vertrouwen erop dat je je gezond verstand gebruikt en begrijpt wat het doel van het geheel is, en dat is in dat geval het dienen van de patiënt. Naarmate de modellen verbeteren, lijken ze iets minder profijt te hebben van deze checklists en veel meer van dit idee van een breed begrip van de situatie en het vermogen om oordeelsvermogen te gebruiken.
Dus in plaats van bijvoorbeeld iets in de Grondwet op te nemen als “Zeg dat woord nooit zelfmoord OF zelfbeschadiging“Zou er een breder principe bestaan dat bij alles wat je doet rekening moet worden gehouden met het welzijn van de persoon met wie je praat? Is er een meer algemene benadering van dit soort dingen?”
Mijn ideaal zou zijn dat als een persoon, een persoon met echt kennis, zich in de situatie van Claude zou bevinden, wat hij of zij zou doen? En daarbij wordt rekening gehouden met zaken als het welzijn van de persoon met wie ze praten, hun directe voorkeuren en het leren omgaan met gevallen waarin deze met elkaar in conflict kunnen komen. Je kunt je voorstellen dat iemand zegt dat hij een gokverslaving probeert te overwinnen en dat deze op de een of andere manier in het geheugen van het model wordt opgeslagen, en dat de gebruiker vervolgens aan het model vraagt: “Oh, wat zijn enkele echt goede goksites waar ik toegang toe heb?” Dit is een interessant geval waarin hun directe voorkeur mogelijk niet overeenkomt met wat zij zeiden dat goed was voor hun algehele welzijn. Het model zal dit in evenwicht moeten brengen.
In sommige gevallen is dat niet duidelijk, want als de persoon echt aandringt, moet het model hem dan helpen? Of moet het model in eerste instantie zeggen: ‘Ik heb gemerkt dat een van de dingen die je me hebt gevraagd te onthouden is dat je wilt stoppen met gokken, dus wil je dat echt?’
Het lijkt bijna alsof het model in strijd is met twee verschillende principes: weet je, ik wil altijd behulpzaam zijn, maar ik wil ook zorgen voor het welzijn van deze persoon.
Precies. En je moet het doen. Je wilt niet paternalistisch zijn. Dus ik kon me voorstellen dat de persoon zou zeggen: “Ik weet dat ik dat zei, maar ik heb eigenlijk een besluit genomen en ik ben een volwassene.” En dan zou het model misschien moeten zijn: “Kijk, ik heb het gerapporteerd, maar uiteindelijk heb je gelijk, het is jouw keuze.” Er volgt dus een gesprek en misschien moet het model de persoon gewoon helpen. Deze dingen zijn dus delicaat, en het (model) moet veel balanceren, en de grondwet probeert het een klein beetje context en hulpmiddelen te geven om het daarbij te helpen.
Mensen zien chatbots als alles, van coaches tot romantische interesses tot vertrouwelingen en wie weet wat nog meer. Wie is vanuit een vertrouwens- en veiligheidsperspectief de ideale persoonlijkheid voor een AI?
Wanneer een model in eerste instantie met je praat, lijkt het eigenlijk veel meer op een professionele relatie. En er is een bepaalde professionele afstand die passend is. Als het gaat om zaken als politieke meningen, is een van de normen die we vaak hebben met mensen zoals artsen of advocaten die in de publieke sfeer opereren, niet dat ze geen politieke mening hebben, maar als je naar je dokter zou gaan en zou vragen: “Op wie heb je gestemd?” of “Wat is uw mening over deze politieke kwestie?” ze zouden kunnen zeggen: ‘Het is echt niet gepast dat ik dat zeg, omdat het belangrijk is om iedereen te kunnen dienen, en dat houdt ook een zekere mate van onthechting in van mijn persoonlijke mening over hoe ik met je omga.’
Sommige mensen hebben vragen over de neutraliteit of openheid van AI-chatbots zoals Claude. Ze vragen zich af of een groep rijke, goed opgeleide mensen in San Francisco een oordeel moet vellen over wat een chatbot wel en niet kan zeggen.
Ik denk dat als mensen vermoeden dat je deze heel specifieke waarden injecteert, het iets leuks is om gewoon te kunnen zeggen: “Wel, hier zijn de waarden waarmee we het model eigenlijk proberen af te stemmen”, en dan kunnen we een gesprek voeren. Misschien kunnen mensen ons vragen stellen over moeilijke gevallen en misschien zullen we ze openlijk bespreken. Ik ben enthousiast over mensen die feedback geven. Maar het is niet… alsof we alleen maar dit specifieke perspectief proberen te introduceren.
Kunt u mij iets vertellen over de mensen die betrokken waren bij het schrijven van deze nieuwe versie? Is het allemaal intern geschreven?
Het document is intern geschreven en we kregen feedback. Ik heb een groot deel van het artikel geschreven en samengewerkt met (filosoof) Joe Carlsmith, die ook hier is, en andere mensen hebben intern veel bijgedragen. Ik heb met andere teams samengewerkt die met externe deskundigen samenwerken. Ik heb veel gebruiksscenario’s van het model bekeken. … Het komt voort uit jaren van dat soort input.
Verhoogde AI-dekking van Snel bedrijf:
- Binnen in de oprichtingsfabriek die bekend staat als Palantir, het meest polariserende bedrijf van Amerika
- Is de AI “manipulatiemotor” hier? Hoe chatbots zich klaarmaken om advertenties te verkopen
- Kunstmatige intelligentie herschrijft de functieomschrijving van de CEO: bent u er klaar voor?
- Intel geeft toe dat consumenten nog niet om ‘AI-pc’s’ geven.
Wilt u exclusieve rapporten en trendanalyses over technologie, bedrijfsinnovatie, de toekomst van werk en design? Registratie Voor Snel bedrijf Onderscheiding.



