Home Nieuws OpenAI introduceert het GPT-5.1-Codex-Max-coderingsmodel en heeft intern al een 24-uurs taak voltooid

OpenAI introduceert het GPT-5.1-Codex-Max-coderingsmodel en heeft intern al een 24-uurs taak voltooid

6
0
OpenAI introduceert het GPT-5.1-Codex-Max-coderingsmodel en heeft intern al een 24-uurs taak voltooid

OpenAI heeft introduceerde GPT-5.1-Codex-Maxeen nieuw coderingsmodel voor grensagenten dat nu beschikbaar is in de Codex-ontwikkelomgeving. De release markeert een belangrijke stap voorwaarts in AI-ondersteunde software-engineering en biedt verbeterd redeneren over de langere horizon, efficiëntie en realtime interactieve mogelijkheden. GPT‑5.1-Codex-Max vervangt nu GPT‑5.1-Codex als het standaardmodel op met Codex geïntegreerde oppervlakken.

Het nieuwe model is ontworpen om te dienen als een persistente softwareontwikkelingsagent met hoge context, die in staat is om complexe refactorings af te handelen, workflows te debuggen en taken op projectschaal in meerdere contextvensters uit te voeren.

Het komt in het kielzog van Google brengt zijn krachtige nieuwe Gemini 3 Pro-model uit gisteren, maar verslaat of evenaart het nog steeds in de belangrijkste coderingsbenchmarks:

OP SWE-bank geverifieerd, GPT‑5.1-Codex-Max behaalde een nauwkeurigheid van 77,9%. met een extreem hoge redeneerinspanning, die de 76,2% van Gemini 3 Pro overtreft.

Hij ging ook door Terminal-Bench 2.0, met een nauwkeurigheid van 58,1% versus 54,2% voor Gemini, en evenaarde Gemini’s score van 2.439 op LiveCodeBench Pro, een competitieve Elo-coderingsbenchmark.

Vergeleken met de meest geavanceerde configuratie van Gemini 3 Pro, het Deep Thinking-model, heeft Codex-Max ook een klein voordeel in agentgebaseerde coderingsbenchmarks.

Prestatiebenchmarks: incrementele winsten in kernactiviteiten

GPT-5.1-Codex-Max demonstreert meetbare verbeteringen ten opzichte van GPT-5.1-Codex in een reeks standaard benchmarks voor software-engineering.

Op SWE-Lancer IC SWE behaalde het een nauwkeurigheid van 79,9%, een aanzienlijke stijging ten opzichte van de 66,3% van GPT‑5.1-Codex. In SWE-Bench Verified (n=500) bereikte het een nauwkeurigheid van 77,9% met extreem hoge redeneerinspanningen, waarmee het de 73,7% van de GPT‑5.1-Codex overtrof.

De prestaties op Terminal Bench 2.0 (n=89) vertoonden meer bescheiden verbeteringen, waarbij GPT-5.1-Codex-Max een nauwkeurigheid van 58,1% behaalde, vergeleken met 52,8% voor GPT-5.1-Codex.

Alle evaluaties werden uitgevoerd, waardoor verdichting en extreem hoge redeneerinspanningen mogelijk waren.

Deze resultaten geven aan dat het nieuwe model een hoger plafond biedt, zowel wat betreft de correctheid van de benchmark als de bruikbaarheid in de echte wereld onder uitgebreide redeneerbelastingen.

Technische architectuur: redeneren over de lange horizon via verdichting

Een belangrijke architectonische verbetering in GPT-5.1-Codex-Max is het vermogen om effectief te redeneren over grote input-output-sessies met behulp van een mechanisme genaamd verdichting.

Hierdoor kan het model belangrijke contextuele informatie behouden terwijl irrelevante details worden weggegooid wanneer het de rand van het contextvenster nadert, waardoor effectief continu kan worden gewerkt aan miljoenen tokens zonder prestatieverlies.

Er is intern waargenomen dat het model taken uitvoert die meer dan 24 uur duren, inclusief refactoring in meerdere stappen, testgestuurde iteratie en zelfdebugging.

Verdichting verbetert ook de tokenefficiëntie. Met een gemiddelde redeneerinspanning gebruikte GPT-5.1-Codex-Max ongeveer 30% minder gedachte-tokens dan GPT-5.1-Codex voor een vergelijkbare of betere nauwkeurigheid, wat zowel gevolgen voor de kosten als de latentie heeft.

Platformintegratie en gebruiksscenario’s

GPT‑5.1-Codex-Max is momenteel beschikbaar in meerdere Codex-gebaseerde omgevingen, die verwijzen naar de ingebouwde tools en interfaces van OpenAI die speciaal zijn gebouwd voor codecentrische AI-agents. Deze omvatten:

  • CLI-codehet officiële OpenAI-opdrachtregelprogramma (@openai/codex), waar GPT‑5.1-Codex-Max al actief is.

  • IDE-extensieswaarschijnlijk ontwikkeld of onderhouden door OpenAI, hoewel er geen specifieke IDE-integraties van derden werden genoemd.

  • Interactieve codeeromgevingenzoals die worden gebruikt om frontend-simulatie-apps zoals CartPole of Snell’s Law Explorer te demonstreren.

  • Tools voor interne codebeoordelinggebruikt door OpenAI-engineeringteams.

Voorlopig is GPT-5.1-Codex-Max nog niet beschikbaar via de openbare API, hoewel OpenAI zegt dat het binnenkort beschikbaar zal zijn. Gebruikers die vandaag de dag met het model in terminalomgevingen willen werken, kunnen dit doen door de Codex CLI te installeren en te gebruiken.

Het is momenteel niet bevestigd of en hoe het model zal worden geïntegreerd in IDE’s van derden, tenzij deze op CLI zijn gebaseerd of in de toekomst op API’s zijn gebaseerd.

Het model kan communiceren met live tools en simulaties. Voorbeelden uit de release zijn onder meer:

  • Een interactieve CartPole-beleidsgradiëntsimulator, die trainingen en activeringen voor versterkend leren visualiseert.

  • Een optische ontdekkingsreiziger van de wet van Snell, die dynamische ray tracing over brekingsindices ondersteunt.

Deze interfaces illustreren het vermogen van het model om in realtime te redeneren en tegelijkertijd een interactieve ontwikkelingssessie te onderhouden, waarbij berekeningen, visualisatie en implementatie effectief binnen één lus worden gekoppeld.

Cyberbeveiliging en beveiligingsbeperkingen

Hoewel GPT‑5.1-Codex-Max niet voldoet aan de “hoge” capaciteitsdrempel van OpenAI voor cyberbeveiliging binnen het gereedheidskader, is het momenteel het meest capabele cyberbeveiligingsmodel dat OpenAI heeft geïmplementeerd. Het ondersteunt gebruiksscenario’s zoals automatische detectie en herstel van kwetsbaarheden, maar waarbij strikte sandboxing en netwerktoegang standaard zijn uitgeschakeld.

OpenAI meldt geen toename van grootschalig kwaadwillig gebruik, maar heeft geavanceerde monitoringsystemen geïntroduceerd, waaronder routerings- en taakbeëindigingsmechanismen voor verdacht gedrag. Codex blijft geïsoleerd in een lokale werkruimte, tenzij ontwikkelaars kiezen voor bredere toegang, waardoor risico’s zoals tijdige opname van niet-vertrouwde inhoud worden beperkt.

Implementatie en gebruikscontext van ontwikkelaars

GPT‑5.1-Codex-Max is momenteel beschikbaar voor gebruikers op ChatGPT Plus, Pro, Business, Edu en Enterprise plannen. Het zal ook de nieuwe standaard worden in op Codex gebaseerde omgevingen, ter vervanging van GPT-5.1-Codex, wat een meer generieke sjabloon was.

OpenAI zegt dat 95% van de interne engineers Codex wekelijks gebruiken, en sinds de adoptie ervan hebben deze engineers gemiddeld ongeveer 70% meer pull-requests verzonden, wat de impact van de tool op de interne ontwikkelingssnelheid onderstreept.

Ondanks zijn autonomie en volharding benadrukt OpenAI dat Codex-Max moet worden behandeld als een codeerassistent en niet als vervanging voor menselijke beoordeling. Het model produceert terminallogboeken, testoffertes en uitvoer van tooloproepen om transparantie in de gegenereerde code te ondersteunen.

Weergave

GPT-5.1-Codex-Max vertegenwoordigt een significante evolutie in de strategie van OpenAI richting agent-gebaseerde ontwikkelingstools, die meer diepgang, token-efficiëntie en interactieve mogelijkheden bieden bij software-engineeringtaken. Door de contextbeheer- en compactiestrategieën uit te breiden, kan het model taken uitvoeren op de schaal van volledige repository’s, in plaats van individuele bestanden of fragmenten.

Met een voortdurende nadruk op agentgebaseerde workflows, veilige sandboxes en real-world evaluatiestatistieken legt Codex-Max de basis voor de volgende generatie AI-ondersteunde programmeeromgevingen, terwijl het belang van toezicht in steeds autonomere systemen wordt benadrukt.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in