De afgelopen drie maanden heeft Google’s Gemini 3 Pro zichzelf bewezen als een van de meest capabele grensmodellen die er zijn. Maar in de snel evoluerende wereld van kunstmatige intelligentie is drie maanden een leven lang, en de concurrenten hebben niet stilgestaan.
Vandaag heeft Google dit vrijgegeven Tweeling 3.1 Proeen update die een belangrijke innovatie brengt in het machtsmodel van het bedrijf: drie niveaus van aanpasbaar denken die het effectief transformeren in een lichtgewicht versie van Google’s gespecialiseerde Deep Think-redeneersysteem.
De release markeert de eerste keer dat Google een ‘punt één’-update voor een Gemini-model heeft uitgebracht, wat een verschuiving in de releasestrategie van het bedrijf aangeeft van periodieke lanceringen van de volledige versie naar frequentere incrementele updates. Nog belangrijker voor zakelijke AI-teams die hun modellenstapel evalueren, is dat het nieuwe denksysteem met drie niveaus van 3.1 Pro – laag, gemiddeld en hoog – ontwikkelaars en IT-leiders één enkel model biedt waarmee ze hun redeneringsinspanningen dynamisch kunnen opschalen, van snelle antwoorden op routinevragen tot diepgaande redeneersessies van meerdere minuten voor complexe problemen.
Het model is nu als preview beschikbaar in de Gemini API via Google AI StudioGemini CLI, het agentontwikkelingsplatform van Google Antigravity, Vertex AI, Gemini Enterprise, Android Studio, Gemini-consumentenapp en NotebookLM.
Het ‘Deep Think Mini’-effect: adaptief redeneren op verzoek
Het belangrijkste kenmerk van Gemini 3.1 Pro is niet één enkel referentienummer: het is de introductie van een denklagensysteem met drie niveaus dat gebruikers gedetailleerde controle geeft over de hoeveelheid rekenkracht die het model in elk antwoord investeert.
Gemini 3 Pro bood slechts twee denkmodi: laag en hoog. De nieuwe 3.1 Pro voegt een gemiddelde instelling toe (vergelijkbaar met de vorige hoge) en herziet, kritisch, wat “hoog” betekent. Als 3.1 Pro op de hoogste stand staat, gedraagt het zich als een ‘miniversie van Gemini Deep Think’, het gespecialiseerde redeneermodel van het bedrijf dat vorige week bijgewerkt.
De gevolgen voor de implementatie in ondernemingen kunnen aanzienlijk zijn. In plaats van verzoeken door te sturen naar verschillende gespecialiseerde modellen op basis van de complexiteit van de taak – een gebruikelijk maar operationeel belastend model – kunnen organisaties nu één enkel modeleindpunt gebruiken en de diepgang van de redenering aanpassen op basis van de taak die voorhanden is. Het routinematig samenvatten van documenten kan worden uitgevoerd met een laag denkvermogen en snelle responstijden, terwijl complexe analytische taken kunnen worden verheven tot een hoog denkvermogen voor redeneren op Deep Think-kaliber.
Benchmarkprestaties: redenering meer dan verdubbeld vergeleken met 3 Pro
Door Google gepubliceerde benchmarks vertellen een verhaal van opmerkelijke verbeteringen, vooral op gebieden die verband houden met redeneren en het vermogen om te handelen.
OP ARC-AGI-2een benchmark die het vermogen van een model evalueert om nieuwe abstracte redeneerpatronen op te lossen, behaalde een score van 3,1 Pro 77,1% – meer dan het dubbele van de 31,1% behaald door de Gemini 3 Pro en aanzienlijk hoger dan Anthropic’s Sonnet 4.6 (58,3%) en Opus 4.6 (68,8%). Dit resultaat overtreft ook de GPT-5.2 van OpenAI (52,9%).
De winsten strekken zich over de hele linie uit. OP Het laatste onderzoek naar de mensheid3.1 Pro, een rigoureuze maatstaf voor academisch redeneren, scoorde 44,4% zonder hulpmiddelen, vergeleken met 3 Pro’s 37,5% en vóór zowel Claude Sonnet 4.6 (33,2%) als Opus 4.6 (40,0%). OP GPQA-diamanteen wetenschappelijke kennisbeoordeling behaalde 3.1 Pro 94,3% en overtrof daarmee alle genoemde concurrenten.
Waar de bevindingen vooral relevant worden voor zakelijke AI-teams zijn benchmarks voor agenten, beoordelingen die meten hoe modellen presteren wanneer ze in meerdere fasen worden voorzien van tools en taken, het soort werk dat in toenemende mate de productie-AI-implementaties definieert.
OP Terminal-Bench 2.0die agentterminalcodering evalueert, scoorde 3.1 Pro 68,5% vergeleken met 56,9% voor zijn voorganger. OP MCP-atlaseen benchmark die meerstapsworkflows meet met behulp van het Model Context Protocol, 3.1 Pro behaalde 69,2% – een verbetering van 15 punten ten opzichte van de 54,1% van 3 Pro, en bijna 10 punten beter dan zowel Claude als GPT-5.2. En zo verder BladerenCompwaarin de zoekmogelijkheden van agenten op internet worden getest, behaalde 3.1 Pro 85,9% en overtrof daarmee de 59,2% van 3 Pro.
Waarom Google versie “0.1” heeft gekozen en wat deze aangeeft
Het versiebesluit is op zichzelf al opmerkelijk. Eerdere versies van Gemini volgden een patroon van gedateerde previews: meerdere 2.5-previews bijvoorbeeld voordat ze algemene beschikbaarheid bereikten. De keuze om deze update aan te duiden als 3.1 in plaats van nog een 3 Pro-preview suggereert dat Google de verbeteringen substantieel genoeg vindt om een versiestoot te rechtvaardigen, terwijl de formulering van “punt één” de verwachting wekt dat dit een evolutie is, en geen revolutie.
In de blogpost van Google staat dat 3.1 Pro rechtstreeks voortbouwt op lessen uit de Gemini Deep Think-serie, waarbij technieken uit zowel oudere als nieuwere versies zijn verwerkt. De benchmarks suggereren sterk dat versterkend leren een centrale rol speelde in de winst, vooral bij taken als ARC-AGI-2, coderingsbenchmarks en agentevaluaties – precies de domeinen waar op RL gebaseerde trainingsomgevingen duidelijke beloningssignalen kunnen bieden.
Het model wordt uitgebracht als preview in plaats van als een lancering voor algemene beschikbaarheid, waarbij Google zegt dat het vooruitgang zal blijven boeken op gebieden als agentworkflows voordat het overgaat naar de volledige GA-release.
Concurrentie-implicaties voor de AI-stack van ondernemingen
Voor IT-beslissers die leveranciers van frontier-modellen evalueren, zou de release van Gemini 3.1 Pro hen er niet alleen toe moeten aanzetten te heroverwegen welke modellen ze moeten kiezen, maar ook hoe ze zich moeten aanpassen aan zo’n snel tempo van veranderingen voor hun producten en diensten.
De vraag is nu of deze release een reactie van concurrenten zal oproepen. De oorspronkelijke lancering van de Gemini 3 Pro afgelopen november vormde het startsein voor een golf van modelreleases in zowel propriëtaire als open-weight-ecosystemen.
Nu 3.1 Pro het toonaangevende leiderschap in verschillende kritieke categorieën claimt, ligt de druk op Anthropic, OpenAI en de open-weight-gemeenschap om te reageren – en in het huidige AI-landschap wordt die reactie waarschijnlijk gemeten in weken, niet in maanden.
Beschikbaarheid
Gemini 3.1 Pro is nu als preview beschikbaar via de API Tweelingen in Google AI Studio, Gemini CLI, Google Antigravity en Android Studio voor ontwikkelaars. Zakelijke klanten kunnen er toegang toe krijgen via Hoekpunt AI EN Gemelli-onderneming. Consumenten met een Google AI Pro- en Ultra-abonnement hebben er toegang toe via de Gemini-app en NotebookLM.



