Home Nieuws Google lanceert Gemini 3.1 Pro en herwint de leiding op het gebied...

Google lanceert Gemini 3.1 Pro en herwint de leiding op het gebied van kunstmatige intelligentie met een verdubbeling van de redeneerprestaties

3
0
Google lanceert Gemini 3.1 Pro en herwint de leiding op het gebied van kunstmatige intelligentie met een verdubbeling van de redeneerprestaties

Eind vorig jaar pakte Google kortstondig de titel van ’s werelds krachtigste AI-model Gemini 3 Pro-lancering – om binnen een paar weken te worden ingehaald door OpenAI en Anthropic die nieuwe modellen uitbrengen, wat gebruikelijk is in de zeer competitieve AI-race.

Nu is Google terug om de troon terug te nemen met een bijgewerkte versie van dat vlaggenschipmodel: Gemini 3.1 Progepositioneerd als een slimmere basislijn voor taken waarbij een eenvoudig antwoord niet genoeg is, gericht op wetenschappelijke, onderzoeks- en technische workflows die een grondige planning en synthese vereisen.

Al, evaluaties door het externe bedrijf Artificial Analysis laten zien dat Google’s Gemini 3.1 Pro naar de top van de ranglijst is gesprongen en opnieuw het krachtigste en best presterende AI-model ter wereld is.

Een grote stap voorwaarts in fundamenteel redeneren

De belangrijkste vooruitgang van Gemini 3.1 Pro ligt in de prestaties op strenge logische benchmarks. Het model behaalde met name een geverifieerde score van 77,1% op de ARC-AGI-2.

Deze specifieke benchmark is ontworpen om het vermogen van een model te evalueren om volledig nieuwe logische patronen op te lossen die het tijdens de training niet tegenkwam.

Dit resultaat vertegenwoordigt meer dan het dubbele van de redeneerprestaties van het vorige Gemini 3 Pro-model.

Google Gemini 3.1 Pro benchmarkgrafiek. Krediet: Google

Naast de abstracte logica geven interne benchmarks aan dat 3.1 Pro zeer competitief is in gespecialiseerde domeinen:

  • Wetenschappelijke kennis: Het scoorde 94,3% op GPQA Diamond.

  • Codering: Het behaalde een Elo van 2887 op LiveCodeBench Pro en scoorde 80,6% op SWE-Bench Verified.

  • Multimodaal begrip: Het bereikte 92,6% op MMMLU.

Deze technische voordelen zijn niet alleen maar incrementeel; ze vertegenwoordigen een verfijning in de manier waarop het model omgaat met “denkende” tokens en lange-horizontaken, waardoor een betrouwbaardere basis wordt geboden voor ontwikkelaars die autonome agenten creëren.

Verbeterde vibratiecodering en 3D-synthese

Google demonstreert het nut van het model door middel van ’toegepaste intelligentie’, waarbij de focus verschuift van chatinterfaces naar functionele output.

Een van de meest opvallende kenmerken is de mogelijkheid van de sjabloon om rechtstreeks vanuit tekstinstructies “vibe-gecodeerde” geanimeerde SVG’s te genereren. Omdat ze codegebaseerd zijn in plaats van pixelgebaseerd, blijven ze schaalbaar en behouden ze kleinere bestandsgroottes dan traditionele video’s, en bieden ze veel gedetailleerdere, presentabelere en professionelere afbeeldingen voor websites, presentaties en andere zakelijke toepassingen.

Andere aanbevolen toepassingen zijn onder meer:

  • Synthese van complexe systemen: Het model heeft met succes een openbare telemetriestroom geconfigureerd om een ​​real-time lucht- en ruimtevaartdashboard te bouwen dat de baan van het internationale ruimtestation visualiseerde.

  • Interactief ontwerp: In een demo codeerde 3.1 Pro een complex 3D-geruis dat gebruikers kunnen manipuleren via handmatige tracking, vergezeld van een generatieve audioscore.

  • Creatieve codering: Het model vertaalde de sfeervolle thema’s van Emily Brontë Wuthering Hoogten in een functioneel en modern webontwerp, dat het vermogen demonstreert om door middel van toon en stijl na te denken in plaats van alleen maar letterlijke tekst.

Zakelijke impact en reacties van de gemeenschap

Enterprise-partners zijn al begonnen met het integreren van de preview-versie van 3.1 Pro en melden opmerkelijke verbeteringen op het gebied van betrouwbaarheid en efficiëntie.

Vladislav Tankov, directeur kunstmatige intelligentie bij JetBrains, merkte een kwaliteitsverbetering van 15% op ten opzichte van eerdere versies en zei dat het model “sterker, sneller… en efficiënter is, en minder outputtokens vereist.” Andere reacties uit de sector zijn onder meer:

  • Databricks: CTO Hanlin Tang meldde dat het model “best-in-class resultaten” behaalde op OfficeQA, een benchmark voor redeneren op basis van tabellarische en ongestructureerde gegevens.

  • Radslag: Mede-oprichter Andrew Carr benadrukte het “substantieel verbeterde begrip van 3D-transformaties” van het model, en merkte op dat het al lang bestaande bugs in de rotatievolgorde in 3D-animatiepijplijnen oploste.

  • Hostinger-horizonten: Productleider Dainius Kavoliunas merkte op dat het model de “trilling” achter een prompt begrijpt en de intentie vertaalt in stijl-nauwkeurige code voor niet-ontwikkelaars.

Prijzen, licenties en beschikbaarheid

Voor ontwikkelaars is het meest verrassende aspect van versie 3.1 Pro de verhouding tussen redenering en dollar. Toen Gemini 3 Pro werd gelanceerd, bevond het zich in de midden- tot hoge prijsklasse met $ 2,00 per miljoen invoertokens voor standaardprompts. Gemini 3.1 Pro handhaaft deze exacte prijsstructuur en biedt effectief een enorme prestatie-upgrade zonder extra kosten voor API-gebruikers.

  • Entreeprijs: $ 2,00 per 1 miljoen tokens voor verzoeken tot 200.000; $ 4,00 per 1 miljoen tokens voor verzoeken van meer dan 200.000.

  • Uitstapprijs: $ 12,00 per 1 miljoen tokens voor verzoeken tot 200.000; $ 18,00 per 1 miljoen tokens voor verzoeken van meer dan 200.000.

  • Contextcache: Gefactureerd tussen $ 0,20 en $ 0,40 per 1 miljoen tokens, afhankelijk van de promptgrootte, plus opslagkosten van $ 4,50 per 1 miljoen tokens per uur.

  • Aarding zoeken: 5.000 zoekopdrachten per maand zijn gratis, gevolgd door een toeslag van $ 14 per 1.000 zoekopdrachten.

Voor consumenten wordt het model uitgerold naar de Gemini- en NotebookLM-app met hogere limieten voor Google AI Pro- en Ultra-abonnees.

Implicaties van licenties

Als een eigen model aangeboden via Vertex Studio een GoogleCloud en de API Tweelingen3.1 Pro volgt een standaard commercieel SaaS-model (Software as a Service) in plaats van een open source-licentie.

Voor zakelijke gebruikers biedt dit “gefundeerd redeneren” binnen de beveiligingsperimeter van Vertex AI, waardoor bedrijven met vertrouwen met hun gegevens kunnen werken.

Met de status ‘Preview’ kan Google de beveiliging en prestaties van het model verfijnen voordat het algemeen beschikbaar komt, een gangbare praktijk bij risicovolle AI-implementatie.

Door de basisredenering en gespecialiseerde benchmarks zoals ARC-AGI-2 te verdubbelen, geeft Google aan dat de volgende fase van de AI-race zal worden gewonnen door modellen die een probleem kunnen doordenken, en niet alleen het volgende woord kunnen voorspellen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in