Home Nieuws Musk’s xAI lanceert Grok 4.1 met een lager hallucinatiepercentage op internet en...

Musk’s xAI lanceert Grok 4.1 met een lager hallucinatiepercentage op internet en in apps: geen API-toegang (voorlopig)

9
0
Musk’s xAI lanceert Grok 4.1 met een lager hallucinatiepercentage op internet en in apps: geen API-toegang (voorlopig)

In wat eerder een poging leek om wat van de aandacht van Google op te zuigen lancering van zijn nieuwe vlaggenschip AI-model Gemini 3 – nu geregistreerd als de krachtigste LLM ter wereld door talloze onafhankelijke beoordelaars – xAI, de rivaliserende startup van Elon Musk, onthulde gisteravond zijn nieuwe grote taalmodel, Grok 4.1.

Het model is nu beschikbaar voor consumentengebruik op Grok.com, het sociale netwerk xAI heeft ook lovenswaardig een witboek gepubliceerd over zijn beoordelingen, inclusief een klein deel over het trainingsproces Hier.

In openbare benchmarks steeg Grok 4.1 naar de top van de grafiek en presteerde beter dan concurrerende modellen van Anthropic, OpenAI en Google, in ieder geval Google’s pre-Gemini 3-model (Gemini 2.5 Pro). Het bouwt voort op het succes van xAI’s Grok-4 Fast, dat VentureBeat dekte het positief kort na de release in september 2025.

Enterprise-ontwikkelaars die het nieuwe en verbeterde Grok 4.1-model in productieomgevingen willen integreren, zullen echter één belangrijke beperking tegenkomen: het is nog niet beschikbaar via xAI openbare API.

Ondanks de hoge benchmarks blijft Grok 4.1 beperkt tot de consumentgerichte interfaces van xAI, zonder aangekondigde tijdlijn voor API-blootstelling. Momenteel zijn alleen oudere modellen, waaronder Grok 4 Fast (redenerende en niet-redenerende varianten), Grok 4 0709 en oudere modellen zoals Grok 3, Grok 3 Mini en Grok 2 Vision, beschikbaar voor programmatisch gebruik via de xAI Developer API. Ze ondersteunen maximaal 2 miljoen contexttokens, met tokenprijzen variërend van $0,20 tot $3,00 per miljoen, afhankelijk van de configuratie.

Voorlopig beperkt dit de bruikbaarheid van Grok 4.1 in bedrijfsworkflows die afhankelijk zijn van backend-integratie, geoptimaliseerde agentpijplijnen of schaalbare interne tools. Terwijl de consumentenimplementatie Grok 4.1 positioneert als de meest capabele LLM in het portfolio van xAI, blijven productie-implementaties in bedrijfsomgevingen in behandeling.

Modelontwerp en implementatiestrategie

Grok 4.1 is beschikbaar in twee configuraties: een snelle responsmodus met lage latentie voor onmiddellijke reacties en een “denkmodus” die in meerdere stappen redeneert voordat er output wordt geproduceerd.

Beide versies zijn live voor eindgebruikers en kunnen worden geselecteerd via de sjabloonkiezer in xAI-apps.

De twee configuraties verschillen niet alleen in latentie, maar ook in de diepte waarmee het model aanwijzingen verwerkt. Grok 4.1 Thinking maakt gebruik van interne plannings- en overlegmechanismen, terwijl de standaardversie prioriteit geeft aan snelheid. Ondanks het verschil in architectuur scoorden beide hoger dan welk concurrerend model dan ook in blinde voorkeuren en benchmarktests.

Leider op het gebied van menselijke en deskundige evaluatie

Op LMArena Text Arena-ranglijstGrok 4.1 Thinking stond kort op de eerste plaats met een genormaliseerde Elo-rating van 1483, maar werd een paar uur later onttroond met Google-release van Gemini 3 en zijn ongelooflijke Elo-rating van 1501.

De niet-denkende versie van Grok 4.1 scoort ook goed op de index, op 1465.

Deze scores plaatsen Grok 4.1 boven Google’s Gemini 2.5 Pro, Anthropic’s Claude 4.5-serie en OpenAI’s GPT-4.5 preview.

Op het gebied van creatief schrijven komt Grok 4.1 op de tweede plaats na Polaris Alpha (een vroege GPT-5.1-variant), waarbij het “denkende” model 1721,9 scoort op de Creative Writing v3-benchmark. Dit betekent een verbetering van ongeveer 600 punten ten opzichte van eerdere versies van Grok.

Op dezelfde manier staat Grok 4.1 Thinking Again bovenaan de lijst in de Arena Expert-ranglijst, die feedback van professionele recensenten verzamelt, met een score van 1510.

De voordelen zijn vooral opmerkelijk gezien het feit dat Grok 4.1 slechts twee maanden na Grok 4 Fast werd uitgebracht, wat het versnelde ontwikkelingstempo van xAI benadrukt.

Fundamentele verbeteringen ten opzichte van voorgaande generaties

Technisch gezien vertegenwoordigt Grok 4.1 een aanzienlijke sprong in de bruikbaarheid in de echte wereld. Visuele mogelijkheden, voorheen beperkt in Grok 4, zijn bijgewerkt om een ​​robuust begrip van afbeeldingen en video’s mogelijk te maken, inclusief grafiekanalyse en tekstextractie op OCR-niveau. Betrouwbaarheid in meerdere modi was een pijnpunt in eerdere releases en is nu aangepakt.

De latentie op tokenniveau werd met ongeveer 28% verminderd, waardoor de diepgang van de redenering behouden bleef.

Bij taken met een lange context handhaaft Grok 4.1 een consistente uitvoer tot 1 miljoen tokens, waardoor de neiging van Grok 4 om degradatie voorbij de drempel van 300.000 tokens te verbeteren wordt verbeterd.

xAI heeft ook de orkestratiemogelijkheden van de tools van het model verbeterd. Grok 4.1 kan nu meerdere externe tools parallel plannen en uitvoeren, waardoor het aantal interactiecycli dat nodig is om meerstapsquery’s te voltooien, wordt verminderd.

Volgens interne testlogboeken kunnen sommige zoektaken die voorheen vier stappen vereisten, nu in één of twee stappen worden voltooid.

Andere verbeteringen aan de afstemming zijn onder meer een betere kalibratie van de grondwaarheid – waardoor de neiging wordt verminderd om politiek gevoelige resultaten te verdoezelen of te verzachten – en meer natuurlijke, mensachtige prosodie in de spraakmodus, met ondersteuning voor verschillende gespreksstijlen en accenten.

Tegenstrijdige veiligheid en robuustheid

Als onderdeel van zijn risicobeheerraamwerk beoordeelde xAI Grok met 4,1 voor afwijzingsgedrag, weerstand tegen hallucinaties, vleierij en veiligheid voor tweeërlei gebruik.

Het aantal hallucinaties in de niet-redenerende modus daalde van 12,09% in Grok 4 Fast naar slechts 4,22%, een verbetering van ongeveer 65%.

Het model scoorde ook 2,97% op FactScore, een feitelijke QA-benchmark, vergeleken met 9,89% in eerdere versies.

Op het gebied van de robuustheid van tegenstanders is Grok 4.1 getest met tijdige injectie-aanvallen, jailbreakverzoeken en gevoelige chemische en biologische vragen.

Beveiligingsfilters lieten lage fout-negatieve percentages zien, vooral voor beperkte chemische kennis (0,00%) en beperkte biologische zoekopdrachten (0,03%).

Het vermogen van het model om manipulatie te weerstaan ​​in overtuigingsbenchmarks, zoals MakeMeSay, lijkt ook sterk: het registreerde een succespercentage van 0% als aanvaller.

Beperkte zakelijke toegang via API

Ondanks deze voordelen blijft Grok 4.1 via de xAI API niet beschikbaar voor zakelijke gebruikers. Volgens het bedrijf openbare documentatieDe nieuwste modellen die beschikbaar zijn voor ontwikkelaars zijn Grok 4 Fast (zowel redenerende als niet-redenerende varianten), die elk maximaal 2 miljoen contexttokens ondersteunen tegen prijsniveaus variërend van $ 0,20 tot $ 0,50 per miljoen tokens. Deze worden ondersteund door een doorvoerlimiet van 4 miljoen tokens per minuut en een snelheidslimiet van 480 verzoeken per minuut (RPM).

Daarentegen is Grok 4.1 alleen toegankelijk via de consumentgerichte eigenschappen van xAI: X, Grok.com en mobiele apps. Dit betekent dat organisaties Grok 4.1 nog niet kunnen implementeren via geoptimaliseerde interne workflows, multi-agentketens of realtime productintegraties.

Ontvangst door de sector en volgende stappen

De release kreeg sterke feedback van het publiek en de industrie. Elon Musk, oprichter van xAI, plaatste een korte opmerking, noemde het “een geweldig model” en feliciteerde het team. AI-benchmarkplatforms hebben de sprong in kwaliteit geprezen in termen van bruikbaarheid en taalkundige nuances.

Voor zakelijke klanten is het beeld echter gemengder. De prestaties van Grok 4.1 zijn een game changer voor algemene doeleinden en creatieve taken, maar totdat API-toegang mogelijk wordt gemaakt, zal het een consumentgericht product blijven met beperkte zakelijke toepasbaarheid.

Terwijl de concurrentiemodellen van OpenAI, Google en Anthropic zich blijven ontwikkelen, kan de volgende strategische zet van xAI afhangen van wanneer en hoe Grok 4.1 wordt opengesteld voor externe ontwikkelaars.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in