Home Nieuws Qwen3-Max Thinking verslaat Gemini 3 Pro en GPT-5.2 in de nieuwste test...

Qwen3-Max Thinking verslaat Gemini 3 Pro en GPT-5.2 in de nieuwste test van de mensheid (met onderzoek)

2
0
Qwen3-Max Thinking verslaat Gemini 3 Pro en GPT-5.2 in de nieuwste test van de mensheid (met onderzoek)

Chinese AI- en technologiebedrijven blijven indruk maken met hun ontwikkeling van geavanceerde AI-taalmodellen.

Vandaag heeft Alibaba Cloud’s Qwen-team van kunstmatige intelligentie-onderzoekers en de presentatie van een nieuw eigen taalkundig redeneermodel, Qwen3-Max-gedachte.

U herinnert zich misschien, zoals VentureBeat vorig jaar uitlegde, dat Qwen naam heeft gemaakt op de snel evoluerende mondiale AI-markt door een verscheidenheid aan krachtige open source-modellen in verschillende modaliteiten te leveren, van tekst tot beeld tot gesproken audio. Het bedrijf heeft ook de steun gekregen van de Amerikaanse technologiegigant Airbnb, waar hij CEO en medeoprichter is Brian Chesky zei dat het bedrijf vertrouwt op de gratis en open source-sjablonen van Qwen als een goedkoper alternatief voor Amerikaanse aanbiedingen zoals die van OpenAI.

Nu, met het gepatenteerde Qwen3-Max-Thinking, streeft het Qwen-team ernaar om de redeneermogelijkheden van GPT-5.2 en Gemini 3 Pro te evenaren en, in sommige gevallen, te overtreffen door architectonische efficiëntie en agentautonomie.

De release komt op een cruciaal moment. Westerse laboratoria hebben de categorie ‘redeneren’ grotendeels gedefinieerd (vaak ‘Systeem 2’-logica genoemd), maar de nieuwste benchmarks van Qwen suggereren dat de kloof is gedicht.

Bovendien is het bedrijf relatief betaalbaar API-prijsstrategie richt zich agressief op adoptie door ondernemingen. Omdat het echter een Chinees model is, zijn sommige Amerikaanse bedrijven met strenge eisen en nationale veiligheidsoverwegingen wellicht huiverig om dit model over te nemen.

De architectuur: “Test-Time Scaling” opnieuw gedefinieerd.

De belangrijkste innovatie die Qwen3-Max-Thinking aandrijft, is het loslaten van standaard inferentiemethoden. Terwijl de meeste modellen tokens op een lineaire manier genereren, gebruikt Qwen3 een ‘zware modus’, aangedreven door een techniek die bekend staat als ‘test time scaling’.

Simpel gezegd zorgt deze techniek ervoor dat het model berekeningen inruilt voor intelligentie. Maar in tegenstelling tot naïeve ‘best-of-N’-steekproeven – waarbij een model 100 reacties kan genereren en de beste kan kiezen – gebruikt Qwen3-Max-Thinking een cumulatieve strategie van ervaringen die uit meerdere rondes bestaan.

Deze aanpak bootst het oplossen van menselijke problemen na. Wanneer het model een complexe vraag tegenkomt, gokt het niet alleen maar; houdt zich bezig met iteratieve zelfreflectie. Het maakt gebruik van een eigen ‘ervaring vastleggen’-mechanisme om inzichten uit eerdere redeneerstappen te destilleren. Hierdoor kan het model:

  1. Identificeer doodlopende wegen: Herken wanneer een redenering mislukt zonder dat u deze volledig hoeft te doorlopen.

  2. Focusberekening: Richt de verwerkingskracht op “onopgeloste onzekerheden” in plaats van bekende conclusies te heroriënteren.

De efficiëntieverbeteringen zijn tastbaar. Door overbodige redeneringen te vermijden, integreert het model een rijkere historische context in hetzelfde venster. Het Qwen-team meldt dat deze methode tot enorme prestatieverbeteringen heeft geleid zonder dat de nominale kosten exploderen:

Voorbij het pure denken: adaptieve tools

Hoewel ‘denkende’ modellen krachtig zijn, zijn ze historisch gezien geïsoleerd geweest: goed in wiskunde, maar slecht in surfen op het web of het uitvoeren van code. Qwen3-Max-Thinking overbrugt deze kloof door effectief ‘denk- en niet-denkmodi’ te integreren.

Het model beschikt over adaptieve mogelijkheden voor gereedschapsgebruik, wat betekent dat het autonoom het juiste gereedschap voor de klus selecteert, zonder handmatige aanwijzingen van de gebruiker. U kunt naadloos schakelen tussen:

  • Zoeken en extraheren op internet: Voor feitelijke vragen in realtime.

  • Geheugen: Om gebruikersspecifieke context op te slaan en op te roepen.

  • Code-tolk: Schrijf en voer Python-fragmenten uit voor rekentaken.

In de “denkmodus” ondersteunt het model deze tools tegelijkertijd. Deze functionaliteit is van cruciaal belang voor bedrijfstoepassingen waarbij een model mogelijk een feit moet verifiëren (Lookup), een projectie moet berekenen (Code Interpreter) en vervolgens in één beurt moet redeneren over de strategische implicatie (Think).

Empirisch gezien merkt het team op dat deze combinatie “hallucinaties effectief verzacht”, omdat het model zijn redenering kan baseren op verifieerbare externe gegevens in plaats van uitsluitend op trainingsgewichten te vertrouwen.

Benchmarkanalyse: het verhaal van de data

Qwen schuwt directe confrontaties niet.

Op de HMMT van 25 februari, een rigoureuze redeneerbenchmark, scoorde Qwen3-Max-Thinking 98,0, beter dan Gemini 3 Pro (97,5) en aanzienlijk leidend voor DeepSeek V3.2 (92,5).

Het belangrijkste signaal voor ontwikkelaars is echter waarschijnlijk Agentic Search. Over ‘Humanity’s Last Exam’ (HLE), de benchmark die de prestaties meet op 3000 ‘Google-proof’ vragen op universitair niveau op het gebied van wiskunde, natuurwetenschappen, informatica, geesteswetenschappen en techniek. Qwen3-Max-Thinking, uitgerust met webzoektools, scoorde 49,8 en versloeg zowel Gemini 3 Pro (45,8) als GPT-5.2-Thinking (45,5) .

Belangrijkste parameters van Qwen3-Max. Krediet: Alibaba Cloud Qwen-team aan

Dit suggereert dat de Qwen3-Max-Thinking-architectuur bijzonder geschikt is voor complexe, uit meerdere stappen bestaande workflows waarbij het ophalen van externe gegevens noodzakelijk is.

Zelfs bij codeertaken schittert het model. Op Arena-Hard v2 noteerde het een score van 90,2, waarmee concurrenten als Claude-Opus-4.5 (76,7) ver achterbleven.

De economie van het redeneren: prijsontbinding

Voor het eerst kijken we helder naar de economische aspecten van Qwens redeneermodel op hoog niveau. Alibaba Cloud heeft zichzelf gepositioneerd qwen3-max-2026-01-23 als een premium maar toegankelijk aanbod op zijn API.

Op basisniveau is dit hoe Qwen3-Max-Thinking zich opstapelt:

Model

Invoer (/1M)

Uitgang (/1M)

Totale kosten

Bron

Qwen3Turbo

$ 0,05

$ 0,20

$ 0,25

AlibabaCloud

Grok 4.1 Snel (redenering)

$ 0,20

$ 0,50

$ 0,70

xAI

Grok 4.1 Snel (niet redeneren)

$ 0,20

$ 0,50

$ 0,70

xAI

chat-deepseek (V3.2-Exp)

$ 0,28

$ 0,42

$ 0,70

Diepzoeken

redenering voor diep zoeken (V3.2-Exp)

$ 0,28

$ 0,42

$ 0,70

Diepzoeken

Qwen3 Plus

$ 0,40

$ 1,20

$ 1,60

AlibabaCloud

ERNI 5.0

$ 0,85

$ 3,40

$ 4,25

Qianfan

Gemini 3 Flash-voorbeeld

$ 0,50

$ 3,00

$ 3,50

Googlen

ClaudeHaiku4.5

$ 1,00

$ 5,00

$ 6,00

Antropisch

Qwen3-Max-gedachte (23-01-2026)

$ 1,20

$ 6,00

$ 7,20

AlibabaCloud

Gemini 3 Pro (≤200.000)

$ 2,00

$ 12,00

$ 14,00

Googlen

GPT-5.2

$ 1,75

$ 14,00

$ 15,75

OpenAI

Claude Sonnet 4.5

$ 3,00

$ 15,00

$ 18,00

Antropisch

Gemini 3 Pro (>200K)

$ 4,00

$ 18,00

$ 22,00

Googlen

Baan sluiten 4.5

$ 5,00

$ 25,00

$ 30,00

Antropisch

GPT-5.2Pro

$ 21,00

$ 168,00

$ 189,00

OpenAI

Deze prijsstructuur is agressief en ondermijnt veel oudere vlaggenschipmodellen terwijl ze baanbrekende prestaties bieden.

Ontwikkelaars moeten echter rekening houden met de gedetailleerde prijzen voor nieuwe agentfuncties, aangezien Qwen de kosten van het ‘denken’ (tokens) scheidt van de kosten van het ‘doen’ (het gebruik van tools).

  • Zoekstrategie voor agenten: Beide standaard search_strategy:agent en de meest geavanceerde search_strategy:agent_max ze hebben een prijs $ 10 per 1.000 oproepen.

  • Zoeken op internet: Geprijsd op $ 10 per 1.000 oproepen via de Responses API.

Promotie gratis niveau:Om de acceptatie van de meest geavanceerde functies aan te moedigen, biedt Alibaba Cloud momenteel gedurende een beperkte tijd twee belangrijke tools gratis aan:

Dit prijsmodel (lage tokenkosten + à-la-cartetoolprijs) stelt ontwikkelaars in staat complexe agenten te creëren die kosteneffectief zijn voor tekstverwerking, waarbij ze alleen een premie betalen wanneer externe acties, zoals een realtime zoekopdracht op internet, expliciet worden geactiveerd.

Ontwikkelaar ecosysteem

Alibaba Cloud erkent dat prestaties nutteloos zijn zonder integratie en heeft ervoor gezorgd dat Qwen3-Max-Thinking onmiddellijk beschikbaar is.

  • OpenAI-compatibiliteit: De API ondersteunt het standaard OpenAI-formaat, waardoor teams eenvoudig van model kunnen wisselen door het formaat te wijzigen base_url EN model naam.

  • Antropische compatibiliteit: In een slimme zet om de codeermarkt te veroveren, ondersteunt de API ook het Anthropic-protocol. Dit maakt Qwen3-Max-Thinking compatibel met Code Claudioeen populaire, op agenten gebaseerde codeeromgeving.

Het vonnis

Qwen3-Max-Thinking vertegenwoordigt een volwassenheid van de AI-markt in 2026. Het brengt het gesprek verder dan ‘wie heeft de slimste chatbot’ naar ‘wie heeft de meest capabele agent’.

Door zeer efficiënt redeneren te combineren met adaptief, autonoom gebruik van tools en door de overdracht ervan te evalueren, heeft Qwen zichzelf stevig gevestigd als een van de beste kandidaten voor de zakelijke AI-troon.

Voor ontwikkelaars en bedrijven suggereren de vensters “Beperkte vrije tijd” op Code Interpreter en Web Extractor dat het tijd is om te experimenteren. De redeneringsoorlogen zijn nog lang niet voorbij, maar Qwen heeft zojuist een zeer krachtige hitter opgesteld.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in