Alibaba’s inmiddels beroemde Qwen AI-ontwikkelingsteam heeft het opnieuw gedaan: iets meer dan een dag geleden brachten ze de Qwen3.5 middelgrote modelserie bestaat uit vier nieuwe grote taalmodellen (LLM’s) met ondersteuning voor het aanroepen van agenttools, waarvan er drie beschikbaar zijn voor commercieel gebruik door bedrijven en onafhankelijke ontwikkelaars onder de Apache 2.0 open source standaardlicentie:
-
Qwen3.5-35B-A3B
-
Qwen3.5-122B-A10B
-
Qwen3.5-27B
Ontwikkelaars kunnen ze nu downloaden Knuffelend gezicht EN Modelbereik. Een vierde model, Qwen3.5-Flash, lijkt eigendom te zijn en alleen verkrijgbaar via de Alibaba Cloud Model Studio-APImaar biedt nog steeds een sterk kostenvoordeel ten opzichte van andere modellen in het Westen (zie prijsvergelijkingstabel hieronder).
Maar de grote doorbraak met open source-modellen is dat ze relatief hoge prestaties leveren in benchmarktests van derden, vergeleken met eigen modellen van vergelijkbare grootte van grote Amerikaanse startups als OpenAI of Anthropic, waarmee ze effectief OpenAI’s GPT-5-mini en Anthropic’s Claude Sonnet 4.5 verslaan – het laatste model dat werd kwam pas vijf maanden geleden uit.
En het Qwen-team zegt hij heeft deze modellen ontworpen om zeer nauwkeurig te blijven, zelfs als ze worden ‘gekwantiseerd’, een proces dat de impact ervan verder verkleint door het aantal waarden dat in de modelinstellingen is opgeslagen, terug te brengen van veel naar veel minder.
Kortom, deze versie brengt contextvensters op “grensniveau” naar de desktop-pc. Het vlaggenschip Qwen3.5-35B-A3B kan nu de contextlengte van 1 miljoen tokens overschrijden op GPU’s van consumentenkwaliteit met 32 GB VRAM. Hoewel het niet iets is waar iedereen toegang toe heeft, is het qua rekenkracht veel minder veeleisend dan veel andere opties met vergelijkbare prestaties.
Deze sprong wordt mogelijk gemaakt door vrijwel verliesloze precisie met een gewicht van 4 bits en KV-cachekwantisering, waardoor ontwikkelaars enorme datasets kunnen verwerken zonder infrastructuur op serverniveau.
Technologie: Forza Delta
De kern van de prestaties van Qwen 3.5 wordt gevormd door een geavanceerde hybride architectuur. Hoewel veel modellen uitsluitend afhankelijk zijn van standaard Transformer-blokken, integreert Qwen 3.5 Gated Delta Networks in combinatie met een schaars Mixture-of-Experts (MoE)-systeem. De technische specificaties voor Qwen3.5-35B-A3B onthullen een zeer efficiënt ontwerp:
-
Parameterefficiëntie: Hoewel het model in totaal 35 miljard parameters bevat, wordt het alleen geactiveerd 3 miljard voor elk gegeven token.
-
Diversiteit aan deskundigen: De MoE-laag maakt gebruik van 256 experts, waarvan 8 gerouteerde experts en 1 gedeelde expert, die helpen de prestaties op peil te houden en de inferentielatentie te verminderen.
-
Bijna verliesloze kwantisering: De serie behoudt een hoge nauwkeurigheid, zelfs wanneer deze wordt gecomprimeerd tot 4-bits gewichten, waardoor de geheugenvoetafdruk voor lokale implementatie aanzienlijk wordt verminderd.
-
Uitgave van het basismodel: In een poging om de onderzoeksgemeenschap te ondersteunen, heeft Alibaba de Qwen3.5-35B-A3B-basis model samen met voor instructies geoptimaliseerde versies.
Product: Intelligentie die eerst ‘denkt’
Qwen 3.5 introduceert een native “denkmodus” als standaardstatus. Voordat het een definitief antwoord geeft, genereert het model een interne redeneerketen, begrensd door: tag: om door complexe logica te werken. De productlijn is aangepast aan verschillende hardwareomgevingen:
-
Qwen3.5-27B: Het is geoptimaliseerd voor hoge efficiëntie en ondersteunt een contextlengte van meer dan 800.000 tokens.
-
Qwen3.5-flitser: De gehoste versie van productiekwaliteit, met een standaard contextlengte van 1 miljoen tokens en geïntegreerde officiële tools.
-
Qwen3.5-122B-A10B: Dit model is ontworpen voor GPU’s van serverkwaliteit (80 GB VRAM) en ondersteunt contextlengtes van meer dan 1 miljoen, terwijl het de kloof met ’s werelds grootste frontier-modellen verkleint.
De benchmarkresultaten valideren deze architectonische verandering. De 35B-A3B presteert aanzienlijk beter dan veel grotere voorgangers, zoals de Qwen3-235B, evenals de eerder genoemde eigen GPT-5 mini en Sonnet 4.5 in categorieën zoals kennis (MMMLU) en visueel redeneren (MMMU-Pro).
Prijzen en API-integratie
Voor degenen die hun eigen gewichten niet hosten, biedt Alibaba Cloud Model Studio een concurrerende API voor Qwen3.5-Flash.
-
Ingang: $0,1 per 1 miljoen tokens
-
Productie: $0,4 per 1 miljoen tokens
-
Cache-creatie: $0,125 per 1 miljoen tokens
-
Cache-lezen: $0,01 per 1 miljoen tokens
De API heeft ook een gedetailleerd prijsmodel voor tool-oproepen, waarbij zoeken op internet $ 10 per 1.000 oproepen kost en de code-interpreter momenteel gedurende een beperkte tijd gratis wordt aangeboden.
Dit maakt Qwen3.5-Flash tot een van de handigste API’s om te draaien onder alle grote LLM’s ter wereld. Bekijk hieronder een tabel waarin ze worden vergeleken:
|
Model |
Ingang |
Productie |
Totale kosten |
Bron |
|
Qwen3Turbo |
$ 0,05 |
$ 0,20 |
$ 0,25 |
|
|
Qwen3.5-Flash |
$ 0,10 |
$ 0,40 |
$ 0,50 |
|
|
chat-deepseek (V3.2-Exp) |
$ 0,28 |
$ 0,42 |
$ 0,70 |
|
|
redenering voor diep zoeken (V3.2-Exp) |
$ 0,28 |
$ 0,42 |
$ 0,70 |
|
|
Grok 4.1 Snel (redenering) |
$ 0,20 |
$ 0,50 |
$ 0,70 |
|
|
Grok 4.1 Snel (niet redeneren) |
$ 0,20 |
$ 0,50 |
$ 0,70 |
|
|
MiniMax M2.5 |
$ 0,15 |
$ 1,20 |
$ 1,35 |
|
|
MiniMax M2.5-Bliksem |
$ 0,30 |
$ 2,40 |
$ 2,70 |
|
|
Gemini 3 Flash-voorbeeld |
$ 0,50 |
$ 3,00 |
$ 3,50 |
|
|
Kimi-k2.5 |
$ 0,60 |
$ 3,00 |
$ 3,60 |
|
|
GLM-5 |
$ 1,00 |
$ 3,20 |
$ 4,20 |
|
|
ERNI 5.0 |
$ 0,85 |
$ 3,40 |
$ 4,25 |
|
|
ClaudeHaiku4.5 |
$ 1,00 |
$ 5,00 |
$ 6,00 |
|
|
Qwen3-Max (23-01-2026) |
$ 1,20 |
$ 6,00 |
$ 7,20 |
|
|
Gemini 3 Pro (≤200.000) |
$ 2,00 |
$ 12,00 |
$ 14,00 |
|
|
GPT-5.2 |
$ 1,75 |
$ 14,00 |
$ 15,75 |
|
|
Claude Sonnet 4.5 |
$ 3,00 |
$ 15,00 |
$ 18,00 |
|
|
Gemini 3 Pro (>200K) |
$ 4,00 |
$ 18,00 |
$ 22,00 |
|
|
Vacature sluiten 4.6 |
$ 5,00 |
$ 25,00 |
$ 30,00 |
|
|
GPT-5.2Pro |
$ 21,00 |
$ 168,00 |
$ 189,00 |
Wat dit betekent voor technische leiders en zakelijke besluitvormers
Met de lancering van de Qwen3.5 mediummodellen is snelle iteratie en verfijning, ooit voorbehouden aan goed gefinancierde laboratoria, nu toegankelijk voor interne ontwikkeling bij veel niet-technische bedrijven, waardoor geavanceerde AI effectief wordt losgekoppeld van enorme kapitaaluitgaven.
Binnen de organisatie transformeert deze architectuur de manier waarop gegevens worden beheerd en beschermd. De mogelijkheid om op uurschaal lokaal enorme document- of videoopslagplaatsen op te nemen, maakt diepgaande institutionele analyses mogelijk zonder de privacyrisico’s van API’s van derden.
Door deze gespecialiseerde ‘expertmix’-modellen binnen een privéfirewall te draaien, kunnen organisaties soevereine controle over hun gegevens behouden, door gebruik te maken van native ‘denkmodi’ en de aanroepmogelijkheden van officiële tools om betrouwbaardere en autonomere agenten te creëren.
De early adopters van Hugging Face prezen vooral het vermogen van het model om “de kloof te dichten” in agent-gebaseerde scenario’s waarin voorheen alleen grotere gesloten modellen konden concurreren.
Deze verschuiving naar architecturale efficiëntie op schaal zorgt ervoor dat AI-integratie kostenbewust, veilig en flexibel genoeg blijft om gelijke tred te houden met de veranderende operationele behoeften.



