Home Nieuws Alibaba’s Qwen 3.5 397B-A17 verslaat zijn grotere model met biljoenen, tegen een...

Alibaba’s Qwen 3.5 397B-A17 verslaat zijn grotere model met biljoenen, tegen een fractie van de kosten

3
0
Alibaba’s Qwen 3.5 397B-A17 verslaat zijn grotere model met biljoenen, tegen een fractie van de kosten

Alibaba heeft Qwen verlaten3.5 eerder deze week, die samenviel met het nieuwe maanjaar, en de belangrijkste cijfers alleen al zijn genoeg om zakelijke AI-kopers te laten stoppen en op te letten.

Het nieuwe vlaggenschipmodel met open gewicht, Qwen3.5-397B-A17B, bevat in totaal 397 miljard parameters, maar activeert slechts 17 miljard per token. Hij stelt dat de benchmark wint Alibaba’s vorige vlaggenschip, Qwen3-Maxeen model waarvan het bedrijf zelf erkende dat het meer dan een biljoen parameters overschreed.

De release markeert een belangrijk moment in de AI-inkoop voor ondernemingen. Voor IT-leiders die de AI-infrastructuur voor 2026 evalueren, presenteert Qwen 3.5 een ander soort argument: dat het model dat je daadwerkelijk kunt uitvoeren, bezitten en controleren nu botst met de modellen die je moet huren.

Een nieuwe architectuur gebouwd voor snelheid op schaal

De technische geschiedenis van Qwen3.5 begint bij zijn voorouders. Het model is de directe opvolger van het experimentele Qwen3-Next van afgelopen september, een uiterst schaars MoE-model dat al eerder werd bekeken, maar algemeen als semi-getraind werd beschouwd. Qwen3.5 volgt deze architecturale richting en schaalt deze agressief op, gaande van 128 experts in de vorige Qwen3 MoE-modellen naar 512 experts in de nieuwe versie.

De praktische implicatie hiervan en een beter aandachtsmechanisme is een aanzienlijk lagere gevolgtrekkingslatentie. Aangezien slechts 17 miljard van deze 397 miljard parameters actief zijn voor een bepaalde stap vooruit, ligt de computationele voetafdruk veel dichter bij een dicht model van 17 miljard dan bij een model van 400 miljard, terwijl het model voor gespecialiseerd redeneren gebruik kan maken van de volledige diepte van zijn expertpool.

Deze snelheidswinsten zijn aanzienlijk. Met een contextlengte van 256K decodeert Qwen 3.5 19 keer sneller dan Qwen3-Max en 7,2 keer sneller dan het 235B-A22B-model van Qwen 3.

Alibaba beweert ook dat het model 60% goedkoper is dan zijn voorganger en acht keer beter in staat is om grote gelijktijdige werklasten aan te kunnen, cijfers die enorm belangrijk zijn voor elk team dat aandacht besteedt aan inferentiewiskunde. Het gaat ook om 1/18e de kosten van Google’s Gemini 3 Pro.

Twee andere architectonische beslissingen dragen bij aan deze voordelen:

  1. Qwen3.5 maakt gebruik van multi-token-voorspellingen – een aanpak die is ontwikkeld in verschillende bedrijfseigen modellen – die de convergentie vóór de training versnelt en de productiviteit verhoogt.

  2. Ook erft het aandachtssysteem van Qwen3-Volgende vorig jaar uitgebracht, specifiek ontworpen om de geheugendruk op contexten van zeer lange duur te verminderen.

Het resultaat is een model dat comfortabel kan werken binnen een contextvenster van 256K in de open-weight-versie en tot 1 miljoen tokens in de Qwen3.5-Plus-variant die wordt gehost op Alibaba Cloud Model Studio.

Native multimode, niet-bolt-on

Alibaba hanteert al jaren de standaardaanpak in de sector: maak een taalmodel en sluit vervolgens een vision-encoder aan om een ​​afzonderlijke VL-variant te creëren. Qwen3.5 verlaat dit model volledig. Het model wordt tegelijkertijd vanaf het begin getraind op tekst, afbeeldingen en video, wat betekent dat visuele redenering verweven is in de kernrepresentaties van het model in plaats van genest.

Dit is in de praktijk belangrijk. Native multimodale modellen presteren doorgaans beter dan hun op adapters gebaseerde tegenhangers bij taken die rigoureus redeneren over tekst en afbeeldingen vereisen: denk aan het parseren van een technisch diagram samen met de bijbehorende documentatie, het verwerken van UI-screenshots voor agenttaken of het extraheren van gestructureerde gegevens uit complexe visuele lay-outs. Op MathVista scoort het model 90,3; op MMMU, 85.0. Het loopt achter op de Gemini 3 op verschillende visiespecifieke benchmarks, maar presteert beter dan de Claude Opus 4.5 op multimodale taken en boekt concurrerende cijfers in vergelijking met de GPT-5.2, terwijl het een fractie van het aantal parameters met zich meebrengt.

De basisprestaties van Qwen3.5 in vergelijking met grotere eigen modellen zijn het aantal dat zakelijke gesprekken zal stimuleren.

Volgens door Alibaba gepubliceerde beoordelingen presteert de 397B-A17B beter dan Qwen3-Max, een model met meer dan een biljoen parameters, in meerdere redeneer- en codeertaken.

Referentiekaart Qwen3.5-397B-A17B. Krediet: Alibaba Qwen

Het claimt ook concurrerende resultaten in vergelijking met GPT-5.2, Claude Opus 4.5 en Gemini 3 Pro op het gebied van algemene redeneer- en codeerbenchmarks.

Taaldekking en tokenizer-efficiëntie

Een onderschat detail van de Qwen3.5-versie is de uitgebreide meertalige reikwijdte. De woordenschat van het model is gegroeid tot 250.000 tokens, vergeleken met 150.000 in eerdere Qwen-generaties en nu vergelijkbaar met de ~256.000 tokenizer van Google. Taalondersteuning breidt zich uit van 119 talen in Qwen 3 naar 201 talen en dialecten.

Het updaten van de tokenizer heeft directe kostenimplicaties voor wereldwijde implementaties. Grotere vocabulaires coderen niet-Latijnse schriften (Arabisch, Thais, Koreaans, Japans, Hindi en andere) efficiënter, waardoor het aantal tokens met 15-40% wordt verminderd, afhankelijk van de taal. Voor IT-organisaties die AI op schaal gebruiken voor meertalige gebruikersbestanden is dit geen academisch detail. Dit vertaalt zich direct in lagere inferentiekosten en snellere responstijden.

Agentfunctionaliteit en OpenClaw-integratie

Alibaba positioneert Qwen3.5 expliciet als een agent-gebaseerd model, niet alleen ontworpen om vragen te beantwoorden, maar ook om autonome, uit meerdere stappen bestaande acties te ondernemen namens gebruikers en systemen. Het bedrijf beschikt over open source Qwen Code, een opdrachtregelinterface waarmee ontwikkelaars complexe codeertaken kunnen delegeren aan het natuurlijke taalmodel, ongeveer analoog aan Claude Code van Anthropic.

De release benadrukt ook de compatibiliteit met OpenClaw, het opensource-agentframework dat dit jaar een enorme toename in de adoptie door ontwikkelaars heeft gekend. Met 15.000 verschillende leeromgevingen voor versterking die worden gebruikt om de redenering van modellen en de uitvoering van taken te verfijnen, heeft het Qwen-team bewust gekozen voor op RL gebaseerde training om de praktische prestaties van agenten te verbeteren, een trend die consistent is met wat MiniMax demonstreerde met M2.5.

De door Qwen3.5-Plus gehoste variant maakt ook adaptieve inferentiemodi mogelijk: een snelle modus voor latentiegevoelige toepassingen, een denkmodus die uitgebreide gedachtegangsredenering voor complexe taken mogelijk maakt, en een automatische (adaptieve) modus die dynamisch selecteert. Deze flexibiliteit is belangrijk voor bedrijfsimplementaties waarbij hetzelfde model mogelijk zowel realtime interacties met klanten als diepgaande analyseworkflows moet ondersteunen.

Implementatierealiteiten: wat IT-teams eigenlijk moeten weten

Het intern uitvoeren van Qwen3.5 open gewichten vereist serieuze hardware. Terwijl een gekwantiseerde versie ongeveer 256 GB RAM vereist en realistisch gezien 512 GB voor comfortabele hoofdruimte. Dit is geen model voor een werkstation of een bescheiden lokale server. Waar het geschikt voor is, is een GPU-knooppunt, een configuratie die veel bedrijven al gebruiken voor inferentie-workloads en die nu een aantrekkelijk alternatief biedt voor API-afhankelijke implementaties.

Alle Qwen 3.5 openweight-modellen worden uitgebracht onder de Apache 2.0-licentie. Dit is een aanzienlijk verschil met modellen met aangepaste of beperkte licenties: Apache 2.0 staat commercieel gebruik, wijziging en herdistributie royaltyvrij toe, zonder noemenswaardige beperkingen. Voor juridische en inkoopteams die open modellen evalueren, vereenvoudigt deze zuivere benadering van licentieverlening het gesprek aanzienlijk.

Wat komt er daarna

Alibaba bevestigde dat dit de eerste release is van de Qwen3.5-familie, en niet de volledige lancering. Op basis van het Qwen3-model – met modellen met maximaal 600 miljoen parameters – verwacht de industrie dat de komende weken en maanden kleinere, dichtere destillaatmodellen en aanvullende MoE-configuraties zullen volgen. Het Qwen3-Next 80B-model van afgelopen september werd algemeen beschouwd als onderbenut, wat suggereert dat een 3,5-variant op die schaal waarschijnlijk op korte termijn zal worden uitgebracht.

Voor IT-beslissers is het traject duidelijk. Alibaba heeft bewezen dat modellen met open gewicht aan de grens niet langer een compromis zijn. Qwen3.5 is een echte aanschafoptie voor teams die redeneren van wereldklasse, native multimodale mogelijkheden en een 1M token-contextvenster willen, zonder zich te binden aan een eigen API. De volgende vraag is niet of deze modelfamilie capabel genoeg is. Het hangt ervan af of uw infrastructuur en team klaar zijn om hiervan te profiteren.


Qwen 3.5 wel nu beschikbaar op Knuffelgezicht met model-ID Qwen/Qwen3.5-397B-A17B. De gehoste Qwen3.5-Plus-variant is beschikbaar via Studie van het cloudmodel van Alibaba. Qwenchat aan chat.qwen.ai biedt gratis publieke toegang voor evaluatie.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in