Home Nieuws Z.ai introduceert open-source GLM-4.6V, een native vision-model voor het aanroepen van tools...

Z.ai introduceert open-source GLM-4.6V, een native vision-model voor het aanroepen van tools voor multimodaal redeneren

8
0
Z.ai introduceert open-source GLM-4.6V, een native vision-model voor het aanroepen van tools voor multimodaal redeneren

Chinese kunstmatige intelligentie startup Zipu AI oftewel Z.ai heeft zijn GLM-4.6V-serie uitgebrachteen nieuwe generatie open source Vision Language Models (VLM’s) geoptimaliseerd voor multimodaal redeneren, frontend-automatisering en zeer efficiënte implementatie.

De release bevat twee modellen in “grote” en “kleine” maten:

  1. GLM-4,6V (106B)een groter parametermodel van 106 miljard, gericht op gevolgtrekking op cloudschaal

  2. Flitser GLM-4.6V (9B)een kleiner model met slechts 9 miljard parameters, ontworpen voor lokale toepassingen met lage latentie

Bedenk dat modellen met meer parameters – of interne instellingen die hun gedrag bepalen, dat wil zeggen gewichten en vooroordelen – over het algemeen krachtiger en performanter zijn en in staat zijn om op een hoger algemeen niveau te presteren bij meer uiteenlopende taken.

Kleinere modellen kunnen echter een betere efficiëntie bieden voor edge- of realtime-applicaties waarbij latentie en resourcebeperkingen van cruciaal belang zijn.

De bepalende innovatie van deze serie is de introductie van inheemse functieaanroep in een visueel taalmodel, waardoor direct gebruik mogelijk is van tools zoals zoeken, bijsnijden of grafiekherkenning met visuele invoer.

Met een contextlengte van 128.000 tokens (equivalent aan de tekst van 300 pagina’s van een roman die wordt uitgewisseld in een enkele input/output-interactie met de gebruiker) en state-of-the-art resultaten (SoTA) op meer dan 20 benchmarks, is de GLM-4.6V-serie gepositioneerd als een zeer competitief alternatief voor zowel closed-source als open-source VLM’s. Het is beschikbaar in de volgende formaten:

Licenties en zakelijk gebruik

GLM‑4.6V en GLM‑4.6V‑Flash worden hieronder verdeeld MIJN licentieeen permissieve open source-licentie die commercieel en niet-commercieel gebruik, wijziging, herdistributie en lokale distributie toestaat zonder verplichting om afgeleide werken te openen.

Dit licentiemodel maakt de serie geschikt voor adoptie door ondernemingen, inclusief scenario’s die volledige controle over de infrastructuur, compliance met intern bestuur of air gap-omgevingen vereisen.

Modelgewichten en documentatie worden openbaar gehost op Knuffelend gezichtmet ondersteuningscode en tools beschikbaar op GitHub.

De MIT-licentie biedt maximale flexibiliteit voor integratie in eigen systemen, inclusief interne tools, productiepijplijnen en edge-implementaties.

Architectuur en technische vaardigheden

De GLM-4.6V-modellen volgen een conventionele encoder-decoder-architectuur met aanzienlijke aanpassingen voor multimode-invoer.

Beide modellen bevatten een Vision Transformer (ViT)-encoder, gebaseerd op AIMv2-Huge, en een MLP-projector om visuele kenmerken uit te lijnen met een Large Language Model (LLM)-decoder.

Video-invoer profiteert van 3D-convoluties en temporele compressie, terwijl ruimtelijke codering wordt afgehandeld met behulp van 2D-RoPE en bicubische interpolatie van absolute positionele inbedding.

Een belangrijk technisch kenmerk is de ondersteuning van het systeem voor willekeurige resoluties en beeldverhoudingen, inclusief brede panoramische ingangen tot 200:1.

Naast statische beeld- en documentanalyse kan de GLM-4.6V tijdelijke reeksen videoframes vastleggen met expliciete tijdstempeltokens, waardoor robuust temporeel redeneren mogelijk wordt.

Vanuit een decoderingsperspectief ondersteunt het model het genereren van tokens, afgestemd op functieaanroepprotocollen, waardoor gestructureerd redeneren over tekst-, afbeelding- en tool-uitvoer mogelijk wordt. Dit wordt ondersteund door de uitgebreide woordenschat en uitvoeropmaakpatronen van de tokenizer om consistente API- of agentcompatibiliteit te garanderen.

Gebruik van native multimodale tools

GLM-4.6V introduceert native multimodale functieaanroepen, waardoor visuele assets, zoals schermafbeeldingen, afbeeldingen en documenten, rechtstreeks als parameters aan tools kunnen worden doorgegeven. Dit elimineert de noodzaak van tussentijdse conversies van alleen tekst, die historisch gezien informatieverlies en complexiteit met zich meebrachten.

Het toolaanroepmechanisme werkt bidirectioneel:

  • U kunt afbeeldingen of video’s rechtstreeks doorgeven aan de invoerhulpmiddelen (bijvoorbeeld documentpagina’s om bij te snijden of te analyseren).

  • Uitvoertools zoals grafische renderers of web-snapshot-hulpprogramma’s retourneren visuele gegevens, die GLM-4.6V rechtstreeks in de redeneringsketen integreert.

In de praktijk betekent dit dat de GLM-4.6V taken kan uitvoeren zoals:

  • Genereer gestructureerde rapporten van documenten met verschillende formaten

  • Uitvoeren van visuele audits van kandidaat-afbeeldingen

  • Automatisch uitsnijden van figuren uit documenten tijdens het genereren

  • Voer visuele zoekopdrachten op internet uit en beantwoord multimodale vragen

Hoge prestatiebenchmark in vergelijking met andere modellen van vergelijkbare grootte

GLM-4.6V is geëvalueerd op basis van meer dan twintig openbare benchmarks die betrekking hebben op algemene VQA, grafiekbegrip, OCR, STEM-redenering, frontend-replicatie en multimodale agenten.

Z.ai GLM-4.6V benchmark-vergelijkingstabel. Krediet: Z.ai

Volgens de referentiegrafiek gepubliceerd door Zhipu AI:

  • GLM-4.6V (106B) behaalt SoTA- of bijna-SoTA-scores onder open source-modellen van vergelijkbare grootte (106B) op MMMBench, MathVista, MMLongBench, ChartQAPro, RefCOCO, TreeBench en anderen.

  • GLM-4.6V-Flash (9B) presteert beter dan andere lichtgewicht modellen (bijv. Qwen3-VL-8B, GLM-4.1V-9B) in bijna elke geteste categorie.

  • Dankzij het venster met 128.000 tokens van de 106B kan hij beter presteren dan grotere modellen zoals Step-3 (321B) en Qwen3-VL-235B bij taken van lange-contextdocumenten, video-samenvattingen en gestructureerd multimodaal redeneren.

Voorbeeldscores van het scorebord zijn onder meer:

  • MathVista: 88,2 (GLM-4.6V) versus 84,6 (GLM-4,5V) versus 81,4 (Qwen3-VL-8B)

  • WebVoyager: 81,0 versus 68,4 (Qwen3-VL-8B)

  • Ref-L4-test: 88,9 vs. 89,5 (GLM-4.5V), maar met betere grondgetrouwheid bij 87,7 (Flash) vs. 86,8

Beide modellen zijn geëvalueerd met behulp van de vLLM-inferentiebackend en ondersteunen SGLang voor op video gebaseerde taken.

Frontend-automatisering en workflows met lange context

Zhipu AI benadrukte het vermogen van de GLM-4.6V om frontend-ontwikkelingsworkflows te ondersteunen. Het model kan:

  • Repliceer pixelnauwkeurige HTML/CSS/JS van UI-screenshots

  • Accepteert bewerkingsopdrachten in natuurlijke taal om lay-outs te bewerken

  • Identificeer en manipuleer specifieke componenten van de gebruikersinterface

Deze functionaliteit is geïntegreerd in een end-to-end visuele programmeerinterface, waarbij het model de lay-out, ontwerpintentie en uitvoercode herhaalt met behulp van het oorspronkelijke begrip van schermafbeeldingen.

In scenario’s met lange documenten kan de GLM-4.6V tot 128.000 tokens verwerken, waardoor één enkele gevolgtrekking mogelijk is tussen:

Zhipu AI rapporteerde een effectief gebruik van het model bij de financiële analyse van corpora met meerdere documenten en de samenvatting van complete sportuitzendingen met tijdstempelgebeurtenisdetectie.

Versterkende training en leren

Het model werd getraind met behulp van pre-training in meerdere fasen, gevolgd door begeleide verfijning (SFT) en versterkend leren (RL). Belangrijke innovaties zijn onder meer:

  • Resume Sampling (RLCS): Past dynamisch de moeilijkheidsgraad van trainingsvoorbeelden aan op basis van de voortgang van het model

  • Multi-domein beloningssystemen: taakspecifieke verificaties voor STEM, grafisch redeneren, GUI-agents, video-QA en ruimte-aarding

  • Functiegerichte training: gebruik gestructureerde tags (bijv. , ) om de redenering en opmaak van het antwoord op één lijn te brengen

Versterkende leerpijplijn legt de nadruk op verifieerbare beloningen (RLVR) boven menselijke feedback (RLHF) voor schaalbaarheid en vermijdt KL/entropieverliezen om training in multimodale domeinen te stabiliseren

Prijzen (API)

Zhipu AI biedt concurrerende prijzen voor de GLM-4.6V-serie, waarbij zowel het vlaggenschipmodel als de lichtgewicht variant gepositioneerd zijn voor een hoge betaalbaarheid.

Vergeleken met toonaangevende vision-compatibele en tekst-eerste LLM’s, is de GLM-4.6V een van de meest kosteneffectieve voor grootschalige multimodale redeneringen. Hieronder vindt u een vergelijkende momentopname van de prijzen tussen leveranciers:

USD per 1 miljoen tokens: gesorteerd van de laagste naar de hoogste totale kosten

Model

Ingang

Productie

Totale kosten

Bron

Qwen3Turbo

$ 0,05

$ 0,20

$ 0,25

AlibabaCloud

ERNIE 4.5 Turbo

$ 0,11

$ 0,45

$ 0,56

Qianfan

GLM‑4,6V

$ 0,30

$ 0,90

$ 1,20

Z.AI

Grok 4.1 Snel (redenering)

$ 0,20

$ 0,50

$ 0,70

xAI

Grok 4.1 Snel (niet redeneren)

$ 0,20

$ 0,50

$ 0,70

xAI

chat-deepseek (V3.2-Exp)

$ 0,28

$ 0,42

$ 0,70

Diepzoeken

redenering voor diep zoeken (V3.2-Exp)

$ 0,28

$ 0,42

$ 0,70

Diepzoeken

Qwen3 Plus

$ 0,40

$ 1,20

$ 1,60

AlibabaCloud

ERNI 5.0

$ 0,85

$ 3,40

$ 4,25

Qianfan

Qwen-Max

$ 1,60

$ 6,40

$ 8,00

AlibabaCloud

GPT-5.1

$ 1,25

$ 10,00

$ 11,25

Open AI

Gemini 2.5 Pro (≤200.000)

$ 1,25

$ 10,00

$ 11,25

Googlen

Gemini 3 Pro (≤200.000)

$ 2,00

$ 12,00

$ 14,00

Googlen

Gemini 2.5 Pro (>200K)

$ 2,50

$ 15,00

$ 17,50

Googlen

Grok 4 (0709)

$ 3,00

$ 15,00

$ 18,00

xAI

Gemini 3 Pro (>200K)

$ 4,00

$ 18,00

$ 22,00

Googlen

Vacature sluiten 4.1

$ 15,00

$ 75,00

$ 90,00

Antropisch

Eerdere versies: GLM‑4.5-serie en bedrijfsapplicaties

Vóór GLM-4.6V bracht Z.ai medio 2025 de GLM-4.5-familie uit, waarmee het bedrijf een serieuze concurrent werd op het gebied van open source LLM-ontwikkeling.

Het vlaggenschip GLM‑4.5 en zijn kleinere broertje GLM‑4.5‑Air ondersteunen beide redeneren, tooling, coderen en agentgedrag, terwijl ze sterke prestaties leveren ten opzichte van standaardbenchmarks.

De sjablonen introduceerden twee manieren van redeneren (“denken” en “niet denken”) en konden automatisch volledige PowerPoint-presentaties genereren vanuit één enkele prompt, een functie die geschikt was voor gebruik in bedrijfsrapportage, training en interne communicatieworkflows. Z.ai heeft de GLM-4.5-serie ook uitgebreid met extra varianten zoals GLM-4.5-X, AirX en Flash, gericht op ultrasnelle gevolgtrekkingen en goedkope scenario’s.

Samen positioneren deze functies de GLM‑4.5-serie als een kosteneffectief, open en productieklaar alternatief voor bedrijven die behoefte hebben aan autonomie op het gebied van modelimplementatie, levenscyclusbeheer en integratiekanaal.

Gevolgen voor het ecosysteem

De GLM-4.6V-versie vertegenwoordigt een opmerkelijke vooruitgang in open source multimodale kunstmatige intelligentie. Hoewel brede beeldtaalsjablonen het afgelopen jaar enorm zijn toegenomen, bieden slechts weinigen het volgende:

  • Gebruik van geïntegreerde visuele hulpmiddelen

  • Gestructureerde multimodale opwekking

  • Agent-georiënteerd geheugen en beslissingslogica

De nadruk van Zhipu AI op het ‘sluiten van de cirkel’ van perceptie naar actie via native function calling markeert een stap in de richting van multimodale agent-gebaseerde systemen.

De modelarchitectuur en de trainingspijplijn laten een voortdurende evolutie van de GLM-familie zien, waardoor deze concurrerend wordt gepositioneerd naast aanbiedingen als OpenAI’s GPT-4V en Google DeepMind’s Gemini-VL.

Afhaalmaaltijden voor bedrijfsleiders

Met GLM-4.6V introduceert Zhipu AI een open source VLM die gebruik kan maken van native visuele tools, redeneren in een lange context en frontend-automatisering. Stelt nieuwe prestatiemijlpalen vast voor modellen van vergelijkbare grootte en biedt een schaalbaar platform voor het bouwen van multimodale AI-systemen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in