Nog een dag eind 2025, opnieuw een indrukwekkende prestatie van een Chinees bedrijf op het gebied van open source AI.
Chinees sociaal netwerkbedrijf De AI-divisie van Weibo heeft onlangs zijn open source VibeThinker-1.5B uitgebracht– een Parameter Large Language Model (LLM) van $1,5 miljard, een verfijnde variant van het rivaliserende Chinese technologiebedrijf Qwen2.5-Math-1.5B van Alibaba.
Het is nu beschikbaar voor gratis download en gebruik door onderzoekers en bedrijfsontwikkelaars, ook voor commerciële doeleinden, onder een permissieve licentie van MIT op Knuffelend gezicht, GitHub EN Modelbereikmet een technisch rapport op de open access wetenschappelijke publicatiesite arxiv.org.
Maar ondanks zijn compacte formaat behaalt VibeThinker-1.5B top-of-the-line redeneerprestaties bij wiskundige en programmeertaken, en overtreft of overtreft modellen honderden keren zijn grootte, en overtreft zelfs de beroemde R1 van de Chinese rivaal DeepSeek, die eerder dit jaar viraal ging, een model met 671 miljard parameters, in de benchmark voor formeel redeneren.
Het overschaduwt verder het Magistral Medium van Mistral AI en houdt stand tegenover Claude Opus 4 van Anthropic en het gpt-oss-20B Medium van OpenAI, terwijl het allemaal een fractie van de infrastructuur en investeringen vereist.
Het doet dit zelfs na het ontvangen van een post-training met een budget van slechts $ 7.800 voor computerbronnen (3.900 GPU-uren op de Nvidia H800), veel minder dan de tientallen of zelfs honderden duizenden dollars die doorgaans nodig zijn om modellen van vergelijkbare of grotere schaal te verfijnen.
Houd er echter rekening mee dat dit niet de totale kosten van modelontwikkeling zijn: LLM’s worden in fasen getraind. Eerst is er de voortraining, waarbij het model de basistaalstructuur en algemene kennis leert door het volgende woord te voorspellen via enorme hoeveelheden tekst van internet, boeken en artikelen. Dit geeft hem vloeiendheid, maar niet de mogelijkheid om instructies op te volgen of een gesprek te voeren
Dit wordt gevolgd door een post-training, waarbij gebruik wordt gemaakt van veel kleinere datasets van hogere kwaliteit (meestal verzamelingen voorbeeldvragen, suggesties en antwoorden geschreven door experts) om het model te leren hoe behulpzaam te reageren, over problemen te redeneren en zich aan te passen aan menselijke verwachtingen. De kosteneffectiviteit na de training van Weibo op VibeThinker-1.5B is echter opmerkelijk en moet worden geprezen.
De open source-versie gooit aannames over parameterschaling, rekenintensiteit en minimaal haalbare grootte voor hoogwaardige LLM’s omver.
Een andere trainingsaanpak: signaalspectrum
VibeThinker-1.5B dankt zijn prestaties niet aan schaalbaarheid, maar aan het trainingsframework erachter: het Spectrum-to-Signal-principe (SSP).
In plaats van een model uitsluitend te optimaliseren voor de correctheid van één antwoord (Pass@1), ontkoppelt het SSP-framework begeleide fijnafstemming (SFT) en versterkend leren (RL) in twee afzonderlijke fasen met verschillende doelstellingen:
-
SFT (“Spectrumfase”): Het model is getraind om de diversiteit onder mogelijke correcte antwoorden te maximaliseren, waardoor de Pass@K-score wordt verbeterd. Hierdoor ontstaat een breed scala aan plausibele oplossingsrichtingen.
-
RL (“Signaalfase”): Een tweede fase versterkingsleersysteem (genaamd MaxEnt-Guided Policy Optimization, of MGPO) wordt gebruikt om de meest correcte paden uit deze pool van diverse oplossingen te identificeren en te versterken. MGPO geeft prioriteit aan problemen waarbij het model het meest onzeker is, door gebruik te maken van op entropie gebaseerde weging om het leren te focussen.
De auteurs beweren dat deze scheiding kleine modellen in staat stelt de redeneerruimte effectiever te verkennen, waardoor signaalversterking wordt bereikt zonder te vertrouwen op enorme aantallen parameters.
VibeThinker-1.5B toont op overtuigende wijze aan dat het vertrouwen van de industrie op het schalen van parameters als de enige weg naar het verbeteren van de redeneerprestaties achterhaald kan zijn.
Door gebruik te maken van een op diversiteit gerichte trainingspijplijn heeft WeiboAI aangetoond dat kleinere, meer toegankelijke modellen systemen van miljarden dollars kunnen evenaren en zelfs overtreffen voor logica-intensieve taken.
De lage voetafdruk van hulpbronnen is een van de belangrijkste aspecten van VibeThinker-1.5B. Met minder dan $8.000 zijn de kosten na de training 30-60 keer lager dan die van modellen als de DeepSeek R1 en MiniMax-M1, die tussen de $294.000 en $535.000 kosten om te trainen.
Prestaties tussen domeinen
Ondanks zijn kleine omvang biedt VibeThinker-1.5B domeinoverschrijdende redenering die beter presteert dan veel grotere open source en commerciële modellen:
|
Model |
AIME25 |
LiveCodeBench v6 |
GPQA-Diamant |
|
VibeThinker-1.5B |
74,4 |
51.1 |
46,7 |
|
GPT-OSS-20B-Medium |
72.1 |
54,9 |
66,0 |
|
Sluit de taak 4 |
69,2 |
56,6 |
79,6 |
|
MiniMax M1 (456B) |
74,6 |
62,3 |
69,2 |
|
DeepSeek R1 (671B) |
70,0 |
65,9 |
71,5 |
|
Kimi K2 (1,09T) |
49,5 |
53,7 |
75,1 |
VibeThinker werd vergeleken met modellen gericht op redeneren (Magistral, Claude, OpenAI o3-mini) en LLM zonder redeneren (GPT-4.1, Kimi K2, DeepSeek V3). In de benchmarks voor gestructureerd redeneren presteerde het model consistent beter dan modellen zonder redenering, ongeacht de grootte:
-
Op AIME24 (wiskunde) versloeg hij Kimi K2 (1,09T) met meer dan 10 punten (80,3 vs. 69,6).
-
Op LiveCodeBench v6 presteerde het beter dan Claude Opus 4 (51,1 vs. 47,4).
-
Op GPQA scoorde het lager dan GPT-4.1 en Claude, maar verdubbelde nog steeds het basismodel (16,4 naar 46,7).
Dit ondersteunt de bewering van de auteurs dat omvang niet de enige weg is naar redeneervermogen: met een goed trainingsontwerp kunnen kleinere modellen de prestaties van veel grotere systemen op gerichte taken bereiken of zelfs overtreffen.
Het bereikt met name pariteit met modellen die honderden keren groter zijn op het gebied van wiskunde en coderen, hoewel het achterblijft op het gebied van algemene kennisredenering (GPQA), waar grotere modellen een voorsprong behouden.
Dit duidt op een potentiële wisselwerking tussen specialisaties: hoewel VibeThinker uitblinkt in gestructureerde logische taken, heeft het minder capaciteit voor een brede encyclopedische herinnering, een bekende beperking van kleinere architecturen.
Adoptiegids voor ondernemingen
De release bevat aanbevolen inferentie-instellingen (temperatuur = 0,6, top_p = 0,95, max. tokens = 40960).
Het model is klein genoeg om te worden ingezet op edge-apparaten, waaronder mobiele telefoons en systemen in voertuigen, terwijl de inferentiekosten naar schatting 20 tot 70 keer goedkoper zijn dan die van grote modellen.
Dit positioneert VibeThinker-1.5B niet alleen als een onderzoeksprestatie, maar ook als een potentiële basis voor kosteneffectieve, lokaal inzetbare redeneersystemen.
Weibo-strategie en marktpositie
Weibo, gelanceerd door Sina Corporation in 2009, blijft een hoeksteen van het Chinese socialemedia-ecosysteem. Vaak omschreven als de Chinese versie van X (voorheen Twitter), combineert het platform microblogging, multimedia-inhoud en trending features met een regelgevingsomgeving die wordt gevormd door nauw toezicht van de overheid.
Ondanks het feit dat er maandelijks 600 miljoen actieve gebruikers zijn (meer dan het dubbele van dat van Beleggers zijn niet optimistisch over het potentieel voor de groei van de advertentie-inkomsten op de korte termijn, en Weibo krijgt te maken met toenemende concurrentie van video-first-platforms zoals Douyin, die jongere gebruikers aantrekken en de tijd die ze elders doorbrengen vergroten.
Als reactie hierop is Weibo zich gaan richten op het genereren van inkomsten uit de makerseconomie, live streaming en video-verticals, door tools toe te voegen voor de betrokkenheid van influencers, e-commerce-integratie en diepere analyses voor merken.
De rol van het platform als digitaal openbaar plein maakt het ook tot het middelpunt van toezichthoudend toezicht. De Chinese autoriteiten blijven druk uitoefenen op kwesties variërend van contentbeheer tot gegevensbeveiliging. In september 2025, Weibo was een van de platforms die in de officiële waarschuwingen werden genoemdDit onderstreept de voortdurende blootstelling aan politieke risico’s.
Weibo’s toewijding aan onderzoek en ontwikkeling op het gebied van AI, geïllustreerd door de release van VibeThinker-1.5B, duidt op een verschuiving in ambities. Weibo is niet alleen een mediaplatform, maar positioneert zichzelf ook als speler in de volgende fase van de Chinese AI-ontwikkeling, waarbij het zijn kapitaalreserves, gegevens over gebruikersgedrag en interne onderzoekscapaciteit gebruikt om aangrenzende technische velden te onderzoeken.
Wat dit betekent voor bedrijfstechnische beslissers
Voor technische leiders en zakelijke AI-teams heeft de VibeThinker-release praktische implicaties voor alles, van orkestratiepijplijnen tot kostenmodellering.
Een model met 1,5 miljard parameters dat 100x grotere modellen overtreft bij wiskunde- en programmeertaken bespaart niet alleen computerbronnen, maar verschuift ook de balans van de architectuur. Het maakt LLM-inferentie op beperkte infrastructuur mogelijk, vermindert de latentie aan de rand en verlaagt de toegangsdrempel voor applicaties die anders API-toegang tot gesloten modellen op grensschaal zouden vereisen.
Dit is belangrijk voor zakelijke ML-leiders die redenerende agenten willen implementeren binnen bestaande systemen of voor platformeigenaren die de taak hebben om LLM te integreren in geautomatiseerde workflows.
Het is ook aantrekkelijk voor degenen die RLHF-pijplijnen (Human Feedback Reinforcement Learning) beheren of gevolgtrekkingsoptimalisatie beheren in hybride cloudomgevingen.
De post-trainingsmethodologie van het model, met name de op entropie gerichte benadering van versterkend leren, biedt een routekaart voor teams die kleinere controlepunten willen verfijnen in plaats van te vertrouwen op grootschalige pre-training.
De benchmarktransparantie- en data-decontaminatiefasen van VibeThinker richten zich ook op een andere opkomende prioriteit in zakelijke AI: controleerbaarheid. Hoewel de prestaties op algemene kennistests nog steeds achterblijven bij grensmodellen, maakt de taakspecifieke betrouwbaarheid het een aantrekkelijke kandidaat voor gecontroleerde omgevingen waar correctheid belangrijker is dan dekking.
Kortom, VibeThinker-1.5B is niet alleen een onderzoeksmijlpaal: het is een geweldige kandidaat voor praktisch gebruik, implementatie en bedrijfsbreed leren. Dit suggereert dat een nieuwe klasse van compacte, voor redeneren geoptimaliseerde modellen haalbaar is voor zakelijke gebruiksscenario’s die voorheen het domein waren van veel grotere systemen. Voor organisaties die een balans willen vinden tussen kosten, latentie, interpreteerbaarheid en controle, is dit een goede nieuwe optie in de lange en groeiende lijst van Chinese open source-aanbiedingen.



