Home Nieuws MiroMind’s MiroThinker 1.5 levert prestaties van biljoen parameters uit een model van...

MiroMind’s MiroThinker 1.5 levert prestaties van biljoen parameters uit een model van 30 miljard, tegen 1/20 van de kosten

Door

8 januari 2026

Zich aansluiten bij een groeiend aantal kleinere, krachtigere redeneermodellen EN MiroThinker 1.5 van MiroMind, met slechts 30 miljard parameters, vergeleken met de honderden miljarden of biljoenen die worden gebruikt door de grote taalmodellen (LLM’s) van grote stichtingen.

Maar MiroThinker 1.5 onderscheidt zich van deze kleinere redeneerders om één belangrijke reden: het biedt zoekmogelijkheden voor agenten die wedijveren met concurrenten met biljoen parameters, zoals Zoals K2 EN Diepzoekentegen een fractie van de kosten van gevolgtrekking.

De release markeert een mijlpaal in het streven naar efficiënte en inzetbare AI-agenten. Bedrijven zijn lange tijd gedwongen te kiezen tussen dure API-aanroepen naar grensmodellen of gecompromitteerde lokale prestaties. MiroThinker 1.5 biedt een derde pad: modellen met een open gewicht die speciaal zijn ontworpen voor langdurig gereedschapsgebruik en redeneren in meerdere stappen.

Een van de grootste opkomende trends in de branche is de verschuiving van zeer gespecialiseerde agenten naar meer algemene agenten. Tot voor kort was die mogelijkheid grotendeels beperkt tot propriëtaire modellen. MiroThinker 1.5 vertegenwoordigt een serieuze concurrent op dit gebied met open gewicht. Kijk naar de mijne YouTube-video’s daarover hieronder.

Het verminderen van het risico op hallucinaties door verifieerbare redenering

Voor IT-teams die AI-implementatie overwegen, blijven hallucinaties de belangrijkste barrière voor het gebruik van open modellen in de productie. MiroThinker 1.5 pakt dit probleem aan via wat MiroMind de ‘wetenschappermodus’ noemt, een fundamentele architecturale verandering in de manier waarop het model met onzekerheid omgaat.

In plaats van statistisch plausibele antwoorden te genereren op basis van opgeslagen patronen (de hoofdoorzaak van de meeste hallucinaties), is MiroThinker getraind om een cyclus van toetsbaar onderzoek uit te voeren: hypothesen voorstellen, externe bronnen op zoek gaan naar bewijs, verkeerde afstemmingen identificeren, conclusies herzien en opnieuw testen. Tijdens de training wordt het model expliciet bestraft voor resultaten met veel vertrouwen die geen bronondersteuning hebben.

De praktische implicatie voor bedrijfsimplementatie is testbaarheid. Wanneer MiroThinker een antwoord geeft, kan het zowel de redeneringsketen als de externe bronnen die het heeft geraadpleegd aan het licht brengen. Voor gereguleerde sectoren zoals de financiële dienstverlening, de gezondheidszorg en de juridische sector creëert dit een documentatiespoor dat op opslag gebaseerde modellen niet kunnen bieden. Complianceteams kunnen niet alleen de conclusies van het model beoordelen, maar ook hoe het zover is gekomen.

Deze aanpak vermindert ook het ‘zelfverzekerde hallucinatie’-probleem dat veel voorkomt bij productie-AI-systemen. Het model is getraind om verificatie te zoeken in plaats van te extrapoleren naar onzekerheid, een gedrag dat zich direct vertaalt in minder kostbare fouten.

Benchmarkprestaties: stoten boven zijn gewicht

In deze context biedt MiroThinker-v1.5-30B vergelijkbare prestaties als modellen met tot 30 keer meer parameters, inclusief het Kimi-K2-Thinking-model met biljoen parameters.

Op BrowseComp-ZH, een belangrijke benchmark voor webzoekmogelijkheden, presteerde het 30B-model zelfs beter dan zijn concurrent met biljoen parameters met een score van 69,8.

Grafiek die de prestaties toont van MiroMind’s nieuwe 30B MiroThinker 1.5 parametermodel vergeleken met grotere open source en closed source concurrenten op de BrowseComp Benchmark. Krediet: MiroMind

Het kostenverschil is minstens zo opmerkelijk. MiroMind rapporteert inferentiekosten van $ 0,07 per oproep voor de 30B-variant – ongeveer een twintigste van de kosten van Kimi-K2-Thinking – samen met hogere inferentiesnelheden.

Een grotere 235B-variant (met actieve 22B-parameters in een gemengde expertarchitectuur) scoort wereldwijd het hoogst in meerdere zoekagentbenchmarks. In de algemene evaluaties van agentzoekopdrachten steken deze modellen gunstig af bij DeepSeek V3.2-, Minimax-, GLM- en Kimi-K2-systemen.

Tijdens het testen komt het grotere model op verschillende benchmarks dichter bij de Gemini 3 Pro en komt het dichter bij GPT-5-klasse systemen dan het aantal parameters zou doen vermoeden. Hoewel bergbeklimmen steeds gebruikelijker wordt, is het algehele concurrentievermogen het belangrijkst, en de MiroThinker houdt zich goed staande.

Uitgebreid gereedschapsgebruik: Tot 400 gereedschapsoproepen per sessie

Het onderscheidende kenmerk van MiroThinker 1.5 is het langdurige gebruik van tools.

Sjablonen ondersteunen maximaal 256.000 contexttokens en vereisen ondersteuning voor maximaal 400 toolaanroepen per sessie, een cruciale vereiste voor complexe onderzoeksworkflows die gepaard gaan met uitgebreide informatieverzameling, synthese en kruiscontroles.

Dit plaatst MiroThinker stevig in de opkomende categorie van agentmodellen die zijn ontworpen voor autonome taakvoltooiing in plaats van vraag-en-antwoord in één keer. Praktische toepassingen zijn onder meer diepgaande onderzoeksworkflows, contentpijplijnen, het genereren van rapporten en uitvoer in podcaststijl vergelijkbaar met NotebookLM.

Trainingsinnovatie: tijdgevoelige sandbox

Een andere belangrijke innovatie van MiroThinker 1.5 is de tijdgevoelige Training Sandbox.

Traditionele modeltraining werkt vanuit wat MiroMind beschrijft als een ‘Godsperspectief’, waarbij het model toegang heeft tot eindresultaten binnen statische datasets, waardoor post-hoc vooroordelen ontstaan. MiroThinker-training elimineert dit voordeel.

Tijdens de training kan het model alleen communiceren met informatie die vóór een bepaald tijdstip is gepubliceerd, waardoor toekomstige datalekken worden voorkomen en het model wordt gedwongen te redeneren onder realistische omstandigheden van onvolledige informatie.

De pijplijn combineert gecontroleerde verfijning met versterkend leren met behulp van verifieerbare beloningen via Group Relative Policy Optimization (GRPO), een geavanceerd versterkend leeralgoritme gepopulariseerd door DeepSeek, dat het model aanmoedigt om op het juiste moment de juiste tool te selecteren.

Deze aanpak is met name relevant voor zakelijke toepassingen waarbij modellen moeten redeneren over evoluerende situaties in plaats van statische feiten te onthouden.

Praktische implementatieoverwegingen

Voor IT-teams die implementatie overwegen, zijn de hardwarevereisten nog steeds van belang. Het 30B-model vereist ook een aanzienlijke hoeveelheid GPU-geheugen, en kleinere configuraties kunnen problemen hebben.

Een voordeel is compatibiliteit. MiroThinker draait op vLLM-servers met OpenAI-compatibele API-eindpunten, waardoor het eenvoudig te integreren is in bestaande toolchains en workflows voor functieaanroepen als drop-in vervanging.

Beide modelgroottes zijn beschikbaar onder de soepele en gebruiksvriendelijke MIT-licentie op Hugging Face, en er is een online demo beschikbaar voor evaluatie. Permissieve licentieverlening neemt belangrijke barrières voor interne implementatie en implementatie weg.

Het grotere geheel: Interactieve schaling en parameterschaling

MiroThinker 1.5 verschijnt nu de industrie worstelt met de beperkingen van traditionele maatvoeringswetten. Grotere modellen bieden niet langer betere prestaties in de echte wereld. Zoals Artificial Analysis opmerkte, zijn veel benchmarks verzadigd, waardoor de sector in de richting van beoordelingen wordt geduwd die gebaseerd zijn op economisch nut in plaats van alleen op abstracte redeneringen.

MiroMind zet in op interactieve schaalbaarheid, dat wil zeggen op het verbeteren van mogelijkheden door diepere interactie van tools in plaats van steeds grotere aantallen parameters. Als dit klopt, kan dit geavanceerde agenten mogelijk maken op een infrastructuur die niet afhankelijk is van dure grens-API’s.

Het bedrijf, opgericht door Tianqiao Chen en AI-wetenschapper Jifeng Dai, beschrijft zijn missie als het bouwen van ‘Native Intelligence’, of kunstmatige intelligentie die redeneert door middel van interactie, niet door memoriseren.

Of deze aanpak dominant wordt of een gespecialiseerde niche blijft, is nog steeds een open vraag. Maar voor bedrijven die worstelen met de afweging tussen kosten en capaciteit biedt MiroThinker 1.5 een overtuigend datapunt: soms is het belangrijker om een model te leren zoeken dan het te leren alles te onthouden.

Nieuwsbron

MiroMind’s MiroThinker 1.5 levert prestaties van biljoen parameters uit een model van 30 miljard, tegen 1/20 van de kosten

Het verminderen van het risico op hallucinaties door verifieerbare redenering

Benchmarkprestaties: stoten boven zijn gewicht

Uitgebreid gereedschapsgebruik: Tot 400 gereedschapsoproepen per sessie

Trainingsinnovatie: tijdgevoelige sandbox

Praktische implementatieoverwegingen

Het grotere geheel: Interactieve schaling en parameterschaling

LAAT EEN REACTIE ACHTER Annuleer reactie

EDITOR PICKS

Voormalig realityster gearresteerd wegens kindermisdaden en dierenseksmisdaden waarbij dieren in beslag werden genomen

Mysterieuze donor schenkt Japanse stad $3,6 miljoen aan goudstaven om het watersysteem te repareren

Gewapende mannen openen het vuur op een voetbalveld in centraal Mexico, waarbij elf mensen...

Op dit moment houdt de Russische soldaat een bord vast met het verzoek om...