Nvidia heeft de nieuwe versie van zijn grensmodellen gelanceerd, Nemotron 3, gebaseerd op een modelarchitectuur die, volgens ’s werelds meest waardevolle bedrijf, meer precisie en betrouwbaarheid biedt voor agenten.
Nemotron 3 zal verkrijgbaar zijn in drie maten: Nemotron 3 Nano met 30B-parameters, voornamelijk voor gerichte en zeer efficiënte taken; Nemotron 3 Super, een parametermodel van 100 miljard voor toepassingen met meerdere agenten en redeneren met hoge precisie, en Nemotron 3 Ultra, met zijn grote redeneermotor en ongeveer 500 miljard parameters voor complexere toepassingen.
Om de Nemotron 3-modellen te bouwen, zei Nvidia dat het vertrouwde op een hybride blend-of-experts (MoE)-architectuur om de schaalbaarheid en efficiëntie te verbeteren. Met behulp van deze architectuur zei Nvidia in een persbericht dat zijn nieuwe modellen bedrijven ook meer openheid en prestaties bieden bij het bouwen van autonome multi-agentsystemen.
Kari Briski, Nvidia’s vice-president voor generatieve kunstmatige intelligentiesoftware, vertelde verslaggevers in een briefing dat het bedrijf zijn toewijding wilde demonstreren om te leren en te verbeteren van eerdere versies van zijn modellen.
“Wij geloven dat we in een unieke positie zijn om een breed scala aan ontwikkelaars te bedienen die maximale flexibiliteit willen om sjablonen aan te passen voor het bouwen van gespecialiseerde AI door die nieuwe hybride mix van onze deskundige architectuurmix te combineren met een contextlengte van 1 miljoen tokens”, aldus Briski.
Nvidia zei dat early adopters van Nemotron 3-modellen Accenture, CrowdStrike, Cursor, Deloitte, EY, Oracle Cloud Infrastructure, Palantir, Perplexity, ServiceNow, Siemens en Zoom zijn.
Revolutionaire architecturen
Nvidia heeft voor veel van zijn modellen de hybride Mamba-Transformer-architectuur gebruikt. inclusief Nemotron-Nano-9B-v2.
De architectuur is gebaseerd op onderzoek van de Carnegie Mellon University en Princeton, waarin selectieve state-space-modellen worden samengevoegd om lange stukken informatie te kunnen verwerken met behoud van statussen. Het kan de verwerkingskosten verlagen, zelfs in lange contexten.
Nvidia merkte op dat het ontwerp “tot 4x hogere tokendoorvoer bereikt” dan Nemotron 2 Nano en de inferentiekosten aanzienlijk kan verlagen door het genereren van redeneringstokens tot 60% te verminderen.
“We moeten echt de efficiëntie kunnen verhogen en de kosten per token kunnen verlagen. En dat kun je op verschillende manieren doen, maar we doen het echt via de innovaties van die modelarchitectuur”, zei Briski. “De hybride architectuur van de Mamba-transformator werkt vele malen sneller met minder geheugen, omdat het deze enorme aandachtskaarten en sleutelwaardecaches voor elk individueel token vermijdt.”
Nvidia heeft ook een verdere innovatie geïntroduceerd voor de Nemotron 3 Super- en Ultra-modellen. Hiervoor heeft Nvidia volgens Briski “een doorbraak genaamd latente MoE” geïmplementeerd.
“Al deze experts in jouw model delen een gemeenschappelijke kern en houden slechts een klein deel privé. Het is net zoiets als chef-koks die een grote keuken delen, maar ze moeten hun eigen kruidenrek hebben”, voegde Briski eraan toe.
Nvidia is niet het enige bedrijf dat dit soort architectuur gebruikt om modellen te bouwen. AI21 Labs gebruikt het meest recentelijk voor zijn Jamba-modellen in zijn Jamba Reasoning 3B-model.
Nemotron 3-modellen profiteerden van uitgebreid leren van versterking. De grootste modellen, Super en Ultra, gebruikten het 4-bits NVFP4-trainingsformaat van het bedrijf, waardoor ze konden trainen op de bestaande infrastructuur zonder dat dit ten koste ging van de nauwkeurigheid.
Benchmarktests voor kunstmatige analyse plaatsten de Nemotron-modellen hoog onder de modellen van vergelijkbare grootte.
Nieuwe omgevingen waar modellen kunnen “trainen”
Als onderdeel van de lancering van Nemotron 3 zal Nvidia gebruikers ook toegang geven tot haar onderzoek door voorbeelddocumenten en tips vrij te geven, open datasets aan te bieden waar mensen pre-workout tokens en post-workout samples kunnen gebruiken en bekijken, en, belangrijker nog, een nieuwe NeMo-sportschool waar klanten hun modellen en agenten kunnen laten “trainen”.
De NeMo Gym is een leerlaboratorium voor versterking waar gebruikers hun modellen in gesimuleerde omgevingen kunnen uitvoeren om de prestaties na de training te testen.
AWS heeft een soortgelijke tool aangekondigd via zijn Nova Forge-platformgericht op bedrijven die hun nieuw gemaakte gedistilleerde of kleinere modellen willen testen.
Briski zei dat de datamonsters na de training die Nvidia wil vrijgeven “een orde van grootte groter zijn dan welke beschikbare dataset dan ook en ook erg vergevingsgezind en open zijn.”
Nvidia heeft ontwikkelaars erop gewezen dat ze op zoek zijn naar zeer intelligente en performante open modellen, zodat ze beter kunnen begrijpen hoe ze deze moeten aansturen indien nodig, als basis voor het vrijgeven van meer informatie over hoe het zijn modellen traint.
“Modelontwikkelaars worden tegenwoordig geconfronteerd met deze moeilijke trifecta. Ze moeten modellen vinden die ultra-open zijn, die extreem intelligent zijn en die zeer efficiënt zijn”, zei hij. “De meeste open modellen dwingen ontwikkelaars om pijnlijke afwegingen te maken tussen efficiëntieverbeteringen zoals tokenkosten, latentie en doorvoer.”
Hij zei dat ontwikkelaars willen weten hoe een model is getraind, waar de trainingsgegevens vandaan komen en hoe ze deze kunnen evalueren.


