Home Nieuws Nvidia’s Cosmos Reason 2 heeft tot doel redenerende VLM’s naar de fysieke...

Nvidia’s Cosmos Reason 2 heeft tot doel redenerende VLM’s naar de fysieke wereld te brengen

6
0
Nvidia’s Cosmos Reason 2 heeft tot doel redenerende VLM’s naar de fysieke wereld te brengen

Nvidia-CEO Jensen Huang zei vorig jaar dat we het tijdperk van fysieke AI betreden. Terwijl het bedrijf LLM blijft aanbieden voor softwaregebruik, is Nvidia dat wel zichzelf steeds meer positioneren als aanbieder van AI-modellen voor volledig op AI gebaseerde systemen, inclusief AI in de fysieke wereld.

Op CES 2026 kondigde Nvidia een reeks nieuwe modellen aan die zijn ontworpen om AI-agenten voorbij chatinterfaces en naar fysieke omgevingen te duwen.

Nvidia wordt gelanceerd Reden van de kosmos 2de nieuwste versie van zijn beeldtaalmodel, ontworpen voor belichaamd redeneren. Kosmos Reden 1, vorig jaar uitgebrachtintroduceerde een tweedimensionale ontologie voor belichaamd redeneren en momenteel drijft de fysieke redenering van Hugging Face voor videorangschikking.

Cosmos Reason 2 bouwt voort op dezelfde ontologie en geeft bedrijven tegelijkertijd meer flexibiliteit om applicaties aan te passen en fysieke agenten in staat te stellen hun volgende acties te plannen, vergelijkbaar met hoe op software gebaseerde agenten door digitale workflows redeneren.

Nvidia heeft ook een nieuwe versie van Cosmos Transfer uitgebracht, een sjabloon waarmee ontwikkelaars Genereer trainingssimulaties voor robots.

Andere beeldtaalmodellen, zoals die van Google Polen Gemma EN Pixtral Large van Mistralze kunnen visuele input verwerken, maar niet alle in de handel verkrijgbare VLM’s ondersteunen de redenering.

“Robotica bevindt zich op een keerpunt. We evolueren van gespecialiseerde robots die beperkt zijn tot enkele taken naar generalistische gespecialiseerde systemen”, zegt Kari Briski, Nvidia’s vice-president voor generatieve kunstmatige intelligentiesoftware, in een briefing met verslaggevers. Hij doelde op robots die brede achtergrondkennis combineren met diepgaande taakspecifieke vaardigheden. “Deze nieuwe robots combineren brede fundamentele kennis met diepgaande expertise en complexe taken.”

Hij voegde eraan toe dat Cosmos Reason 2 “de redeneervaardigheden verbetert die robots nodig hebben om door de onvoorspelbare fysieke wereld te navigeren.”

We gaan verder met fysieke agenten

Briski merkte op dat de routekaart van Nvidia “hetzelfde bronnenmodel volgt voor al onze open modellen.”

“Bij het bouwen van gespecialiseerde AI-agenten, een digitaal personeelsbestand of de fysieke belichaming van AI in robots en autonome voertuigen, heb je meer nodig dan alleen het model”, aldus Briski. “Ten eerste heeft AI computerbronnen nodig om de wereld eromheen te trainen en te simuleren. Data zijn de brandstof voor het leren en verbeteren van AI, en we dragen bij aan ’s werelds grootste verzameling open, diverse datasets, die verder gaan dan alleen het openen van modelgewichten. Open bibliotheken en trainingsscripts bieden ontwikkelaars de tools om gerichte AI voor hun toepassingen te creëren, en we publiceren ontwerpen en voorbeelden om AI te helpen implementeren als systeemmodellen.”

Het bedrijf heeft nu open modellen specifiek voor fysieke AI in Cosmos en robotica, met zijn open-redenerende vision-taal-actie (VLA)-model Gr00t en zijn Nemotron-modellen voor agent-gebaseerde AI.

Nvidia zegt dat open modellen tussen verschillende takken van AI een gedeeld bedrijfsecosysteem vormen dat data, training en redenering biedt aan agenten in zowel de digitale als de fysieke wereld.

Toevoegingen aan de Nemotron-familie

Briski zei dat Nvidia van plan is zijn open modellen, inclusief de Nemotron-familie, verder uit te breiden met een nieuw RAG-model en insluitingen om informatie gemakkelijker beschikbaar te maken voor agenten. Het bedrijf Nemotron 3 uitgebrachtde nieuwste versie van zijn agentische redeneermodellen, in december.

Nvidia heeft drie nieuwe toevoegingen aan de Nemotron-familie aangekondigd: Nemotron Speech, Nemotron RAG en Nemotron Safety.

In een blogpost zegt Nvidia dat Nemotron Speech “real-time spraakherkenning met lage latentie voor real-time ondertiteling en spraak-AI-toepassingen” biedt en 10 keer sneller is dan andere spraakmodellen.

Nemotron RAG bestaat technisch gezien uit twee modellen: een inbeddingsmodel en een herclassificatiemodel, die beide afbeeldingen kunnen begrijpen om meer multimodale informatie te bieden waar dataagenten uit kunnen putten.

“Nemotron RAG staat aan de top van wat wij MMTab noemen, of Massive Multilingual Text Embedding Benchmark, met sterke meertalige prestaties die minder geheugen dan rekenkracht gebruiken, dus ze zijn zeer geschikt voor systemen die veel verzoeken zeer snel en met weinig vertraging moeten afhandelen”, aldus Briski.

Nemotron Safety detecteert gevoelige gegevens, zodat AI-agenten niet per ongeluk persoonlijk identificeerbare gegevens vrijgeven.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in