Gavin Baker/ @gavinsbaker:
Omdat inferentie zich opsplitst in precompilatie en decodering, zou Nvidia’s Groq-deal een “Rubin SRAM” -variant mogelijk kunnen maken die is geoptimaliseerd voor agentische redeneringswerklasten met ultra-lage latentie — Nvidia koopt Groq om twee redenen, naar mijn mening. 1) Inferentie wordt opgesplitst in precompilatie en decodering.
Nieuwsbron



