Home Nieuws DeepSeek voorwaardelijk geheugen corrigeert stille LLM-verspilling: GPU-cycli verloren als gevolg van statische...

DeepSeek voorwaardelijk geheugen corrigeert stille LLM-verspilling: GPU-cycli verloren als gevolg van statische zoekopdrachten

1
0
DeepSeek voorwaardelijk geheugen corrigeert stille LLM-verspilling: GPU-cycli verloren als gevolg van statische zoekopdrachten

Wanneer een ondernemings-LLM een productnaam, een technische specificatie of een standaardcontractclausule ophaalt, gebruikt deze dure GPU-berekeningen die zijn ontworpen voor complexe redeneringen, alleen om toegang te krijgen tot statische informatie. Dit gebeurt miljoenen keren per dag. Elke zoektocht verspilt cycli en verhoogt de infrastructuurkosten.

Diepzoeken nieuw gepubliceerd onderzoek naar “voorwaardelijk geheugen” richt zich rechtstreeks op deze architecturale beperking. Het werk introduceert Engram, een module die het ophalen van statische patronen scheidt van dynamisch redeneren. Het levert resultaten op die aannames uitdagen over wat geheugen feitelijk dient in neurale netwerken. Het artikel is geschreven in samenwerking met Diepzoeken oprichter Liang Wenfeng.

Door middel van systematische experimenten vond DeepSeek de optimale balans tussen rekenkracht en geheugen, waarbij 75% van de capaciteit van het schaarse model werd toegewezen aan dynamisch redeneren en 25% aan statische zoekopdrachten. Dit geheugensysteem verbeterde het redeneren meer dan het ophalen van kennis.

Benchmarks voor complex redeneren gingen van 70% naar 74% nauwkeurigheid, terwijl kennisgerichte tests verbeterden van 57% naar 61%. Deze verbeteringen komen uit tests als Big-Bench Hard, ARC-Challenge en MMLU.

Het onderzoek komt omdat bedrijven geconfronteerd worden met een toenemende druk om capabelere AI-systemen in te zetten, omdat ze te maken hebben met GPU-geheugenbeperkingen en infrastructuurkosten. De aanpak van DeepSeek biedt een potentieel pad voorwaarts door radicaal te heroverwegen hoe modellen moeten worden gestructureerd.

Hoe voorwaardelijk geheugen een ander probleem oplost dan agentgeheugen en RAG

Agentische geheugensystemen, ook wel contextueel geheugen genoemd, zijn vergelijkbaar Achteraf gezien, MemoOSOF Memp – focus op episodisch geheugen. Ze slaan gegevens op van eerdere gesprekken, gebruikersvoorkeuren en interactiegeschiedenis. Deze systemen helpen agenten de context tussen sessies te behouden en van ervaringen te leren. Maar ze staan ​​buiten de voorwaartse doorgang van het model en optimaliseren niet de manier waarop het model statische taalmodellen intern verwerkt.

Voor Chris Latimer, oprichter en CEO van Vectorize, die Hindsight ontwikkelde, lost de voorwaardelijke geheugenbenadering die in Engram wordt gebruikt een ander probleem op dan het AI-geheugen van agenten.

“Het lost het probleem van het verbinden van agenten met externe opslag zoals gespreksgeschiedenis en kennisopslag niet op”, vertelde Latimer aan VentureBeat. “Het is er meer op gericht om de prestaties uit kleinere modellen te halen en meer kilometers te halen uit schaarse GPU-bronnen.”

Voorwaardelijk geheugen pakt een fundamenteel probleem aan: Transformers missen een native kenniszoekprimitief. Bij het verwerken van tekst moeten ze het ophalen van statische patronen simuleren via dure meerlaagse neurale berekeningen. Deze sjablonen bevatten benoemde entiteiten, technische terminologie en algemene zinsneden.

Het DeepSeek-document illustreert dit met een concreet voorbeeld. Het herkennen van “Diana, Prinses van Wales” vereist het consumeren van meerdere niveaus van aandacht en feed-forward-netwerken om geleidelijk de kenmerken samen te stellen. Het model maakt in wezen gebruik van diepe, dynamische logische circuits om een ​​eenvoudige hashtabel-opzoekopdracht uit te voeren. Het is alsof u een rekenmachine gebruikt om uw telefoonnummer te onthouden in plaats van het alleen maar op te zoeken.

“Het probleem is dat Transformer niet de mogelijkheid heeft om ‘eigen kennis te doorzoeken’”, schrijven de onderzoekers. “Veel taken die in O(1)-tijd moeten worden opgelost, zoals herstel, moeten worden ‘gesimuleerd voor herstel’ door middel van een grote hoeveelheid rekenwerk, wat erg inefficiënt is.”

Hoe voorwaardelijk geheugen werkt

Engram introduceert “voorwaardelijk geheugen” om naast de voorwaardelijke berekening van MoE te werken.

Het mechanisme is eenvoudig. De module neemt reeksen van twee tot drie tokens en gebruikt hash-functies om ze te doorzoeken in een enorme inbeddingstabel. Het herstel vindt plaats in een constante tijd, ongeacht de grootte van de tabel.

Maar de opgehaalde modellen moeten worden gefilterd. Een hash-zoekopdracht naar ‘Apple’ kan niet-gerelateerde inhoud tegenkomen, of het woord kan de vrucht betekenen in plaats van het bedrijf. Engram lost dit probleem op met een controlemechanisme. Het huidige begrip van de context door het model (verzameld over voorgaande aandachtsniveaus) fungeert als een filter. Als het opgehaalde geheugen de huidige context tegenspreekt, onderdrukt de poort deze. Als hij past, laat het hek hem door.

Het formulier wordt niet op elk niveau toegepast. Strategische plaatsing brengt prestatiewinst in evenwicht met systeemlatentie.

Dit ontwerp met twee systemen roept een fundamentele vraag op: hoeveel capaciteit moet elk systeem krijgen? De belangrijkste bevinding van DeepSeek: de optimale verdeling is 75-80% voor rekenkracht en 20-25% voor geheugen. Uit tests bleek dat pure MoE (100% berekening) suboptimaal bleek te zijn. Te veel berekeningen verspillen diepte bij het reconstrueren van statische modellen; te veel geheugen zorgt ervoor dat u uw redeneervermogen verliest.

Infrastructuurefficiëntie: GPU-geheugenbypass

Misschien wel de meest pragmatische bijdrage van Engram is het infrastructuurbewuste ontwerp. In tegenstelling tot de dynamische routing van MoE, die afhankelijk is van verborgen toestanden tijdens runtime, zijn de ophaalindexen van Engram uitsluitend afhankelijk van invoertokenreeksen. Deze deterministische aard maakt een prefetch- en overlay-strategie mogelijk.

“De uitdaging is dat het GPU-geheugen beperkt en duur is, waardoor het gebruik van grotere modellen duur en moeilijk te implementeren wordt”, aldus Latimer. “Het slimme idee achter Engram is om het hoofdmodel op de GPU te houden, maar een groot deel van de opgeslagen informatie van het model over te zetten naar apart geheugen op regulier RAM, dat het model just-in-time kan gebruiken.”

Tijdens de inferentie kan het systeem via PCIe asynchroon insluitingen ophalen uit het CPU-geheugen van de host. Dit gebeurt terwijl de GPU de vorige transformatorblokken berekent. De strategische positionering van de lagen maakt gebruik van de berekening van de eerste lagen als buffers om de latentie van de communicatie te maskeren.

De onderzoekers demonstreerden dit met een parameterinbeddingstabel van 100 miljard die volledig naar de host-DRAM werd overgebracht. Zij behaalden doorvoerboetes van minder dan 3%. Deze ontkoppeling van opslag en rekenkracht lost een kritieke zakelijke beperking op, aangezien GPU-geheugen met hoge bandbreedte duur en schaars blijft.

Wat dit betekent voor de implementatie van AI in ondernemingen

Voor bedrijven die AI-infrastructuurstrategieën evalueren, suggereren de bevindingen van DeepSeek verschillende nuttige inzichten:

1. Hybride architecturen presteren beter dan pure benaderingen. De 75/25-allocatiewet geeft aan dat optimale modellen schaarse capaciteit moeten verdelen tussen rekenkracht en geheugen.

2. De infrastructuurkosten kunnen verschuiven van GPU naar geheugen. Als architecturen in Engram-stijl levensvatbaar blijken in de productie, kunnen de investeringspatronen in de infrastructuur veranderen. De mogelijkheid om met minimale overhead meer dan 100 miljard parameters in het CPU-geheugen op te slaan, suggereert dat geheugenrijke, gematigde computerconfiguraties betere prestaties per dollar kunnen leveren dan pure GPU-schaling.

3. Verbeteringen in het redeneren wegen zwaarder dan de winst in kennis. De verrassende bevinding dat redeneren meer voordelen oplevert dan het ophalen van kennis suggereert dat de waarde van geheugen verder reikt dan voor de hand liggende gebruiksscenario’s.

Voor bedrijven die de adoptie van AI stimuleren, laat Engram zien dat de volgende grens wellicht niet simpelweg grotere modellen zijn. Dit zijn slimmere architecturale keuzes die het fundamentele onderscheid tussen statische kennis en dynamisch redeneren respecteren. Uit onderzoek blijkt dat optimale AI-systemen steeds meer op hybride architecturen zullen gaan lijken.

Organisaties die AI later in de cyclus willen adopteren, moeten in de gaten houden of grote modelleveranciers principes van voorwaardelijk geheugen in hun architecturen integreren. Als de 75/25-allocatiewet op alle schaalniveaus en domeinen geldt, zou de volgende generatie funderingsmodellen substantieel betere redeneerprestaties kunnen bieden tegen lagere infrastructuurkosten.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in