In de nieuwe kaart Door het gebruik van tools bij Large Language Model (LLM)-agenten te bestuderen, hebben onderzoekers van Google en UC Santa Barbara een raamwerk ontwikkeld waarmee agenten efficiënter gebruik kunnen maken van tools en budgetten kunnen berekenen. De onderzoekers introduceren twee nieuwe technieken: een eenvoudige ‘Budget Tracker’ en een uitgebreider raamwerk genaamd ‘Budget Aware Test-time Scaling’. Deze technieken maken agenten expliciet bewust van hun resterende redenering en vermogen om tools te gebruiken.
Omdat AI-agenten afhankelijk zijn van tool-oproepen om in de echte wereld te kunnen werken, gaat het schalen van testtijden minder over slimmere modellen en meer over het beheersen van kosten en latentie.
Voor bedrijfsleiders en ontwikkelaars bieden budgetvriendelijke schaaltechnieken een praktisch pad om effectieve AI-agents in te zetten zonder te maken te krijgen met onvoorspelbare kosten of een afnemend rendement op computeruitgaven.
De uitdaging van het opschalen van het gebruik van tools
Traditioneel schaalbaarheid van de testtijd richt zich op het langer laten ‘denken’ van modellen. Voor agenttaken zoals surfen op het web bepaalt het aantal tooloproepen echter direct de diepte en breedte van de verkenning.
Dit brengt aanzienlijke operationele kosten met zich mee voor bedrijven. “Tooloproepen zoals webpaginanavigatie verbruiken meer tokens, vergroten de contextlengte en introduceren extra temporele latentie”, vertelden Zifeng Wang en Tengxiao Liu, co-auteurs van het artikel, aan VentureBeat. “De tool noemt zichzelf extra API-kosten.”
De onderzoekers ontdekten dat het eenvoudigweg geven van meer middelen aan agenten voor testtijd geen betere prestaties garandeert. “Als de agent bij een diepgaande zoekopdracht geen budgetgevoel heeft, duikt hij er vaak blind in”, legden Wang en Liu uit. “Zoek een enigszins gerelateerd spoor en besteed vervolgens 10 of 20 oproepen aan de tool om erin te graven, om vervolgens te beseffen dat het hele pad een doodlopende weg was.”
Optimalisatie van middelen met Budget Tracker
Om te evalueren hoe de budgetten voor het gebruik van de tools konden worden geoptimaliseerd, probeerden de onderzoekers eerst een lichtgewicht aanpak genaamd ‘Budget Tracker’. Deze module fungeert als een plug-in die de agent een continu signaal geeft over de beschikbaarheid van resources, waardoor een budgetbewust gebruik van de tool mogelijk wordt gemaakt.
Het team veronderstelde dat “het geven van expliciete budgetsignalen het model in staat stelt de beperkingen van de middelen te internaliseren en de strategie aan te passen zonder dat aanvullende training nodig is.”
Budget Tracker werkt puur op het niveau van tijdigheid, waardoor het eenvoudig te implementeren is. (Het document biedt volledige details over de instructies die voor Budget Tracker worden gebruikt, waardoor het eenvoudiger te implementeren is.)
In de implementatie van Google biedt de tracker een korte beleidsrichtlijn waarin budgetregimes worden beschreven en bijbehorende aanbevelingen voor het gebruik van de tools. In elke fase van het responsproces maakt Budget Tracker de agent expliciet bewust van het verbruik van hulpbronnen en het resterende budget, waardoor hij de volgende redeneerstappen kan bepalen op basis van de bijgewerkte staat van de hulpbronnen.
Om dit te testen experimenteerden de onderzoekers met twee paradigma’s: sequentiële schaling, waarbij het model iteratief zijn output verfijnt, en parallelle schaling, waarbij meerdere onafhankelijke runs worden uitgevoerd en geaggregeerd. Ze voerden experimenten uit met zoekagenten die waren uitgerust met zoek- en navigatiehulpmiddelen volgens een ReAct-achtige lus. ReAct (Reasoning + Acting) is een populaire methode waarbij het model afwisselt tussen intern denken en extern handelen. Om een echte schaaltrend op het gebied van kosten en prestaties te volgen, hebben ze een uniforme kostenstatistiek ontwikkeld die gezamenlijk rekening houdt met de kosten van zowel intern tokenverbruik als interacties met externe tools.
Ze testten Budget Tracker op drie QA-datasets voor het zoeken naar informatie waarvoor extern zoeken nodig was, waaronder BrowseComp en HLE-Search, met behulp van modellen zoals Tweeling 2.5 ProGemini 2.5 Flitser e Claude Sonnet4. Experimenten tonen aan dat deze eenvoudige plug-in de prestaties verbetert ondanks verschillende budgetbeperkingen.
“Het toevoegen van Budget Tracker resulteert in een vergelijkbare nauwkeurigheid met 40,4% minder zoekopdrachten, 19,9% minder navigatieoproepen en een verlaging van de totale kosten… met 31,3%”, vertelden de auteurs aan VentureBeat. Ten slotte bleef Budget Tracker groeien naarmate het budget toenam, terwijl het eenvoudige ReAct zich na een bepaalde drempel stabiliseerde.
BATS: Een uitgebreid raamwerk voor budgetbewuste schaalvergroting
Om de optimalisatie van hulpmiddelen bij het gebruik van tools verder te verbeteren, introduceerden onderzoekers Budget Aware Test-time Scaling (BATS), een raamwerk dat is ontworpen om de prestaties van agenten voor elk budget te maximaliseren. BATS houdt een continu signaal bij van de resterende hulpbronnen en gebruikt deze informatie om het gedrag van de agent dynamisch aan te passen terwijl hij zijn reactie formuleert.
BATS gebruikt meerdere modules om agentacties te orkestreren. Een planningsmodule past de inspanningen geleidelijk aan om binnen het huidige budget te passen, terwijl een verificatiemodule beslist of er “dieper moet worden gegraven” in een veelbelovende lead of moet worden “gepivot” naar alternatieve paden op basis van de beschikbaarheid van middelen.
Gegeven een vraag naar informatie en een budget voor het aanvragen van hulpmiddelen, begint BATS met het gebruik van de planningsmodule om een gestructureerd actieplan te formuleren en te beslissen welke hulpmiddelen moeten worden ingezet. Wanneer instrumenten worden aangeroepen, worden hun reacties toegevoegd aan de redeneervolgorde om de context van nieuw bewijsmateriaal te voorzien. Wanneer de agent een kandidaat-antwoord voorstelt, controleert de verificatiemodule dit en beslist of de huidige reeks moet worden voortgezet of een nieuwe poging moet worden gestart met het resterende budget.
Het iteratieve proces eindigt wanneer de gebudgetteerde middelen zijn uitgeput, op welk punt een LLM als rechter het beste antwoord selecteert uit alle geverifieerde antwoorden. Tijdens de uitvoering werkt de Budget Tracker bij elke iteratie voortdurend het resourcegebruik en het resterende budget bij.
De onderzoekers testten BATS op de BrowseComp-, BrowseComp-ZH- en HLE-Search-benchmarks met basislijnen, waaronder standaard ReAct en verschillende op training gebaseerde agenten. Uit hun experimenten blijkt dat BATS hogere prestaties behaalt door minder tool calls te gebruiken en lagere totale kosten te maken dan concurrerende methoden. Met Gemini 2.5 Pro als ruggengraat behaalde BATS een nauwkeurigheid van 24,6% op BrowseComp vergeleken met 12,6% voor standaard ReAct en 27,0% op HLE-Search vergeleken met 20,5% voor ReAct.
BATS verbetert niet alleen de effectiviteit onder budgetbeperkingen, maar maakt ook een betere afweging tussen kosten en prestaties mogelijk. Op de BrowseComp-dataset behaalde BATS bijvoorbeeld een hogere nauwkeurigheid tegen een kostprijs van ongeveer 23 cent vergeleken met een parallelle schaalbasislijn die meer dan 50 cent nodig had om een vergelijkbaar resultaat te bereiken.
Volgens de auteurs maakt deze efficiëntie voorheen dure workflows levensvatbaar. “Dit ontgrendelt een groot aantal data-intensieve zakelijke toepassingen met een lange horizon… zoals het onderhoud van complexe codebases, due diligence-onderzoeken, onderzoek naar het concurrentielandschap, compliance-audits en meerfasige documentanalyse”, zeggen ze.
Nu bedrijven agenten willen inzetten die hun middelen kunnen beheren, zal het vermogen om nauwkeurigheid en kosten in evenwicht te brengen een kritische ontwerpvereiste worden.
“Wij geloven dat de relatie tussen redeneren en economie onlosmakelijk met elkaar verbonden zal worden”, aldus Wang en Liu. “In de toekomst zullen (modellen) moeten nadenken over waarde.”



