Onderzoekers van Google en MIT hebben daartoe geleid uitputtende analyse van agentsystemen en de dynamiek tussen het aantal agenten, de coördinatiestructuur, de modelcapaciteit en de taakeigenschappen. Hoewel het heersende sentiment in de branche luidt: ‘meer agenten is alles wat je nodig hebt’, blijkt uit onderzoek dat het opschalen van agententeams geen gegarandeerd pad is naar betere prestaties.
Op basis van hun resultaten definieerden de onderzoekers een kwantitatief model dat de prestaties van een computer kan voorspellen agentisch systeem op een onzichtbare taak. Uit hun werk blijkt dat het toevoegen van meer agenten en hulpmiddelen als een tweesnijdend zwaard werkt: hoewel het de prestaties bij specifieke problemen kan verbeteren, introduceert het vaak onnodige overhead en afnemende opbrengsten voor anderen.
Deze bevindingen bieden een cruciale routekaart voor ontwikkelaars en zakelijke besluitvormers die proberen te bepalen wanneer complexe multi-agent architecturen moeten worden geïmplementeerd in plaats van eenvoudigere, kosteneffectievere single-agent oplossingen.
De staat van agentsystemen
Om de implicaties van het onderzoek te begrijpen, is het noodzakelijk onderscheid te maken tussen de twee belangrijkste architecturen die tegenwoordig worden gebruikt. Single-agentsystemen (SAS) worden gekenmerkt door een eenzame redeneerplaats. In deze configuratie vinden alle perceptie, planning en actie plaats binnen een enkele sequentiële lus die wordt bestuurd door een LLM-instantie, zelfs als het systeem gebruikmaakt van hulpmiddelen, zelfreflectie of gedachteketen-redenering (CoT). Een multi-agentsysteem (MAS) daarentegen bestaat uit meerdere door LLM ondersteunde agenten die communiceren via het gestructureerd doorgeven van berichten, gedeeld geheugen of georkestreerde protocollen.
Het bedrijfsleven heeft een toegenomen belangstelling voor MASgedreven door het uitgangspunt dat gespecialiseerde samenwerking consequent beter kan presteren dan systemen met één agent. Naarmate taken complexer worden en langdurige interactie met omgevingen vereisen (bijvoorbeeld codeerassistenten of robots voor financiële analyse), gaan ontwikkelaars er vaak van uit dat het verdelen van het werk tussen ‘gespecialiseerde’ agenten de beste aanpak is.
De onderzoekers beweren echter dat er ondanks deze snelle adoptie geen principieel kwantitatief raamwerk overblijft om te voorspellen wanneer het toevoegen van middelen de prestaties verbetert en wanneer het deze erodeert.
Een belangrijke bijdrage van het artikel is het onderscheid tussen ‘statische’ en ‘agentische’ taken. De onderzoekers pasten een ‘agent benchmark checklist’ toe om onderscheid te maken tussen taken die duurzame meerstapsinteracties, iteratieve informatieverzameling en adaptieve strategieverfijning vereisen, van taken waarvoor dat niet het geval is. Dit onderscheid is van vitaal belang omdat strategieën die werken voor het oplossen van statische problemen (zoals stemmen op een codeerquiz) vaak mislukken wanneer ze worden toegepast op echte taken waarbij ‘coördinatie-overhead’ en ‘voortplanting van fouten’ zich tijdens het probleemoplossingsproces kunnen verspreiden.
Test de grenzen van samenwerking
Om de specifieke effecten van de systeemarchitectuur te isoleren, ontwierpen de onderzoekers een rigoureus experimenteel raamwerk. Ze testten 180 unieke configuraties met vijf verschillende architecturen, drie LLM-families (OpenAI, Google en Anthropic) en vier agentbenchmarks. De architecturen omvatten een controlegroep met één agent en vier varianten met meerdere agenten: onafhankelijk (parallelle agenten zonder communicatie), gecentraliseerd (agenten die rapporteren aan een orkestrator), gedecentraliseerd (peer-to-peer-discussie) en hybride (een mix van hiërarchie en peer-communicatie).
Het onderzoek was bedoeld om ‘implementatieverwarringen’ te elimineren door tools, tijdsbestekken en symbolische budgetten te standaardiseren. Dit zorgde ervoor dat als een systeem met meerdere agenten beter presteerde dan een enkele agent, de winst kon worden toegeschreven aan de coördinatiestructuur in plaats van aan de toegang tot betere tools of meer computerbronnen.
De bevindingen dagen het ‘meer is beter’-verhaal uit. Uit de evaluatie blijkt dat de effectiviteit van multi-agentsystemen wordt bepaald door “kwantificeerbare afwegingen tussen architecturale eigenschappen en taakkenmerken.” De onderzoekers identificeerden drie dominante patronen die deze bevindingen aandrijven:
Compromis tussen coördinatie van instrumenten: Met vaste rekenbudgetten hebben multi-agentsystemen last van contextfragmentatie. Wanneer een rekenbudget over meerdere agenten wordt verdeeld, houdt elke agent onvoldoende capaciteit over voor toolorkestratie, vergeleken met een enkele agent die een uniforme geheugenstroom onderhoudt.
Als gevolg hiervan daalt in omgevingen met een groot aantal tools, met meer dan 10 tools, de efficiëntie van multi-agentsystemen dramatisch. De onderzoeker ontdekte dat taken waarvoor veel tools nodig zijn, een twee tot zes keer lagere efficiëntie ervaren bij het gebruik van multi-agentsystemen vergeleken met single-agentsystemen. De eenvoudigere architecturen worden paradoxaal genoeg effectiever omdat ze de overbelasting van de coördinatie vermijden die verergert door de complexiteit van de omgeving.
Capaciteitsverzadiging: De gegevens wezen op een empirische nauwkeurigheidsdrempel van ongeveer 45% voor de prestaties van één agent. Zodra de basislijn van een enkele agent dit niveau overschrijdt, levert het toevoegen van meer agenten doorgaans afnemende of negatieve rendementen op.
Co-auteur Xin Liu, een Google-onderzoeker en co-auteur van het artikel, merkte echter een cruciale nuance op voor zakelijke gebruikers. “Bedrijven moeten in beide investeren (single-agent- en multi-agent-systemen)”, vertelde hij aan VentureBeat. “Betere basismodellen verhogen de basislijn, maar voor taken met natuurlijke afbreekbaarheid en parallellisatiepotentieel (zoals onze Finance Agent-benchmark met een verbetering van +80,9%) blijft coördinatie tussen meerdere agenten substantiële waarde bieden, ongeacht de modelcapaciteiten.”
Topologie-afhankelijke fout: De structuur van het agententeam bepaalt of fouten worden gecorrigeerd of vermenigvuldigd. In ‘onafhankelijke’ systemen waarin agenten parallel werken zonder te communiceren, werden de fouten 17,2 keer groter dan in de basislijn met één agent. Gecentraliseerde architecturen beperkten deze versterking daarentegen tot 4,4 keer.
“De belangrijkste onderscheidende factor is het hebben van een speciaal validatieknelpunt dat fouten opspoort voordat ze zich verspreiden naar de uiteindelijke output”, zegt hoofdauteur Yubin Kim, een doctoraatsstudent aan het MIT. “Voor logische tegenstrijdigheden verlaagt ‘gecentraliseerd’ het basispercentage… (met) 36,4%… Voor fouten in verband met weglatingen in de context verlaagt ‘gecentraliseerd’… (met) 66,8%.”
Nuttige informatie voor zakelijke implementatie
Voor ontwikkelaars en bedrijfsleiders bieden deze bevindingen specifieke richtlijnen voor het bouwen van efficiëntere AI-systemen.
-
De regel van “sequentialiteit”: Voordat u een team van agenten samenstelt, analyseert u de afhankelijkheidsstructuur van uw bedrijf. De sterkste voorspeller van het falen van meerdere agenten zijn strikt opeenvolgende taken. Als Fase B volledig afhankelijk is van de perfecte uitvoering van Fase A, is een single-agent systeem waarschijnlijk de beste keuze. In deze scenario’s stapelen de fouten zich op in plaats van dat ze worden opgeheven. Integendeel, als de taak parallel of ontleedbaar is (bijvoorbeeld het tegelijkertijd analyseren van drie verschillende financiële rapporten), bieden multi-agentsystemen enorme voordelen.
-
Repareer niet wat niet kapot is: Bedrijven moeten altijd eerst vergelijken met één enkele agent. Als een systeem met één agent een succespercentage van meer dan 45% behaalt voor een specifieke taak die niet gemakkelijk kan worden opgesplitst, zal het toevoegen van meer agenten waarschijnlijk de prestaties verslechteren en de kosten verhogen zonder waarde te bieden.
-
Tel uw API’s: Wees uiterst voorzichtig bij het toepassen van multi-agentsystemen op taken waarvoor veel verschillende tools nodig zijn. Het verdelen van het tokenbudget over meerdere agenten fragmenteert hun geheugen en context. “Voor zware integraties met meer dan ongeveer tien tools hebben systemen met één agent waarschijnlijk de voorkeur”, zei Kim, en merkte op dat uit het onderzoek in deze scenario’s een “twee- tot zesvoudige efficiëntiestraf” werd waargenomen voor varianten met meerdere agenten.
-
Pas de topologie aan het doel aan: Als een multi-agentsysteem nodig is, moet de topologie overeenkomen met de specifieke doelstelling. Voor taken die een hoge nauwkeurigheid en precisie vereisen, zoals financiën of coderen, is gecentraliseerde coördinatie superieur omdat de orkestrator het noodzakelijke verificatieniveau biedt. Voor taken die verkenning vereisen, zoals dynamisch surfen op het web, blinkt gedecentraliseerde coördinatie uit doordat agenten verschillende paden tegelijkertijd kunnen verkennen.
-
De “Regel van 4”: Hoewel het verleidelijk kan zijn om enorme zwermen te bouwen, blijkt uit het onderzoek dat de effectieve teamgrootte momenteel beperkt is tot ongeveer drie of vier agenten. “De limiet van drie of vier agenten die we identificeren, komt voort uit meetbare beperkte middelen”, zei Kim. Bovendien groeit de communicatieoverhead superlineair (met name met een exponent van 1,724), wat betekent dat de kosten van coördinatie snel de waarde van de toegevoegde redenering overschrijden.
Vooruitkijkend: de bandbreedtelimiet overwinnen
Hoewel de huidige architecturen een limiet bereiken in het geval van kleine teams, is dit waarschijnlijk eerder een beperking van de huidige protocollen dan een fundamentele beperking van AI. De feitelijke beperking van systemen met meerdere agenten komt voort uit het feit dat agenten momenteel op een compacte en hulpbronnenintensieve manier communiceren.
“Wij geloven dat dit een huidige beperking is, en geen permanente beperking”, zei Kim, wijzend op enkele belangrijke innovaties die het potentieel van grootschalige samenwerking tussen agenten kunnen ontsluiten:
Schaarse communicatieprotocollen: “Uit onze gegevens blijkt dat de berichtendichtheid verzadigt op ongeveer 0,39 berichten per dienst, waarna extra berichten redundantie toevoegen in plaats van nieuwe informatie. Slimmere routering zou de overhead kunnen verminderen”, zei hij.
Hiërarchische uitsplitsing: In plaats van eenvoudige zwermen van 100 agenten zouden geneste coördinatiestructuren de communicatiegrafiek kunnen verdelen.
Asynchrone coördinatie: “Onze experimenten maakten gebruik van synchrone protocollen, en asynchrone ontwerpen konden de blokkeringsoverhead verminderen”, zei hij.
Capaciteitsbewuste routering: “Onze heterogeniteitsexperimenten suggereren dat het strategisch mixen van modelmogelijkheden de efficiëntie kan verbeteren,” zei Kim
Dit is iets om naar uit te kijken in 2026. Tot die tijd zijn de gegevens voor de enterprise architect duidelijk: de kleinere, slimmere, meer gestructureerde teams winnen.

