De afgelopen twee jaar was ‘voltooiing’ de fundamentele eenheid van generatieve AI-ontwikkeling.
U stuurt een sms naar een model, deze retourneert de tekst en de transactie eindigt. Als je het gesprek wilt voortzetten, moet je de hele geschiedenis terugsturen naar het model. Deze ‘staatloze’ architectuur, belichaamd door de erfenis van Google generateContent eindpunt: Dit was perfect voor eenvoudige chatbots. Maar nu ontwikkelaars steeds meer richting autonome agenten gaan die tools gebruiken, complexe toestanden in stand houden en nadenken over de lange termijnhorizon, is dat staatloze model een voor de hand liggend knelpunt geworden.
Vorige week heeft Google DeepMind deze infrastructuurkloof eindelijk aangepakt met de Lancering van de openbare bèta van Interactions API (/interactions).
Terwijl OpenAI begon deze verschuiving in maart 2025 met zijn Responses APIDe inzending van Google geeft blijk van haar inspanningen om de stand van de techniek te bevorderen. De Interactions API is niet alleen een hulpmiddel voor statusbeheer; is een uniforme interface die is ontworpen om LLM’s minder als tekstgeneratoren en meer als externe besturingssystemen te behandelen.
Het ‘remote computing’-model.
De belangrijkste innovatie van de Interactions API is de introductie van de status aan de serverzijde als standaardgedrag.
Voorheen moest een ontwikkelaar die een complexe agent bouwde elke ronde handmatig een steeds groter wordende JSON-lijst van “gebruiker” en “model” beheren, waarbij bij elk verzoek megabytes aan geschiedenis heen en weer werden gestuurd. Met de nieuwe API geven ontwikkelaars eenvoudigweg een bestand door previous_interaction_id. De infrastructuur van Google slaat de gespreksgeschiedenis, toolresultaten en ‘denkprocessen’ op.
“Modellen worden systemen en kunnen na verloop van tijd zelfs zelf agenten worden”, schreven Ali Çevik en Philipp Schmid van DeepMind in een officiële verklaring. blogartikel op het nieuwe paradigma. “Proberen deze mogelijkheden te forceren generateContent zou een te complexe en kwetsbare API hebben opgeleverd.”
Deze verandering maakt uitvoering op de achtergrond mogelijk, een belangrijk kenmerk in het tijdperk van agenten. Complexe workflows, zoals een uur surfen op internet om een rapport samen te vatten, veroorzaken vaak HTTP-time-outs in standaard API’s. Met de Interactions API kunnen ontwikkelaars een agent activeren background=true, uitloggen en later het resultaat opvragen. Het verandert de API effectief in een werkwachtrij voor intelligentie.
Native “Deep Research” en MCP-ondersteuning
Google gebruikt deze nieuwe infrastructuur om zijn eerste geïntegreerde agent te leveren: Gemini Deep Research.
Bereikbaar via hetzelfde /interactions eindpunt is deze agent in staat om “zoektaken met een lange horizon” uit te voeren. In tegenstelling tot een standaardmodel dat het volgende token voorspelt op basis van het verzoek, voert de Deep Research-agent een cyclus van opzoeken, lezen en synthese uit.
Cruciaal is dat Google ook het open ecosysteem omarmt door native ondersteuning toe te voegen voor het Model Context Protocol (MCP). Hierdoor kunnen Gemini-modellen rechtstreeks externe tools aanroepen die op externe servers worden gehost, zoals een weerdienst of database, zonder dat de ontwikkelaar aangepaste lijmcode hoeft te schrijven om de toolaanroepen te parseren.
Het landschap: Google sluit zich aan bij OpenAI in het ‘Stateful’-tijdperk.
Google speelt waarschijnlijk een inhaalslag, maar met een duidelijke filosofische draai. OpenAI heeft negen maanden geleden de staatloosheid verlaten met de Responses API wordt gelanceerd in maart 2025.
Terwijl beide giganten het probleem van de context-bloat oplossen, lopen hun oplossingen uiteen op het gebied van transparantie:
OpenAI (de compressiebenadering): OpenAI’s Responses API introduceerde compactie, een functie die de gespreksgeschiedenis verkort door de uitvoer van tools en redeneerketens te vervangen door ondoorzichtige ‘gecodeerde compactie-elementen’. Dit geeft prioriteit aan de efficiëntie van het token, maar creëert een ‘zwarte doos’ waarin de eerdere redenering van het model voor de ontwikkelaar verborgen blijft.
Google (de gehoste aanpak): De Interactions API van Google zorgt ervoor dat uw volledige geschiedenis beschikbaar en samen te stellen is. Met het datamodel kunnen ontwikkelaars “geïnterlinieerde berichten debuggen, manipuleren, streamen en redeneren”. Geeft prioriteit aan inspectiebaarheid boven compressie.
Ondersteunde modellen en beschikbaarheid
De Interactions API bevindt zich momenteel in de publieke bètafase (documentatie hier) en is onmiddellijk beschikbaar via Google AI Studio. Het ondersteunt het volledige scala aan Google-sjablonen van de nieuwste generatie, zodat ontwikkelaars de juiste sjabloongrootte kunnen afstemmen op hun specifieke agenttaak:
-
Tweeling 3.0: Gemini 3 Pro-voorbeeld.
-
Tweeling 2.5: Flash, Flash-lite en Pro.
-
Agenten: Uitgebreid zoekvoorbeeld (
deep-research-pro-preview-12-2025).
Commercieel gezien kan de API worden geïntegreerd in de bestaande prijsstructuur van Google: u betaalt standaardtarieven voor invoer- en uitvoertokens op basis van het model dat u selecteert. De waardepropositie verandert echter met nieuw beleid voor het bewaren van gegevens. Omdat deze API stateful is, moet Google de geschiedenis van uw interacties opslaan om functies zoals impliciete caching en het ophalen van context mogelijk te maken.
De toegang tot deze opslagruimte wordt bepaald door uw niveau. Free-tier-ontwikkelaars zijn beperkt tot een bewaarbeleid van één dag, wat geschikt is voor tijdelijke tests, maar onvoldoende voor agentgeheugen op de lange termijn.
Ontwikkelaars op het betaalde niveau ontgrendelen een retentiebeleid van 55 dagen. Deze verlengde retentie is niet alleen bedoeld voor controle; Verlaagt effectief de totale eigendomskosten door het maximaliseren van cachehits. Door de geschiedenis bijna twee maanden ‘live’ op de server te houden, vermijdt u dat u moet betalen voor het opnieuw verwerken van enorme contextvensters voor terugkerende gebruikers, waardoor de betaalde laag aanzienlijk efficiënter wordt voor productieagenten.
Opmerking: aangezien dit een bètaversie is, heeft Google aangegeven dat functies en schema’s aan grote veranderingen onderhevig zijn.
“Je communiceert met een systeem”
Sam Witteveen, Google’s senior machine learning-ontwikkelaar en CEO van Red Dragon AI, ziet deze release als een noodzakelijke evolutie van de ontwikkelaarsstapel.
“Als we teruggaan in de geschiedenis… was het idee simpelweg om tekst in te voegen en te verwijderen”, merkte Witteveen op in een technische analyse van de release op YouTube. “Maar nu… heb je interactie met een systeem. Een systeem dat meerdere modellen kan gebruiken, meerdere aanroeplussen kan uitvoeren, tools kan gebruiken en code op de backend kan uitvoeren.”
Witteveen benadrukte het directe economische voordeel van deze architectuur: impliciete caching. Omdat de gespreksgeschiedenis zich op de servers van Google bevindt, hoeven ontwikkelaars geen kosten te betalen voor het herhaaldelijk opnieuw laden van dezelfde context. “Je hoeft niet zoveel te betalen voor de tokens die je belt”, legde hij uit.
De release is echter niet zonder wrijving. Witteveen had kritiek op de huidige implementatie van het Deep Research-citatiesysteem voor agenten. Hoewel de agent bronnen levert, zijn de geretourneerde URL’s vaak verpakt in interne Google/Vertex AI-omleidingslinks in plaats van onbewerkte, bruikbare URL’s.
“Mijn grootste klacht is dat… deze URL’s, als ik ze opsla en probeer ze in een andere sessie te gebruiken, ze niet zullen werken”, waarschuwde Witteveen. “Als ik een rapport wil maken voor iemand met citaten, wil ik dat ze op de URL’s van een pdf-bestand kunnen klikken… Iets als medium.com als citatie (zonder de directe link) is niet erg goed.”
Wat betekent dit voor jouw team
Voor toonaangevende AI-ingenieurs die zich richten op snelle implementatie en modelafstemming, biedt deze release een directe architecturale oplossing voor het hardnekkige ‘time-out’-probleem: uitvoering op de achtergrond.
In plaats van complexe asynchrone handlers te maken of afzonderlijke taakwachtrijen te beheren voor langlopende redeneringstaken, kunt u deze complexiteit nu rechtstreeks naar Google overbrengen. Dit gemak brengt echter een strategische afweging met zich mee.
Hoewel de nieuwe Deep Research-agent de snelle inzet van geavanceerde zoekmogelijkheden mogelijk maakt, functioneert deze als een ‘black box’ vergeleken met aangepaste LangChain- of LangGraph-streams. Ingenieurs moeten met behulp van het bestand een prototype maken van een ‘langzaam denken’-functie background=true parameter om te evalueren of de implementatiesnelheid groter is dan het verlies van gedetailleerde controle over de zoekcyclus.
Senior ingenieurs die de AI-orkestratie en het budget beheren, zullen merken dat het overschakelen naar de server-side-status gebeurt via previous_interaction_id ontgrendelt impliciete caching, een belangrijk voordeel voor zowel kosten- als latentiestatistieken.
Door te verwijzen naar de geschiedenis die is opgeslagen op de servers van Google, vermijdt u automatisch de tokenkosten die gepaard gaan met het opnieuw laden van grote contextvensters, waardoor budgetbeperkingen direct worden aangepakt terwijl de hoge prestaties behouden blijven.
De uitdaging ligt hier in de supply chain; De integratie van Remote MCP (Model Context Protocol) betekent dat uw agenten rechtstreeks verbinding maken met externe tools, waardoor u rigoureus moet valideren dat deze externe services veilig en geverifieerd zijn. Het is tijd om uw huidige gespreksgeschiedenis voor het opnieuw verzenden van tokens te controleren. Als deze hoog zijn, kan het geven van prioriteit aan een migratie naar de Stateful Interactions API aanzienlijke besparingen opleveren.
Voor Senior Data Engineers biedt de Interactions API een robuuster datamodel dan ruwe tekstlogboeken. Het gestructureerde schema maakt foutopsporing en redenering over complexe geschiedenissen mogelijk, waardoor de algehele gegevensintegriteit in pijplijnen wordt verbeterd. We moeten echter waakzaam blijven over de kwaliteit van de gegevens, met name over de kwestie die expert Sam Witteveen met betrekking tot citaties naar voren bracht.
De Deep Research-agent retourneert momenteel ‘verpakte’ URL’s die kunnen verlopen of kapot gaan, in plaats van onbewerkte bronlinks. Als uw pijplijnen afhankelijk zijn van het schrapen of archiveren van deze bronnen, moet u mogelijk een opschoonstap maken om bruikbare URL’s te extraheren. U moet ook de gestructureerde uitvoerfuncties testen (response_format) om te zien of ze de kwetsbare regex-parsing in de huidige ETL-pijplijnen kunnen vervangen.
Ten slotte is het voor IT-beveiligingsdirecteuren een paradox om de status naar de gecentraliseerde servers van Google te verplaatsen. Het kan de beveiliging verbeteren door API-sleutels en gespreksgeschiedenis uit de buurt van clientapparaten te houden, maar introduceert een nieuw risico op gegevenslocatie. De belangrijkste controle hier is het beleid voor het bewaren van gegevens van Google: terwijl het gratis niveau slechts één dag gegevens bewaart, bewaart het betaalde niveau de interactiegeschiedenis gedurende 55 dagen.
Dit staat in contrast met OpenAI’s “Zero Data Retention” (ZDR) bedrijfsopties. Het is noodzakelijk om ervoor te zorgen dat de opslag van vertrouwelijke gespreksgeschiedenis gedurende bijna twee maanden in overeenstemming is met de interne governance. Als dit in strijd is met uw beleid, moet u bellen met store=falsehoewel dit de stateful functies en kostenvoordelen zal uitschakelen die deze nieuwe API waardevol maken.



