Wanneer uw gemiddelde dagelijkse tokengebruik 8 miljard per dag bedraagt, heeft u een grootschalig probleem. Dit was het geval bij AT&T, en datamanager Andy Markus en zijn team beseften dat het simpelweg niet haalbaar (of economisch) was om alles via grote redeneermodellen te pushen. Daarom hebben ze bij het bouwen van de interne persoonlijke assistent van Ask AT&T de orkestratielaag opnieuw opgebouwd. Het resultaat: een multi-agentstack gebouwd op LangChain, waarbij grote taalmodellen ‘superagenten’ kleinere onderliggende ‘werknemers’-agenten aansturen die beknopter en gerichter werk verrichten. Dit niveau van flexibele orkestratie heeft de latentie, snelheid en responstijden aanzienlijk verbeterd, vertelde Markus aan VentureBeat. Zijn team heeft met name kostenbesparingen tot wel 90% gerealiseerd. “Ik geloof dat de toekomst van agentische AI vele, vele, vele kleine taalmodellen (SLM’s) zijn”, zei hij. “Wij zijn van mening dat kleine taalmodellen net zo nauwkeurig, zo niet zo nauwkeurig, zijn als een groot taalmodel op een bepaald domeingebied.”
Recentelijk hebben Markus en zijn team deze opnieuw ontworpen stack gebruikt in combinatie met Microsoft Azure om Ask AT&T Workflows te bouwen en te implementeren, een grafische agentbouwer met slepen en neerzetten waarmee werknemers taken kunnen automatiseren.
De agenten komen uit een reeks eigen AT&T-tools die documentverwerking, conversie van natuurlijke taal naar SQL en beeldanalyse verzorgen. “Terwijl de workflow loopt, zijn het de gegevens van AT&T die de beslissingen bepalen”, aldus Markus. In plaats van brede vragen te stellen, “stellen we vragen over onze gegevens en gebruiken we onze gegevens om ervoor te zorgen dat zij zich op onze informatie concentreren wanneer zij beslissingen nemen.” Een mens houdt echter altijd toezicht op de ‘kettingreactie’ van de agenten. Alle acties van agenten worden vastgelegd, gegevens worden gedurende het hele proces geïsoleerd en op rollen gebaseerde toegang wordt afgedwongen wanneer agenten werklasten aan elkaar overdragen. “Dingen gebeuren autonoom, maar de mens in de loop zorgt nog steeds voor controle en balans in het hele proces”, aldus Markus.
Overbelast niet, gebruik ‘verwisselbare en selecteerbare’ modellen
AT&T hanteert geen ‘alles vanaf nul opbouwen’-mentaliteit, merkte Markus op; het is meer gebaseerd op modellen die “uitwisselbaar en selecteerbaar” zijn en “nooit een product reconstrueren”. Naarmate de functionaliteit in de hele sector volwassener wordt, zullen zelfgemaakte tools worden afgeschaft in plaats van standaardopties, legde hij uit. “Omdat in deze ruimte de dingen elke week veranderen, als we geluk hebben, soms meerdere keren per week,” zei hij. “We moeten verschillende componenten kunnen aansturen, verbinden en loskoppelen.” Ze maken “zeer rigoureuze” evaluaties van zowel de beschikbare opties als die van henzelf; Hun Ask Data with Relational Knowledge Graph stond bijvoorbeeld bovenaan de Spider 2.0-ranglijst voor tekstnauwkeurigheid in SQL, en andere tools scoorden hoog op de BERT SQL-benchmark. In het geval van interne agenttools gebruikt zijn team LangChain als het belangrijkste raamwerk, stemt de modellen af met RAG (standaard retrieval-augmented generatie) en andere interne algoritmen, en werkt nauw samen met Microsoft, waarbij gebruik wordt gemaakt van de zoekfunctionaliteit van de technologiegigant voor hun vectorarchief. Maar uiteindelijk is het belangrijk om AI of andere geavanceerde tools niet zomaar in alles te integreren, adviseerde Markus. ‘Soms maken we dingen te ingewikkeld’, zegt hij. “Soms heb ik een over-engineered oplossing gezien.” In plaats daarvan moeten bouwers zich afvragen of een bepaald hulpmiddel eigenlijk een middel moet zijn. Dit kunnen vragen zijn als: Welk nauwkeurigheidsniveau zou kunnen worden bereikt als het een eenvoudiger generatieve oplossing met één draai zou zijn? Hoe konden ze het in kleinere stukjes opsplitsen, waarbij elk stuk ‘veel nauwkeuriger’ kon worden afgeleverd?, zoals Markus zei. Nauwkeurigheid, kosten en reactievermogen van instrumenten moeten fundamentele beginselen zijn. “Ook al zijn de oplossingen ingewikkelder geworden, deze drie basisprincipes geven ons nog steeds veel richting”, zei hij.
Hoe 100.000 medewerkers het daadwerkelijk gebruiken
Ask AT&T Workflows is uitgebreid naar meer dan 100.000 medewerkers. Meer dan de helft zegt het elke dag te gebruiken, en actieve gebruikers melden productiviteitswinsten tot 90%, aldus Markus. “We kijken of ze het systeem herhaaldelijk gebruiken? Omdat doorzettingsvermogen een goede indicator is voor succes”, zei hij. De agentgenerator biedt “twee reizen” voor werknemers. Een daarvan is pro-code, waarbij gebruikers Python achter de schermen kunnen programmeren en de regels kunnen dicteren voor hoe agenten moeten werken. De andere is geen code, met een visuele interface met slepen en neerzetten voor “een vrij lichtgewicht gebruikerservaring”, zei Markus. Interessant genoeg neigen zelfs ervaren gebruikers naar de laatste optie. Bij een recente hackathon gericht op een technisch publiek kregen deelnemers de keuze tussen beide en koos ruim de helft voor low code. “Dit was een verrassing voor ons, omdat deze mensen allemaal zeer goed geïnformeerd waren over het programmeeraspect”, aldus Markus. Werknemers gebruiken agenten in verschillende functies; Een netwerkingenieur kan er bijvoorbeeld een aantal maken om op waarschuwingen te reageren en klanten opnieuw te verbinden wanneer de verbinding verloren gaat. In dit scenario kan een agent telemetriegegevens correleren om het netwerkprobleem en de locatie ervan te identificeren, wijzigingslogboeken op te halen en te controleren op bekende problemen. Vervolgens kunt u een probleemticket openen. Een andere agent zou dan manieren kunnen vinden om het probleem op te lossen en zelfs nieuwe code schrijven om het probleem op te lossen. Zodra het probleem is opgelost, kan een derde agent een samenvatting opstellen met preventieve maatregelen voor de toekomst. “De (menselijke) ingenieur zou alles overzien en ervoor zorgen dat de agenten zich zouden gedragen zoals verwacht en de juiste acties zouden ondernemen”, aldus Markus.
Codering aangedreven door AI is de toekomst
Diezelfde technische discipline – het opdelen van werk in kleinere, speciaal gebouwde stukken – hervormt nu de manier waarop AT&T zelf code schrijft, door middel van wat Markus ‘AI-aangedreven codering’ noemt. Hij vergeleek het proces met RAG; ontwikkelaars gebruiken agile codeermethoden in een geïntegreerde ontwikkelomgeving (IDE) samen met “feature-specifieke” build-archetypen die bepalen hoe de code moet interageren. De uitvoer is geen losse code; de code ligt “zeer dicht bij de productiekwaliteit” en zou die kwaliteit in een mum van tijd kunnen bereiken. “We hebben allemaal met vibe-codering gewerkt, waarbij we een code-editor van het agent-type hebben”, merkte Markus op. Maar door AI aangedreven codering “elimineert veel van de heen-en-weer-iteraties die je zou kunnen tegenkomen bij vibratiecodering.” Hij zegt dat deze codeertechniek de softwareontwikkelingscyclus ‘tastbaar herdefinieert’, waardoor de ontwikkelingstijdlijnen uiteindelijk worden verkort en de productie van productiecode wordt verhoogd. Zelfs niet-technische teams kunnen meedoen aan de actie en instructies in duidelijke taal gebruiken om softwareprototypes te maken. Zijn team gebruikte de techniek bijvoorbeeld om in twintig minuten een intern product van samengestelde data te creëren; zonder AI zou de bouw ervan zes weken hebben geduurd. “We ontwikkelen er software mee, we passen er software mee aan, we doen er data science mee, we doen er data-analyse mee, we doen er data-engineering mee”, aldus Markus. “Het is dus een gamechanger.”



