Wanneer het internetserviceplatform Cloudflare een onderbreking gehad in november nam het een groot deel van de online wereld mee.
Grote platforms zoals ChatGPT, X en Canva zijn onbereikbaar geworden. Dat geldt ook voor de digitale diensten die worden aangeboden door talloze banken, detailhandelaren en vele andere bedrijven. Tijdens de zes uur durende ineenstorting, net zoveel 2,4 miljard gebruikers hadden de impact kunnen voelen.
Softwarestoringen als deze zijn altijd een onderdeel geweest en zullen altijd een onderdeel blijven van het online leven. Maar vandaag de dag zijn onze systemen meer met elkaar verbonden dan ooit, dus een enkele storing kan naar buiten toe ontstaan. NAAR DE het vergroot dat risico alleen maar.
Toch hebben te veel bedrijven nog steeds geen bescherming tegen dergelijke rampen. In een tijd waarin verstoringen onvermijdelijk zijn, opereren ze feitelijk zonder vangnet.
Het cruciale ontbrekende ingrediënt is iets eenvoudigs, maar gemakkelijk over het hoofd gezien: het testen van veerkracht.
Simpel gezegd gaat het testen van veerkracht over het testen van software, voordat er problemen optreden. Het zorgt ervoor dat systemen blijven functioneren, of snel herstellen als er iets misgaat.
Beschouw het testen van veerkracht als een kleine beveiligingsstap om grote problemen te voorkomen. De gemiddelde jaarlijkse kosten van een IT-storing met grote impact zijn ongeveer 76 miljoen dollar. Bedrijven kunnen ook reputatieschade oplopen, klanten verliezen en boetes opgelegd krijgen. Cloudflare is slechts een recent voorbeeld. Alleen al het afgelopen jaar AWS, Microsoft365EN Sterrenlink het ging allemaal mis, om er maar een paar te noemen.
Dus waarom testen niet meer bedrijven hun software om onvermijdelijke storingen te voorkomen? Hier leest u waarom en wat bedrijven eraan kunnen doen.
DE MEESTE BEDRIJVEN ZORGEN NIET OM HET TESTEN VAN DE VEERKRACHT
Hoe hoog de inzet ook is, bedrijven hebben redenen om het testen van de veerkracht van software te vermijden. Het proces is technisch en kan ingewikkeld worden.
Moderne veerkrachttesten, ook wel chaos-engineering genoemd, werden vijftien jaar geleden in de schijnwerpers gezet door softwareontwikkelaars van Netflix. Ze realiseerden zich dat de enige manier om veerkracht te testen het simuleren van problemen ‘in het wild’ of in de productie is, en creëerden een reeks gereedschappen waarbij netwerkcrashes, het instorten van cloudservices en andere echte mislukkingen werden gerepliceerd.
Netflix heeft misschien weerstand kunnen bieden, maar weinig andere bedrijven hebben de ervaring of de moed om hun systemen op deze manier in gevaar te brengen. Het is het equivalent van een gecontroleerde brand, zodat je zeker weet dat je over de middelen beschikt om de brand te blussen.
Het testen van veerkracht vereist technisch inzicht om te weten welke fouten moeten worden gesimuleerd en welke reacties moeten worden toegepast. Het doen van deze oefeningen brengt ook risico’s met zich mee, zoals het activeren van het sprinklersysteem in uw huis, waardoor uw meubels kapot kunnen gaan. Belangrijker nog is dat ontwikkelaars moeten weten wat ze moeten doen als tests zwakke punten aan het licht brengen.
Omdat de drempel voor het testen van veerkracht zo hoog is, is het bij de meeste bedrijven niet geïntegreerd in de softwareontwikkelingsprocessen. Er is zelden een toegewijd team en vaak is niemand, behalve misschien de CTO, duidelijk verantwoordelijk. Als gevolg hiervan wordt het testen van de veerkracht een knelpunt, zodat bedrijven zich er geen zorgen over hoeven te maken.
EEN BETERE WEG VOORUIT: DE HULP VAN AI
Het goede nieuws: het hoeft niet meer zo te zijn. Voor bedrijven die veerkrachttesten willen toepassen, maken nieuwe platforms en tools, aangedreven door kunstmatige intelligentie, het proces veiliger en eenvoudiger.
Gespecialiseerd middelen voor het testen van veerkracht ze stellen bedrijven nu in staat tests te automatiseren en optimaliseren, zonder de noodzaak van toegewijde experts of teams.
Ten eerste identificeert de AI-agent waarschijnlijke randgevallen, ongebruikelijke of onverwachte scenario’s die de betrouwbaarheid in gevaar kunnen brengen. Onderzoek het gedrag van systemen in de productie, hoe services samenwerken en waar vergelijkbare systemen eerder faalden.
De agent kan bijvoorbeeld een scenario benadrukken waarin een service vertraagt, in plaats van volledig mislukt. Nog een randgeval: het implementeren van code updatet slechts de helft van de servers van het bedrijf, wat leidt tot inconsistente gebruikerservaringen.
De agent genereert vervolgens de testgevallen waarvan de kans het grootst is dat ze veerkrachtproblemen aan het licht brengen en prioriteert deze, waarbij wordt uitgelegd waarom elk van deze gevallen belangrijk is. Het kan dergelijke tests ook opzetten en uitvoeren.
Zodra problemen zijn geïdentificeerd, stelt de AI-agent gerichte oplossingen voor, waardoor de software veerkrachtiger wordt. Zodra het zware werk achter de rug is, kunnen ontwikkelaars deze inzichten beoordelen en toepassen.
WAAROM HET TESTEN VAN DE VEERKRACHT NAAR LINKS MOET ZIJN
Het hebben van de juiste tools is één ding, maar voor het effectief testen van de veerkracht is meer nodig dan alleen software.
Het creëren van een cultuur van veerkracht is een deel van de oplossing. Softwareteams moeten testen in hun routine opnemen. Uiteindelijk is de enige manier om jezelf tegen mislukkingen te wapenen, het oefenen ermee. Als je deze oefeningen nooit doet, zul je nooit weten hoeveel erger de dingen kunnen worden, totdat het te laat is.
Ontwikkelaars moeten ook onthouden dat het testen van veerkracht niet alleen gaat over grootschalige uitval met vijf alarmen. Dit zijn ook kleine gedeeltelijke storingen die een onbevredigende gebruikerservaring voor klanten creëren, zonder noodzakelijkerwijs het hele systeem in gevaar te brengen.
Laten we zeggen dat een platform als Cloudflare een probleem heeft met de consumentenapp van een grote bank, waardoor miljoenen mensen hun saldo niet kunnen controleren. Het testen van veerkracht moet op dit probleem anticiperen en een werkbare oplossing bieden.
Maar de beste manier om een cultuur van veerkracht aan te moedigen is door ‘naar links te verschuiven’ en het testen van veerkracht naar de preproductiefase van softwareontwikkeling te verplaatsen, voordat de code wordt gepubliceerd.
Door naar links te verschuiven, kunnen teams pijnpunten opmerken lang voordat klanten ze voelen. Dit is van cruciaal belang bij de hedendaagse complexe, onderling verbonden softwaresystemen, waar ogenschijnlijk kleine problemen snel kunnen escaleren tot grote verstoringen. In plaats van zich te haasten om problemen tijdens realtime incidenten te diagnosticeren, kunnen ontwikkelaars deze in een veilige omgeving ontdekken en oplossen.
Naar links bewegen kan ook geld en stress besparen. Het oplossen van veerkrachtproblemen in de productie is kostbaar en ontwrichtend, en ontneemt teamleden vaak andere vitale taken. Door een proactieve aanpak te hanteren, kunnen ontwikkelaars en bedrijfsleiders meer vertrouwen hebben in het product dat zij aan klanten leveren.
Uiteindelijk is het testen van veerkracht geen rocket science. Bedrijven die brandoefeningen houden voor hun software en een cultuur omarmen waarin de veerkracht wordt getest, zullen zich in een sterkere positie bevinden wanneer de volgende verstoring plaatsvindt. En in een steeds meer onderling verbonden wereld, waar AI-tools en -mogelijkheden meer dan ooit afhankelijk zijn van onderliggende diensten, kunnen we gerust zeggen dat dit eerder vroeg dan laat zou kunnen gebeuren.
Jyoti Bansal is CEO van Harnas.


