Home Nieuws Het nieuwe AI Infra-product van ScaleOps verlaagt de GPU-kosten met 50% voor...

Het nieuwe AI Infra-product van ScaleOps verlaagt de GPU-kosten met 50% voor zelfgehoste Enterprise LLM’s voor early adopters

7
0
Het nieuwe AI Infra-product van ScaleOps verlaagt de GPU-kosten met 50% voor zelfgehoste Enterprise LLM’s voor early adopters

ScaleOps heeft zijn cloud resource management-platform uitgebreid met een nieuw product gericht op bedrijven die zelfgehoste grote taalmodellen (LLM) en GPU-gebaseerde AI-applicaties beheren.

DE AI Infra-product vandaag aangekondigdbreidt de bestaande automatiseringsmogelijkheden van het bedrijf uit om tegemoet te komen aan de groeiende behoefte aan efficiënt GPU-gebruik, voorspelbare prestaties en verminderde operationele overhead bij grootschalige AI-implementaties.

Het bedrijf zegt dat het systeem al in bedrijfsproductieomgevingen draait en grote efficiëntiewinsten biedt voor early adopters, waardoor de GPU-kosten met tussen de 50% en 70% worden verlaagd. Het bedrijf maakt de zakelijke prijzen voor deze oplossing niet openbaar en nodigt in plaats daarvan geïnteresseerde klanten uit om een ​​offerte op maat te ontvangen op basis van de omvang en behoeften van hun bedrijf Hier.

Bij het uitleggen hoe het systeem presteert onder zware belasting, zei Yodar Shafrir, CEO en mede-oprichter van ScaleOps, in een e-mail aan VentureBeat dat het platform “proactieve en reactieve mechanismen gebruikt om plotselinge pieken op te vangen zonder de prestaties te beïnvloeden”, waarbij hij opmerkte dat het beleid voor optimalisatie van de werklast “automatisch de capaciteit beheert om bronnen beschikbaar te houden.”

Hij voegde eraan toe dat het minimaliseren van GPU-vertragingen bij koude start een prioriteit is, waarbij hij opmerkte dat het systeem “onmiddellijke reactie garandeert wanneer het verkeer toeneemt”, vooral voor AI-workloads waarbij de laadtijden van modellen aanzienlijk zijn.

Het uitbreiden van de automatisering van hulpbronnen naar de AI-infrastructuur

Bedrijven die zelfgehoste AI-modellen inzetten, worden geconfronteerd met prestatievariaties, lange laadtijden en aanhoudend ondergebruik van GPU-bronnen. ScaleOps heeft zijn nieuwe AI Infra-product gepositioneerd als een direct antwoord op deze problemen.

Het platform wijst GPU-bronnen in realtime toe en schaalt het en past zich aan veranderingen in de verkeersvraag aan zonder dat er wijzigingen nodig zijn in de bestaande modelimplementatiepijplijnen of applicatiecode.

Volgens ScaleOps beheert het systeem productieomgevingen voor organisaties als Wiz, DocuSign, Rubrik, Coupa, Alkami, Vantor, Grubhub, Island, Chewy en verschillende Fortune 500-bedrijven.

Het AI Infra-product introduceert op werklast gebaseerd schalingsbeleid dat de capaciteit proactief en reactief aanpast om de prestaties tijdens piekvraag te behouden. Het bedrijf zegt dat dit beleid de vertragingen bij koude start die gepaard gaan met het laden van grote AI-modellen vermindert, waardoor de responsiviteit verbetert wanneer het verkeer toeneemt.

Technische integratie en platformcompatibiliteit

Het product is ontworpen om compatibel te zijn met gangbare bedrijfsinfrastructuurmodellen. Het werkt in alle Kubernetes-implementaties, grote cloudplatforms, on-premises datacenters en air-gapped-omgevingen. ScaleOps benadrukte dat de implementatie geen codewijzigingen, herschrijvingen van de infrastructuur of wijzigingen aan bestaande manifesten vereist.

Shafrir zei dat het platform “naadloos integreert in bestaande modelimplementatiepijplijnen zonder dat code- of infrastructuurwijzigingen nodig zijn” en voegde eraan toe dat teams onmiddellijk kunnen beginnen met optimaliseren met bestaande GitOps-, CI/CD-, monitoring- en implementatietools.

Shafrir ging ook in op de manier waarop automatisering samenwerkt met bestaande systemen. Hij zei dat het platform werkt zonder workflows te onderbreken of in conflict te komen met aangepaste plannings- of schaallogica. Hij legt uit dat het systeem “geen manifesten of implementatielogica wijzigt” en in plaats daarvan planners, autoscalers en aangepast beleid verbetert door realtime operationele context op te nemen, terwijl de bestaande configuratiebeperkingen worden gerespecteerd.

Prestaties, zichtbaarheid en gebruikerscontrole

Het platform biedt volledig inzicht in GPU-gebruik, modelgedrag, prestatiestatistieken en schaalbeslissingen op meerdere niveaus, waaronder pods, workloads, knooppunten en clusters. Hoewel het systeem standaardbeleid voor het schalen van de werklast toepast, merkte ScaleOps op dat technische teams de mogelijkheid behouden om dit beleid indien nodig te verfijnen.

In wezen wil het bedrijf de handmatige afstemming die DevOps- en AIOps-teams doorgaans uitvoeren om AI-workloads te beheren, verminderen of elimineren. De installatie zal naar verwachting minimale inspanning vergen, door ScaleOps beschreven als een proces van twee minuten met behulp van een enkele roervlag, waarna optimalisatie via een enkele actie kan worden ingeschakeld.

Kostenbesparingen en business case studies

ScaleOps meldde dat vroege implementaties van zijn AI Infra-product GPU-kostenbesparingen van 50-70% in klantomgevingen hebben gerealiseerd. Het bedrijf noemde twee voorbeelden:

  • Een groot creatief softwarebedrijf dat duizenden GPU’s gebruikte, zag een gemiddeld gebruik van 20% voordat het ScaleOps adopteerde. Het product verhoogde het gebruik, consolideerde onderbenutte capaciteit en maakte het verkleinen van de GPU-knooppuntgrootte mogelijk. Deze veranderingen hebben de totale GPU-uitgaven met meer dan de helft verminderd. Het bedrijf rapporteerde ook een vermindering van 35% in de latentie voor belangrijke werklasten.

  • Een wereldwijd gamingbedrijf gebruikte het platform om een ​​dynamische LLM-werklast op honderden GPU’s te optimaliseren. Volgens ScaleOps verhoogde het product het gebruik met een factor zeven, terwijl de prestaties op serviceniveau behouden bleven. Alleen al door deze werklast verwachtte de klant een jaarlijkse besparing van $1,4 miljoen.

ScaleOps zei dat de verwachte GPU-besparingen doorgaans groter zijn dan de kosten van het adopteren en beheren van het platform, en dat klanten met beperkte infrastructuurbudgetten een snel rendement op hun investering hebben gemeld.

Sectorcontext en bedrijfsperspectief

De snelle acceptatie van zelf-gehoste AI-modellen heeft voor nieuwe operationele uitdagingen voor bedrijven gezorgd, met name op het gebied van GPU-efficiëntie en de complexiteit van het beheer van grootschalige werklasten. Shafrir beschreef het bredere landschap als een landschap waarin “de cloud-native AI-infrastructuur een breekpunt bereikt.”

“Cloud-native architecturen hebben grote flexibiliteit en controle mogelijk gemaakt, maar hebben ook een nieuw niveau van complexiteit geïntroduceerd”, zei hij in de aankondiging. “GPU-resourcebeheer op grote schaal is chaotisch geworden: verspilling, prestatieproblemen en torenhoge kosten zijn nu de norm. Het ScaleOps-platform is gemaakt om dit probleem op te lossen. Het biedt de complete oplossing voor het beheren en optimaliseren van GPU-bronnen in cloud-native omgevingen, waardoor bedrijven LLM- en AI-applicaties efficiënt en kosteneffectief kunnen uitvoeren en tegelijkertijd de prestaties kunnen verbeteren.”

Shafrir voegde eraan toe dat het product de volledige set cloudresourcebeheerfuncties samenbrengt die nodig zijn om diverse workloads op schaal te beheren. Het bedrijf heeft het platform gepositioneerd als een holistisch systeem voor continue en geautomatiseerde optimalisatie.

Een uniforme aanpak voor de toekomst

Met de toevoeging van het AI Infra-product wil ScaleOps een uniforme aanpak voor GPU- en AI-workloadbeheer tot stand brengen die integreert met de bestaande bedrijfsinfrastructuur.

Vroege platformprestatiestatistieken en gerapporteerde kostenbesparingen suggereren een focus op meetbare efficiëntieverbeteringen binnen het groeiende ecosysteem van zelfgehoste AI-implementaties.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in