Home Nieuws Rapidata komt naar voren om de ontwikkelingscycli van AI-modellen te verkorten van...

Rapidata komt naar voren om de ontwikkelingscycli van AI-modellen te verkorten van maanden naar dagen met bijna realtime RLHF

3
0
Rapidata komt naar voren om de ontwikkelingscycli van AI-modellen te verkorten van maanden naar dagen met bijna realtime RLHF

Ondanks het toenemende geroezemoes over een toekomst waarin veel menselijk werk wordt geautomatiseerd door kunstmatige intelligentie, is een van de ironieën van de huidige technologische hausse de koppigheid dat deze nog steeds afhankelijk is van mensen, met name het proces van het trainen van AI-modellen met behulp van Human Feedback Reinforcement Learning (RLHF).

In zijn eenvoudigste vorm is RLHF een begeleidingssysteem: nadat een AI is getraind op geselecteerde gegevens, blijft hij fouten maken of lijkt hij robotachtig. Menselijke contractanten worden vervolgens massaal ingehuurd door AI-laboratoria om de resultaten van een nieuw model tijdens de training te evalueren en te rangschikken, en het model leert van hun evaluaties en past zijn gedrag aan om beter beoordeelde resultaten te leveren. Dit proces is des te belangrijker naarmate AI zich uitbreidt en multimedia-uitvoer produceert, zoals video, audio en afbeeldingen, die genuanceerdere en subjectievere kwaliteitsmaatstaven kunnen hebben.

Historisch gezien is dit mentorschapsproces een enorme logistieke hoofdpijn en PR-nachtmerrie geweest voor AI-bedrijven, die afhankelijk zijn van gefragmenteerde netwerken van buitenlandse aannemers en statische tagging-pools in specifieke geografische hubs met lage inkomens. door de media als een laag salaris beschouwd – zelfs uitbuiting. Het is ook inefficiënt: AI-labs moeten weken of maanden wachten op een enkele batch feedback, waardoor de voortgang van het model wordt vertraagd.

Nu is er een nieuwe startup opgestaan ​​om het proces veel efficiënter te maken: SnelHet RLHF-platform ‘gamificeert’ dergelijke beoordelingstaken over de hele wereld effectief naar bijna 20 miljoen gebruikers van populaire apps, waaronder Duolingo of Candy Crush, in de vorm van korte, opt-in beoordelingstaken die ze kunnen voltooien in plaats van naar mobiele advertenties te kijken, waarbij de gegevens onmiddellijk naar een in opdracht gesteld AI-lab worden verzonden.

Zoals gedeeld met VentureBeat in een persbericht, stelt dit platform AI-laboratoria in staat om “modellen in bijna realtime te herhalen”, waardoor de ontwikkelingstijd aanzienlijk wordt verkort in vergelijking met traditionele methoden.

CEO en oprichter Jason Corkill zei in hetzelfde persbericht dat Rapidata “het menselijk oordeel beschikbaar maakt op mondiale schaal en in bijna realtime, waardoor een toekomst wordt ontgrendeld waarin AI-teams constante feedbackloops kunnen uitvoeren en systemen kunnen bouwen die elke dag evolueren in plaats van elke releasecyclus.”

Rapidata-oprichter en CEO Jason Corkill. Krediet: Rapidata

Rapidata beschouwt RLHF als een hogesnelheidsinfrastructuur en niet als een handarbeidsprobleem. Vandaag heeft het bedrijf ons exclusief op VentureBeat aangekondigd dat het een startronde van $8,5 miljoen lanceert, mede geleid door Canaan Partners en IA Ventures, met deelname van Acequia Capital en BlueYard, om zijn unieke benadering van on-demand menselijke data op te schalen.

Het cafégesprek dat een menselijke wolk bouwde

Het ontstaan ​​van Rapidata ontstond niet in een vergaderruimte, maar aan een tafel met een paar biertjes. Toen Corkill student was aan de ETH Zürich, waar hij werkte op het gebied van robotica en computer vision, toen hij tegen de muur aanliep waar elke AI-ingenieur vroeg of laat mee te maken krijgt: het knelpunt bij de data-annotatie.

“Concreet werk ik al een aantal jaren op het gebied van robotica, kunstmatige intelligentie en computervisie, ik heb aan de ETH hier in Zürich gestudeerd en ik ben altijd gefrustreerd geweest door het annoteren van gegevens”, herinnerde Corkill zich in een recent interview. “Als je annotatie van mensen of menselijke gegevens nodig had, was het alsof je project stopte, want tot die tijd kon je het draaiende houden door gewoon langere nachten te duren. Maar als je grootschalige menselijke annotatie nodig had, moest je naar iemand toe gaan en dan een paar weken wachten.”

Gefrustreerd door deze vertraging realiseerden Corkill en zijn medeoprichters zich dat het bestaande werkmodel voor kunstmatige intelligentie fundamenteel kapot was voor een wereld die zich met de snelheid van de moderne computer beweegt. Hoewel de verwerking exponentieel toeneemt, geldt dat voor de traditionele menselijke beroepsbevolking, beperkt door handmatige onboarding, regionale aanwervingen en langzame looncycli, niet. Rapidata is ontstaan ​​uit het idee dat menselijk oordeel kan worden verleend als een wereldwijd verspreide en vrijwel onmiddellijke dienst.

Technologie: vingerafdrukken omzetten in trainingsgegevens

De belangrijkste innovatie van Rapidata ligt in de distributiemethode. In plaats van fulltime annotators in specifieke regio’s in te huren, maakt Rapidata gebruik van de aandachtseconomie die bestaat in de wereld van mobiele apps. Door samen te werken met apps van derden, zoals Candy Crush of Duolingo, geeft Rapidata gebruikers de keuze: bekijk een traditionele advertentie of neem een ​​paar seconden de tijd om feedback te geven voor een AI-model.

“Aan gebruikers wordt gevraagd: ‘Hé, zou je liever, in plaats van naar advertenties te kijken en bedrijven die je ogen op die manier kopen, liever wat gegevens opschrijven en feedback geven?'” legde Corkill uit. Volgens Corkill kiest tussen 50% en 60% van de gebruikers voor feedbackactiviteit in plaats van een traditionele videoadvertentie.

Deze ‘crowd intelligence’-benadering stelt AI-teams in staat om op een ongekende schaal gebruik te maken van een diverse mondiale demografische groep.

  • Het mondiale netwerk: Rapidata bereikt momenteel tussen de 15 en 20 miljoen mensen.

  • Enorm parallellisme: Het platform kan in slechts één uur 1,5 miljoen menselijke annotaties verwerken.

  • Snelheid: Feedbackcycli die voorheen weken of maanden duurden, worden teruggebracht tot uren of zelfs minuten.

  • Kwaliteitscontrole: Het platform bouwt in de loop van de tijd profielen van vertrouwen en expertise op voor geïnterviewden, waardoor complexe vragen worden gekoppeld aan de meest relevante menselijke rechters.

  • Anonimiteit: Hoewel gebruikers worden gevolgd via geanonimiseerde ID’s om consistentie en betrouwbaarheid te garanderen, verzamelt Rapidata geen persoonlijke identiteiten, waardoor de privacy wordt gehandhaafd en de gegevenskwaliteit wordt geoptimaliseerd.

RLHF online: overschakelen naar GPU

De belangrijkste technologische sprong die Rapidata mogelijk maakt, is wat Corkill omschrijft als ‘RLHF online’. Traditioneel wordt AI getraind in niet-verbonden batches: je traint het model, stopt, stuurt gegevens naar mensen, wacht weken op labels en begint dan opnieuw. Hierdoor ontstaat een informatiekring waarin vaak nieuwe menselijke inbreng ontbreekt.

Rapidata verplaatst dit oordeel rechtstreeks naar de trainingscyclus. Omdat hun netwerk zo snel is, kunnen ze via API rechtstreeks integreren met de GPU’s waarop het model draait.

“We hadden altijd het idee van versterkend leren voor menselijke feedback… tot nu toe moest je het altijd in batch doen”, zei Corkill. “Als we nu helemaal naar beneden gaan, hebben we nu een aantal klanten waar we, omdat we zo snel zijn, direct, feitelijk in het proces kunnen zijn, zoals in de processor op de rechter GPU, en de GPU berekent wat output, en kan ons onmiddellijk op een gedistribueerde manier aanwijzingen geven. ‘Oh, ik heb, ik heb, ik heb een mens nodig om hiernaar te kijken.’ Ik krijg het antwoord en dan pas ik dat verlies toe, wat tot nu toe niet mogelijk is geweest.”

Momenteel ondersteunt het platform ongeveer 5.500 mensen per minuut door realtime feedback te geven aan modellen die op duizenden GPU’s draaien. Dit voorkomt ‘hacking van beloningsmodellen’, waarbij twee AI-modellen elkaar voor de gek houden in een feedbackloop, waarbij training wordt gebaseerd op daadwerkelijke menselijke nuances.

Product: Oplossingen gebaseerd op smaak en mondiale context

Nu AI verder gaat dan eenvoudige objectherkenning naar generatieve media, zijn de vereisten voor het labelen van gegevens geëvolueerd van objectieve tagging naar subjectieve, op smaak gebaseerde curatie. Het gaat niet langer alleen om “is dit een kat?” maar eerder “is deze TTS overtuigend?” of “welke van deze twee samenvattingen ziet er professioneler uit?”.

Lily Clifford, CEO van voice AI startup Rime, merkt op dat Rapidata transformatief is geweest voor het testen van modellen in de echte wereld. “Vroeger betekende het verzamelen van zinvolle feedback het samenvoegen van leveranciers en enquêtes, segment voor segment of land voor land, wat niet schaalbaar was”, aldus Clifford. Met behulp van Rapidata kan Rime de juiste doelgroepen bereiken, of het nu in Zweden, Servië of de Verenigde Staten is, en zien hoe modellen presteren in echte klantworkflows in dagen, in plaats van maanden.

“De meeste sjablonen zijn eigenlijk correct, maar ik weet zeker dat je e-mails hebt ontvangen die, weet je, niet authentiek lijken, toch?” Corkill merkte op. “Je kunt een AI-e-mail ruiken, je kunt een AI-afbeelding of -video ruiken, het wordt je duidelijk… deze modellen zien er nog steeds niet menselijk uit, en daarvoor heb je menselijke feedback nodig.”

Economische en operationele verandering

Operationeel is Rapidata gepositioneerd als een infrastructuurlaag die de noodzaak voor bedrijven elimineert om hun eigen aangepaste annotatiebewerkingen te beheren. Door een schaalbaar netwerk aan te bieden, verlaagt het bedrijf de toegangsdrempel voor AI-teams die voorheen worstelden met de kosten en complexiteit van traditionele feedbackloops.

Jared Newman van Canaan Partners, die de investering leidde, suggereert dat deze infrastructuur essentieel is voor de volgende generatie kunstmatige intelligentie. “Elke serieuze implementatie van AI is op een bepaald punt in de levenscyclus afhankelijk van menselijk oordeel”, zegt Newman. “Naarmate modellen overgaan van op ervaring gebaseerde taken naar op smaak gebaseerde curatie, zal de vraag naar schaalbare menselijke feedback dramatisch groeien.”

Een toekomst voor menselijk gebruik

Terwijl de huidige focus ligt op modellaboratoria in de Bay Area, ziet Corkill een toekomst waarin AI-modellen zelf belangrijke klanten van het menselijk oordeel worden. Hij noemt het ‘humaan gebruik’.

In deze visie zou de AI van een auto-ontwerper niet simpelweg een generiek voertuig genereren; het zou Rapidata programmatisch kunnen oproepen om 25.000 mensen op de Franse markt te vragen wat zij van een specifieke esthetiek vinden, die feedback te herhalen en het ontwerp binnen enkele uren te verfijnen.

“De maatschappij verandert voortdurend,” merkte Corkill op, waarmee hij inspeelde op de trend van het gebruik van kunstmatige intelligentie om menselijk gedrag te simuleren. “Als je nu een samenleving simuleert, zal de simulatie stabiel zijn en misschien een paar maanden de onze spiegelen, maar dan verandert het compleet, omdat de samenleving op een heel andere manier is veranderd en ontwikkeld.”

Door een gedistribueerde, programmatische manier te creëren om toegang te krijgen tot de menselijke hersencapaciteit over de hele wereld, positioneert Rapidata zichzelf als de essentiële verbinding tussen silicium en de samenleving. Met 8,5 miljoen dollar aan nieuwe financiering is het bedrijf van plan agressief op te treden om ervoor te zorgen dat naarmate AI groeit, het menselijke element niet langer een knelpunt is, maar een real-time mogelijkheid.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in