Home Nieuws Microsoft’s Fara-7B is een computer-AI-agent die kan wedijveren met GPT-4o en rechtstreeks...

Microsoft’s Fara-7B is een computer-AI-agent die kan wedijveren met GPT-4o en rechtstreeks op uw pc draait

12
0
Microsoft’s Fara-7B is een computer-AI-agent die kan wedijveren met GPT-4o en rechtstreeks op uw pc draait

Microsoft geïntroduceerd Fara-7B, een nieuw model met 7 miljard parameters ontworpen om te fungeren als een Computer Use Agent (CUA) die complexe taken rechtstreeks op het apparaat van de gebruiker kan uitvoeren. Fara-7B biedt nieuwe state-of-the-art prestaties voor zijn omvang en biedt een manier om AI-agents te bouwen die niet afhankelijk zijn van enorme, cloud-afhankelijke modellen en kunnen draaien op compacte systemen met lagere latentie en verbeterde privacy.

Hoewel het model een experimentele versie is, pakt de architectuur een van de belangrijkste belemmeringen voor de acceptatie door ondernemingen aan: gegevensbeveiliging. Omdat Fara-7B klein genoeg is om lokaal te draaien, kunnen gebruikers gevoelige workflows automatiseren, zoals het beheren van interne accounts of het verwerken van gevoelige bedrijfsgegevens, zonder dat die informatie ooit het apparaat verlaat.

Hoe Fara-7B het web ziet

Fara-7B is ontworpen om door gebruikersinterfaces te navigeren met dezelfde hulpmiddelen die een mens gebruikt: muis en toetsenbord. Het model werkt door een webpagina visueel waar te nemen via schermafbeeldingen en door specifieke coördinaten te voorspellen voor acties zoals klikken, typen en scrollen.

Cruciaal is dat Fara-7B niet vertrouwt op ’toegankelijkheidsbomen’, de onderliggende codestructuur die browsers gebruiken om webpagina’s aan schermlezers te beschrijven. In plaats daarvan vertrouwt het uitsluitend op visuele gegevens op pixelniveau. Met deze aanpak kan de agent communiceren met websites, zelfs als de onderliggende code onduidelijk of complex is.

Volgens Yash Lara, Senior PM Lead bij Microsoft Research, zorgt het verwerken van alle visuele input op het apparaat voor echte ‘pixelsoevereiniteit’, omdat schermafbeeldingen en de redenering die nodig is voor automatisering op het apparaat van de gebruiker blijven staan. “Deze aanpak helpt organisaties te voldoen aan strenge eisen in gereguleerde sectoren, waaronder HIPAA en GLBA”, vertelde hij in schriftelijke commentaren aan VentureBeat.

Bij benchmarkingtests leverde deze visuele aanpak uitstekende resultaten op. OP WebVoyagerAls standaardbenchmark voor webagenten behaalde Fara-7B een taaksuccespercentage van 73,5%. Dit overtreft grotere, meer resource-intensieve systemen, inclusief GPT-4otoen hem werd gevraagd om op te treden als computergebruiksagent (65,1%) en het native UI-TARS-1.5-7B-model (66,4%).

Efficiëntie is een andere belangrijke onderscheidende factor. In vergelijkende tests voltooide de Fara-7B taken in gemiddeld ongeveer 16 stappen, vergeleken met ongeveer 41 stappen voor het UI-TARS-1.5-7B-model.

Beheer risico’s

De transitie naar autonome agenten is echter niet zonder risico’s. Microsoft merkt op dat Fara-7B beperkingen deelt die ook bij andere AI-modellen voorkomen, waaronder mogelijke hallucinaties, het niet opvolgen van complexe instructies en verslechtering van de nauwkeurigheid bij complexe taken.

Om deze risico’s te beperken, werd het model getraind om ‘hotspots’ te herkennen. Een hotspot wordt gedefinieerd als elke situatie waarbij de persoonlijke gegevens of toestemming van een gebruiker vereist zijn voordat een onomkeerbare actie plaatsvindt, zoals het verzenden van een e-mail of het voltooien van een financiële transactie. Zodra dit moment is bereikt, is Fara-7B ontworpen om te pauzeren en expliciet om toestemming van de gebruiker te vragen voordat verder wordt gegaan.

Het beheren van deze interactie zonder de gebruiker te frustreren is een belangrijke ontwerpuitdaging. “Het balanceren van robuuste beveiligingen zoals hotspots met naadloze gebruikerstrajecten is van cruciaal belang”, zegt Lara. “Het hebben van een gebruikersinterface, zoals de Magentic-UI van Microsoft Research, is van cruciaal belang om gebruikers de kans te geven actie te ondernemen wanneer dat nodig is, en tegelijkertijd goedkeuringsmoeheid te voorkomen.” Magnetische gebruikersinterface is een onderzoeksprototype dat speciaal is ontworpen om deze interacties tussen mens en agent te vergemakkelijken. Fara-7B is ontworpen om te draaien in Magnetic-UI.

Destilleer complexiteit in één enkel model

De ontwikkeling van Fara-7B benadrukt een groeiende trend distillatie van kenniswaarbij de mogelijkheden van een complex systeem worden gecomprimeerd tot een kleiner, efficiënter model.

Voor het maken van een CUA zijn doorgaans enorme hoeveelheden trainingsgegevens nodig die laten zien hoe u op internet kunt navigeren. Het verzamelen van deze gegevens via menselijke annotatie is onbetaalbaar. Om dit probleem op te lossen, gebruikte Microsoft een synthetische datapijplijn op basis van Magische-Eeneen multi-agentstructuur. In deze opzet creëerde een ‘Orchestrator’-agent plannen en gaf hij een ‘WebSurfer’-agent de opdracht om op internet te surfen, wat 145.000 succesvolle activiteitentrajecten genereerde.

De onderzoekers hebben deze complexe interactiegegevens vervolgens ‘gedistilleerd’ in Fara-7B, dat is gebouwd op Qwen2.5-VL-7B, een basismodel dat is gekozen vanwege het lange contextvenster (tot 128.000 tokens) en het sterke vermogen om tekstinstructies te koppelen aan visuele elementen op een scherm. Hoewel het genereren van gegevens een zwaar multi-agentsysteem vereiste, is Fara-7B zelf één model, wat aantoont dat een klein model effectief geavanceerd gedrag kan leren zonder de noodzaak van complexe steigers tijdens runtime.

Het trainingsproces was gebaseerd op verfijning onder toezicht, waarbij het model leert door succesvolle voorbeelden te imiteren die door de synthetische pijplijn zijn gegenereerd.

In behandeling

Hoewel de huidige versie is getraind op statische datasets, zullen toekomstige iteraties zich richten op het slimmer maken van het model, en niet noodzakelijkerwijs groter. “In de toekomst zullen we ernaar streven onze modellen klein van formaat te houden,” zei Lara. “Ons lopende onderzoek is erop gericht agentische modellen slimmer en veiliger te maken, en niet alleen maar groter.” Dit omvat het verkennen van technieken zoals versterkend leren (RL) in live- en sandbox-omgevingen, waardoor het model in realtime met vallen en opstaan ​​kan leren.

Microsoft heeft de sjabloon beschikbaar gesteld op Hugging Face en Microsoft Foundry onder de MIT-licentie. Lara waarschuwt echter dat, hoewel de licentie commercieel gebruik toestaat, het model nog niet klaar is voor productie. “Je kunt vrij experimenteren en prototypen maken met de Fara-7B onder de MIT-licentie”, zegt hij, “maar het is beter geschikt voor piloten en proofs of concept dan voor missiekritieke implementaties.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in