Home Nieuws Het Allen Institute for AI concurreert met Google, Meta en OpenAI met...

Het Allen Institute for AI concurreert met Google, Meta en OpenAI met een open source AI-visiemodel

6
0
Het Allen Institute for AI concurreert met Google, Meta en OpenAI met een open source AI-visiemodel

Een demonstratievideo van Ai2 laat zien hoe Molmo een specifieke bal volgt in deze kattenvideo, zelfs als deze buiten beeld raakt. (Allen Instituut voor Video AI)

Hoeveel pinguïns zijn er in deze natuurvideo? Kun jij de oranje bal in de kattenvideo volgen? Welke teams spelen en wie scoorde? Kun je mij gedetailleerde instructies geven uit deze kookvideo?

Dit zijn voorbeelden van vragen die kunnen worden opgelost Mond 2een nieuwe familie van open-source AI-visiemodellen van het Allen Institute for AI (Ai2) die vragen over video’s kunnen bekijken, volgen, analyseren en beantwoorden: beschrijven wat er gebeurt en precies aangeven waar en wanneer.

Ai2 haalt benchmarktests aan die aantonen dat Molmo 2 open source-modellen verslaat bij het analyseren en volgen van korte video’s, en beter presteert dan gesloten systemen zoals Google’s Gemini 3 bij het volgen van video’s, en hun prestaties benadert op andere beeld- en videotaken.

In een reeks demonstraties voor journalisten onlangs op het kantoor van Ai2 in Seattle lieten onderzoekers zien hoe Molmo 2 een verscheidenheid aan korte videoclips op verschillende manieren kon analyseren.

  • In één voetbalfragment vroegen onderzoekers welke defensieve fout tot een doelpunt leidde. Het model analyseerde de volgorde en benadrukte het onvermogen om de bal effectief weg te werken.
  • In één honkbalclip identificeerde de AI de teams (Angels en Mariners), de speler die scoorde (#55), en legde uit hoe zij de thuisploeg kende door de tenues en de stadionbranding te lezen.
  • Aan de hand van een kookvideo gaf het model een gestructureerd recept terug met ingrediënten en stapsgewijze instructies, inclusief tijden uit de tekst op het scherm.
  • Toen hem werd gevraagd te tellen hoeveel salto’s een danser maakte, zei het model niet simpelweg ‘vijf’, maar gaf hij voor elke salto tijdstempels en pixelcoördinaten terug.
  • In een trackingdemo volgde het model vier pinguïns terwijl ze door het frame bewogen, waarbij voor elke vogel een consistente ID werd behouden, zelfs als ze elkaar overlapten.
  • Toen hem werd gevraagd om “de auto te volgen die aan het einde auto nr. 13 passeert”, bekeek het model eerst een hele racevideo, begreep de vraag, ging vervolgens terug en identificeerde het juiste voertuig. Volgt auto’s die het frame binnenkomen en verlaten.

Geweldig jaar voor Ai2

Molmo 2, dinsdagochtend aangekondigd, sluit een jaar vol belangrijke mijlpalen af ​​voor de in Seattle gevestigde non-profitorganisatie, die een loyale aanhang heeft opgebouwd in zakelijke en wetenschappelijke kringen door volledig open kunstmatige intelligentiesystemen te bouwen. De aanpak ervan staat in schril contrast met de gesloten of gedeeltelijk open benaderingen van industriegiganten als OpenAI, Google, Microsoft en Meta.

Opgericht in 2014 door wijlen Microsoft-medeoprichter Paul Allen, Ai2 dit jaar kreeg $ 152 miljoen van NSF en Nvidia, samengewerkt aan een AI-aangedreven kankeronderzoeksinitiatiefen bestuurd door Fred Hutch uit Seattle en vrijgelaten Iep 3een tekstmodel dat kan wedijveren met Meta, DeepSeek en anderen.

Ai2 heeft dit jaar meer dan 21 miljoen downloads van zijn modellen gezien en bijna 3 miljard zoekopdrachten op zijn systemen, aldus het bedrijf. Ali Farhadide CEO van Ai2, tijdens de persconferentie van vorige week op het nieuwe hoofdkantoor van het instituut aan de noordkust van Lake Union in Seattle.

AI2-CEO Ali Farhadi. (Geekwire-bestandsfoto/Todd Bishop)

Als non-profitorganisatie probeert Ai2 niet commercieel te concurreren met technologiegiganten: het heeft tot doel de stand van de techniek te bevorderen en dergelijke vooruitgang vrij beschikbaar te maken.

Het instituut heeft open modellen uitgebracht voor tekst (OLMo), afbeeldingen (de originele Molmo) en nu video, en bouwt voort op wat het omschreef als een uniform model dat over alle modaliteiten heen redeneert.

“We bouwen feitelijk competitieve modellen met de beste dingen op de markt,” zei Farhadi, maar op een volledig open manier, voor een opeenvolging van verschillende media en situaties.

Naast Molmo 2 is maandag ook Ai2 uitgebracht Bolmoeen experimenteel tekstmodel dat taal verwerkt op tekenniveau in plaats van in woordfragmenten – een technische verandering die de verwerking van spelling, zeldzame woorden en meertalige tekst verbetert.

Uitbreiden naar videoanalyse

Bij de nieuwe Molmo 2 ligt de focus op video. Voor alle duidelijkheid: het model analyseert video genereert geen video: denk erover na om de video te begrijpen in plaats van deze te maken.

De originele Molmo, die afgelopen september werd uitgebracht, kon statische beelden analyseren met een precisie die kon wedijveren met closed-source-concurrenten. Het introduceerde een “aanwijs”-mogelijkheid waarmee het specifieke objecten binnen een frame kan identificeren. Molmo 2 biedt dezelfde benadering voor het begrijpen van video en meerdere afbeeldingen.

Het concept is niet nieuw. Google’s Gemini, OpenAI’s GPT-4o en Meta’s Perception LM kunnen allemaal video verwerken. Maar in overeenstemming met de bredere missie van Ai2 als non-profitinstituut, is Molmo 2 volledig open, waarbij modelgewichten, trainingscode en trainingsgegevens allemaal openbaar worden gemaakt.

Dit verschilt van “open gewicht”-modellen die het eindproduct vrijgeven, maar niet het originele recept, en staat in schril contrast met de gesloten systemen van Google, OpenAI en anderen.

Het onderscheid is niet alleen een academisch principe. De aanpak van Ai2 betekent dat ontwikkelaars het gedrag van een model kunnen herleiden tot de trainingsgegevens, het kunnen aanpassen voor specifiek gebruik en kunnen voorkomen dat ze vast komen te zitten in het ecosysteem van een leverancier.

Ai2 legt ook de nadruk op efficiëntie. Meta’s Perception LM werd bijvoorbeeld getraind op 72,5 miljoen video’s. Molmo 2 gebruikte er ongeveer 9 miljoen en vertrouwde op menselijke annotaties van hoge kwaliteit.

Het resultaat, zegt Ai2, is een kleiner, efficiënter model dat beter presteert dan het veel grotere model van vorig jaar en dicht in de buurt komt van overeenkomstige commerciële systemen van Google en OpenAI, terwijl het toch eenvoudig genoeg is om op één enkele machine te draaien.

Toen de originele Molmo vorig jaar zijn aanwijsfunctie introduceerde, waardoor het model specifieke objecten in een afbeelding kon identificeren, namen concurrerende modellen deze functionaliteit snel over.

“We weten dat ze onze data hebben omarmd, omdat deze net zo werken als wij”, zei hij Ranjay Krishnadie leiding geeft aan het Ai2 computervisieteam. Krishna is ook assistent-professor aan de Universiteit van Washington, en verschillende van zijn afgestudeerde studenten werken ook aan het project.

Farhadi kadert de concurrentiedynamiek anders dan de meeste mensen in de sector.

“Als echte open source zou worden gemaakt, zou ik het woord eigenlijk veranderen concurrentie NAAR samenwerking‘ zei hij. ‘Omdat er geen noodzaak is om te concurreren. Alles is daarbuiten. Het is niet nodig om te reverse-engineeren. Het is niet nodig om het opnieuw op te bouwen. Neem het gewoon, bouw erop voort en doe het volgende. En wij vinden het geweldig als mensen dat doen.

Een werk in uitvoering

Tegelijkertijd heeft Molmo 2 enkele duidelijke beperkingen. Het trackingvermogen, dat wil zeggen het volgen van objecten over frames heen, bereikt momenteel ongeveer 10 items. Vraag hem om een ​​menigte of een drukke snelweg in de gaten te houden en het model kan het niet bijhouden.

“Dit is een heel, heel nieuwe mogelijkheid, en het is zo experimenteel dat we heel klein beginnen,” zei Krishna. “Hier zit geen technologische limiet aan, het vereist alleen meer data, meer voorbeelden van echt drukke scènes.”

Lange video’s blijven ook een uitdaging. Het model werkt goed op korte clips, maar het analyseren van langere clips vereist berekeningen die Ai2 nog niet wil besteden. Bij de Playground-lancering naast Molmo 2 zijn geüploade video’s beperkt tot 15 seconden.

En in tegenstelling tot sommige commerciële systemen verwerkt Molmo 2 geen live videostreams. Analyseer opnames achteraf. Krishna zei dat het team streamingmogelijkheden onderzoekt voor toepassingen zoals robotica, waarbij een model in realtime op observaties zou reageren, maar het werk staat nog in de kinderschoenen.

“Er zijn methoden die mensen hebben bedacht op het gebied van het verwerken van video in de loop van de tijd, het streamen van video”, zei Krishna. “Dit zijn de richtingen waar we hierna naar zullen kijken.”

Molmo 2 is vanaf vandaag verkrijgbaar op Hugging Face e De Ai2-speeltuin.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in