De originele versie Van dit verhaal verscheen erin Quanta-tijdschrift.
Hier is een test voor pasgeborenen: laat ze een glas water zien op een bureau. Verberg het achter een houten plank. Verplaats nu het bord naar het glas. Als de tafel langs het glas blijft glijden, alsof deze er niet is, zijn ze dan verrast? Veel kinderen van zes maanden hebben, en tegen een jaar hebben bijna alle baby’s, een intuïtief idee van objectduurzaamheid, geleerd door observatie. Nu doen sommige AI-modellen het ook.
Onderzoekers hebben een kunstmatig intelligentiesysteem ontwikkeld dat via video over de wereld leert en een gevoel van ‘verrassing’ demonstreert wanneer het informatie krijgt aangeboden die in strijd is met de verzamelde kennis.
Het model, gemaakt door Meta en genaamd Video Joint Embedding Predictive Architecture (V-JEPA), doet geen aannames over de fysica van de wereld in de video’s. Het kan echter wel inzicht krijgen in hoe de wereld werkt.
“Hun beweringen zijn a priori zeer plausibel en de resultaten zijn buitengewoon interessant”, zegt hij Micha Heilbroneen cognitief wetenschapper aan de Universiteit van Amsterdam die onderzoekt hoe hersenen en kunstmatige systemen de wereld begrijpen.
Superieure abstracties
Zoals ingenieurs die zelfrijdende auto’s bouwen weten, kan het moeilijk zijn om een AI-systeem op betrouwbare wijze te laten begrijpen wat het ziet. De meeste systemen die zijn ontworpen om video’s te ‘begrijpen’ om de inhoud ervan te classificeren (bijvoorbeeld ‘een persoon die tennis speelt’) of om de contouren van een object te identificeren, zoals een auto verderop, werken in wat ‘pixelruimte’ wordt genoemd. Het model behandelt in wezen elke pixel in een video met evenveel belang.
Maar deze pixelruimtemodellen hebben beperkingen. Stel je voor dat je probeert betekenis te geven aan een straat in een buitenwijk. Als de scène auto’s, verkeerslichten en bomen bevat, kan het model zich te veel concentreren op irrelevante details zoals de beweging van bladeren. Mogelijk merkt u de kleur van het verkeerslicht of de positie van auto’s in de buurt niet op. “Als je aan afbeeldingen of video’s werkt, wil je niet in de (pixel)ruimte werken, omdat er te veel details zijn die je niet wilt modelleren”, zei hij Randall Balestrieroeen computerwetenschapper aan de Brown University.



