Meta leert AI de echte wereld begrijpen door video's te bekijken

Meta leert AI de echte wereld begrijpen door video's te bekijken

Vandaag onthulde Meta V-JEPA (Video Joint Embedding Predictive Architecture), een nieuw visiemodel dat leert de fysieke wereld te begrijpen door video's te bekijken. Het doel van het JEPA-initiatief is om AI uit te rusten met de mogelijkheid om te plannen, redeneren en complexe taken uit te voeren door een intern model van hun omgeving te vormen.

Een evolutie van I-JEPA naar V-JEPA

De lancering van V-JEPA volgt op de introductie van I-JEPA vorig jaar (Image Joint Embedding Predictive Architecture), het eerste AI-model dat Yann LeCun's visie voor een mensachtige benadering van AI belichaamt. I-JEPA was baanbrekend doordat het leerde door een intern model van de buitenwereld te creëren, met de nadruk op abstracte representaties in plaats van directe pixelvergelijking. I-JEPA toonde indrukwekkende prestaties bij verschillende computervisietaken, terwijl het tegelijkertijd efficiënt bleef in het gebruik van rekenkracht. V-JEPA breidt deze visie uit naar video, waarbij dezelfde principes worden toegepast om dynamische interacties en de temporele evolutie van scènes te begrijpen.

JUST ANNOUNCED: The FIRST Human-Like AI Model From META!

Zelflerend AI-model

Wat V-JEPA onderscheidt, is de zelflerende aanpak die ontbrekende gedeelten van een video voorspelt binnen een abstract kenmerkenspectrum, in plaats van op pixelniveau de ontbrekende delen generatief in te vullen. Deze techniek bouwt een conceptueel begrip op van de video, niet door handmatige labeling, maar door passieve observatie, vergelijkbaar met hoe een mens leert.

V-JEPA maakt gebruik van niet-gelabelde video's om te leren en heeft slechts een minimale hoeveelheid gelabelde gegevens nodig om specifieke taken bij te schaven. Door compacte latente representaties te vergelijken, concentreert deze benadering de rekenkracht op hoog-niveau semantische informatie in plaats van onvoorspelbare visuele details.

Efficiëntie en prestaties

Onderzoekers melden aanzienlijke verbeteringen in pre-trainingsefficiëntie ten opzichte van bestaande videomodellen, met efficiëntiewinsten variërend van 1,5 tot 6 keer in zowel voorbeelden als rekentijd. Deze gestroomlijnde methodologie baant de weg voor snellere en kostenefficiënte ontwikkeling van toekomstige videobegripsmodellen.

Eerste benchmarkresultaten evenaren of overtreffen al bestaande videomodelprestaties op datasets zoals Kinetics-400, Something-Something-v2 en ImageNet. Opmerkelijk is dat wanneer onderzoekers V-JEPA bevriezen en een gespecialiseerde classificatielaag toevoegen, het model nieuwe prestatieniveaus bereikt, allemaal getraind met een fractie van de gegevens die voorheen nodig waren.

V-JEPA: Meer dan alleen videobegrip

De introductie van V-JEPA gaat niet alleen over het verbeteren van videobegrip, maar herdefinieert ook de mogelijkheden van AI om de wereld te interpreteren. Door te leren voorspellen en begrijpen wat er ontbreekt in video's, komt V-JEPA dichter bij een vorm van machine-intelligentie die fysieke verschijnselen kan redeneren en anticiperen, net zoals mensen leren door observatie. Bovendien opent de flexibiliteit van het model, om geleerde representaties toe te passen op verschillende taken zonder uitgebreide retraining, nieuwe mogelijkheden voor onderzoek en toepassingen, van actieherkenning tot het ondersteunen van augmented reality-omgevingen.

De toekomst van V-JEPA: Multimodale integratie

Vooruitkijkend onderzoekt het V-JEPA-team de integratie van multimodale gegevens, zoals audio, om het begrip van de wereld door het model te verrijken. Deze evolutie vertegenwoordigt een spannende grens voor AI-onderzoek en belooft nieuwe capaciteiten in machine-intelligentie te ontsluiten. Yann LeCun suggereert dat dit kan leiden tot meer flexibele redenering, planning en algemene intelligentie.

Met V-JEPA zet Meta een belangrijke stap richting een AI die niet alleen de wereld kan waarnemen, maar ook kan redeneren en anticiperen op wat komen gaat, wat een baanbrekende ontwikkeling kan zijn in de toekomst van kunstmatige intelligentie.

Aanbevolen voor jou

Start gericht online te communiceren met je (nieuwe) klanten

Wacht niet enkel tot je gevonden wordt maar communiceer online rechtstreeks met je doelgroepen op je site, blog, social media en per mail.

Maak een afspraak

Referentieblogs

BEKIJK ALLES   >>

In de kijker

Updates

Inschrijven Nieuwsbrief

Zo word je altijd als eerste op de hoogte gebracht van ons laatste nieuws, updates, jobs, tips & promoties. Stay UP-TO-DATE!

Wat anderen over ons zeggen

NIEUW: UP-TO-DATE MY BUSINESS

Makkelijker, sneller & veiliger kan niet meer!

Ontdek onze nieuwe app waarmee je altijd & overal je (nieuwe) klanten kan bereiken met 1 klik. Tegelijk op je blog, site, social media & per mail.

Ontdek Meer

Referentieblogs

BEKIJK ALLES   >>

In de kijker

Updates

Inschrijven Nieuwsbrief

Zo word je altijd als eerste op de hoogte gebracht van ons laatste nieuws, updates, jobs, tips & promoties. Stay UP-TO-DATE!

WEBSITE LATEN MAKEN?​​​​​​​​​​​​​​

Kies voor een Smart-Site, 100% in Google

Een Smart-Site maakt het gemakkelijk om automatisch up-to-date te blijven met je klanten en overal aanwezig te zijn.

Maak een afspraak