Meta leert AI de echte wereld begrijpen door video's te bekijken

donderdag, 15 februari 2024
Ivan Jans

Vandaag onthulde Meta V-JEPA (Video Joint Embedding Predictive Architecture), een nieuw visiemodel dat leert de fysieke wereld te begrijpen door video's te bekijken. Het doel van het JEPA-initiatief is om AI uit te rusten met de mogelijkheid om te plannen, redeneren en complexe taken uit te voeren door een intern model van hun omgeving te vormen.

Een evolutie van I-JEPA naar V-JEPA

De lancering van V-JEPA volgt op de introductie van I-JEPA vorig jaar (Image Joint Embedding Predictive Architecture), het eerste AI-model dat Yann LeCun's visie voor een mensachtige benadering van AI belichaamt. I-JEPA was baanbrekend doordat het leerde door een intern model van de buitenwereld te creëren, met de nadruk op abstracte representaties in plaats van directe pixelvergelijking. I-JEPA toonde indrukwekkende prestaties bij verschillende computervisietaken, terwijl het tegelijkertijd efficiënt bleef in het gebruik van rekenkracht. V-JEPA breidt deze visie uit naar video, waarbij dezelfde principes worden toegepast om dynamische interacties en de temporele evolutie van scènes te begrijpen.

JUST ANNOUNCED: The FIRST Human-Like AI Model From META!

Zelflerend AI-model

Wat V-JEPA onderscheidt, is de zelflerende aanpak die ontbrekende gedeelten van een video voorspelt binnen een abstract kenmerkenspectrum, in plaats van op pixelniveau de ontbrekende delen generatief in te vullen. Deze techniek bouwt een conceptueel begrip op van de video, niet door handmatige labeling, maar door passieve observatie, vergelijkbaar met hoe een mens leert.

V-JEPA maakt gebruik van niet-gelabelde video's om te leren en heeft slechts een minimale hoeveelheid gelabelde gegevens nodig om specifieke taken bij te schaven. Door compacte latente representaties te vergelijken, concentreert deze benadering de rekenkracht op hoog-niveau semantische informatie in plaats van onvoorspelbare visuele details.

Efficiëntie en prestaties

Onderzoekers melden aanzienlijke verbeteringen in pre-trainingsefficiëntie ten opzichte van bestaande videomodellen, met efficiëntiewinsten variërend van 1,5 tot 6 keer in zowel voorbeelden als rekentijd. Deze gestroomlijnde methodologie baant de weg voor snellere en kostenefficiënte ontwikkeling van toekomstige videobegripsmodellen.

Eerste benchmarkresultaten evenaren of overtreffen al bestaande videomodelprestaties op datasets zoals Kinetics-400, Something-Something-v2 en ImageNet. Opmerkelijk is dat wanneer onderzoekers V-JEPA bevriezen en een gespecialiseerde classificatielaag toevoegen, het model nieuwe prestatieniveaus bereikt, allemaal getraind met een fractie van de gegevens die voorheen nodig waren.

V-JEPA: Meer dan alleen videobegrip

De introductie van V-JEPA gaat niet alleen over het verbeteren van videobegrip, maar herdefinieert ook de mogelijkheden van AI om de wereld te interpreteren. Door te leren voorspellen en begrijpen wat er ontbreekt in video's, komt V-JEPA dichter bij een vorm van machine-intelligentie die fysieke verschijnselen kan redeneren en anticiperen, net zoals mensen leren door observatie. Bovendien opent de flexibiliteit van het model, om geleerde representaties toe te passen op verschillende taken zonder uitgebreide retraining, nieuwe mogelijkheden voor onderzoek en toepassingen, van actieherkenning tot het ondersteunen van augmented reality-omgevingen.

De toekomst van V-JEPA: Multimodale integratie

Vooruitkijkend onderzoekt het V-JEPA-team de integratie van multimodale gegevens, zoals audio, om het begrip van de wereld door het model te verrijken. Deze evolutie vertegenwoordigt een spannende grens voor AI-onderzoek en belooft nieuwe capaciteiten in machine-intelligentie te ontsluiten. Yann LeCun suggereert dat dit kan leiden tot meer flexibele redenering, planning en algemene intelligentie.

Met V-JEPA zet Meta een belangrijke stap richting een AI die niet alleen de wereld kan waarnemen, maar ook kan redeneren en anticiperen op wat komen gaat, wat een baanbrekende ontwikkeling kan zijn in de toekomst van kunstmatige intelligentie.

Meta leert AI de echte wereld begrijpen door video's te bekijken

Een evolutie van I-JEPA naar V-JEPA

Zelflerend AI-model

Efficiëntie en prestaties

V-JEPA: Meer dan alleen videobegrip

De toekomst van V-JEPA: Multimodale integratie

Aanbevolen voor jou

TRENDING DEZE MAAND

In de kijker

AI kan vanaf nu de muis overnemen op je scherm

Meta zet de volgende stap in AI met AI-gegenereerde posts

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Inschrijven Nieuwsbrief

Kies voor een UP-TO-DATE AI Website 100% in Google

UP-TO-DATE WebDesign BV

UP-TO-DATE AI Today

Voor u aanbevolen

Een evolutie van I-JEPA naar V-JEPA

Zelflerend AI-model

Efficiëntie en prestaties

V-JEPA: Meer dan alleen videobegrip

De toekomst van V-JEPA: Multimodale integratie

Aanbevolen voor jou

TRENDING DEZE MAAND

AI beslist of je wordt aangenomen – goed idee of gevaarlijk precedent?

De 20 belangrijkste technologische trends voor 2025

In de kijker

AI kan vanaf nu de muis overnemen op je scherm

Meta zet de volgende stap in AI met AI-gegenereerde posts

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Inschrijven Nieuwsbrief

Kies voor een UP-TO-DATE AI Website 100% in Google

UP-TO-DATE WebDesign BV

UP-TO-DATE AI Today

Voor u aanbevolen