Introductie van de ARC-AGI-2 benchmark
De Arc Prize Foundation, mede opgericht door AI-onderzoeker François Chollet, heeft recentelijk de ARC-AGI-2 benchmark geïntroduceerd. Deze test is ontworpen om de algemene intelligentie van geavanceerde AI-modellen te evalueren door hen te confronteren met complexe, voorheen onbekende taken die aanpassingsvermogen en efficiënt leren vereisen.
Teleurstellende prestaties van AI-modellen
De resultaten van de ARC-AGI-2 benchmark zijn onthullend: zogenaamde ‘reasoning’ AI-modellen, zoals OpenAI’s o1-pro en DeepSeek’s R1, behaalden scores tussen de 1% en 1,3%. Andere krachtige modellen, waaronder GPT-4.5, Claude 3.7 Sonnet en Gemini 2.0 Flash, scoorden rond de 1%. Ter vergelijking: menselijke deelnemers behaalden gemiddeld een score van 60% op dezelfde test.
Efficiëntie als nieuwe maatstaf
Een onderscheidend kenmerk van de ARC-AGI-2 benchmark is de nadruk op efficiëntie. Het is niet alleen belangrijk of een AI-model een taak kan volbrengen, maar ook hoe efficiënt dit gebeurt. Dit betekent dat modellen niet langer kunnen vertrouwen op brute rekenkracht om problemen op te lossen, maar moeten aantonen dat ze nieuwe vaardigheden snel en met minimale middelen kunnen verwerven en toepassen.
Reacties uit de AI-gemeenschap
De introductie van de ARC-AGI-2 benchmark heeft geleid tot discussies binnen de AI-gemeenschap over de huidige staat en toekomst van kunstmatige algemene intelligentie (AGI). Hoewel AI-systemen al superieur zijn aan mensen in specifieke domeinen, zoals het spelen van Go of beeldherkenning, benadrukt deze benchmark de uitdagingen die blijven bestaan bij het ontwikkelen van systemen met brede, algemene intelligentie.
De ARC-AGI-2 benchmark dient als een belangrijke herinnering aan de beperkingen van huidige AI-modellen en onderstreept de noodzaak voor verdere innovatie en onderzoek op het gebied van algemene kunstmatige intelligentie. Het vermogen om efficiënt nieuwe vaardigheden te leren en toe te passen in onbekende situaties blijft een cruciale uitdaging voor de volgende generatie AI-systemen.
A new AI test is outwitting OpenAI, Google models, among othersAI models from OpenAI, Google, DeepSeek, and others scored pathetically low on the second edition of the ARC-AGI benchmark, suggesting models still have a long way to go before achieving AGI. |