Nieuwe AGI-test onthult beperkingen van huidige AI-modellen

Nieuwe AGI-test onthult beperkingen van huidige AI-modellen

Introductie van de ARC-AGI-2 benchmark

De Arc Prize Foundation, mede opgericht door AI-onderzoeker François Chollet, heeft recentelijk de ARC-AGI-2 benchmark geïntroduceerd. Deze test is ontworpen om de algemene intelligentie van geavanceerde AI-modellen te evalueren door hen te confronteren met complexe, voorheen onbekende taken die aanpassingsvermogen en efficiënt leren vereisen. 

Teleurstellende prestaties van AI-modellen

De resultaten van de ARC-AGI-2 benchmark zijn onthullend: zogenaamde ‘reasoning’ AI-modellen, zoals OpenAI’s o1-pro en DeepSeek’s R1, behaalden scores tussen de 1% en 1,3%. Andere krachtige modellen, waaronder GPT-4.5, Claude 3.7 Sonnet en Gemini 2.0 Flash, scoorden rond de 1%. Ter vergelijking: menselijke deelnemers behaalden gemiddeld een score van 60% op dezelfde test. 

Efficiëntie als nieuwe maatstaf

Een onderscheidend kenmerk van de ARC-AGI-2 benchmark is de nadruk op efficiëntie. Het is niet alleen belangrijk of een AI-model een taak kan volbrengen, maar ook hoe efficiënt dit gebeurt. Dit betekent dat modellen niet langer kunnen vertrouwen op brute rekenkracht om problemen op te lossen, maar moeten aantonen dat ze nieuwe vaardigheden snel en met minimale middelen kunnen verwerven en toepassen.

Reacties uit de AI-gemeenschap

De introductie van de ARC-AGI-2 benchmark heeft geleid tot discussies binnen de AI-gemeenschap over de huidige staat en toekomst van kunstmatige algemene intelligentie (AGI). Hoewel AI-systemen al superieur zijn aan mensen in specifieke domeinen, zoals het spelen van Go of beeldherkenning, benadrukt deze benchmark de uitdagingen die blijven bestaan bij het ontwikkelen van systemen met brede, algemene intelligentie.

De ARC-AGI-2 benchmark dient als een belangrijke herinnering aan de beperkingen van huidige AI-modellen en onderstreept de noodzaak voor verdere innovatie en onderzoek op het gebied van algemene kunstmatige intelligentie. Het vermogen om efficiënt nieuwe vaardigheden te leren en toe te passen in onbekende situaties blijft een cruciale uitdaging voor de volgende generatie AI-systemen.

 

A new AI test is outwitting OpenAI, Google models, among others

AI models from OpenAI, Google, DeepSeek, and others scored pathetically low on the second edition of the ARC-AGI benchmark, suggesting models still have a long way to go before achieving AGI.

ONTDEK MEER

Aanbevolen voor jou

In de kijker

AI kan vanaf nu de muis overnemen op je scherm

AI kan vanaf nu de muis overnemen op je scherm

Meta zet de volgende stap in AI met AI-gegenereerde posts

Meta zet de volgende stap in AI met AI-gegenereerde posts

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Updates

Inschrijven Nieuwsbrief

Zo word je altijd als eerste op de hoogte gebracht van ons laatste nieuws, updates, jobs, tips & promoties. Stay UP-TO-DATE!

WEBSITE LATEN MAKEN?​​​​​​​​​​​​​​

Kies voor een UP-TO-DATE AI Website 100% in Google

Een UP-TO-DATE AI Website maakt het gemakkelijk om automatisch up-to-date te blijven met je klanten en overal aanwezig te zijn.

Maak een afspraak