Veiligheidsupdates DeepMind: Kritieke capaciteiten, grootschalige impact

Veiligheidsupdates DeepMind: Kritieke capaciteiten, grootschalige impact

DeepMind brengt de derde versie uit van haar zogeheten Frontier Safety Framework (FSF), bedoeld om geavanceerde AI-modellen veiliger te maken. Terwijl AI steeds krachtiger wordt, verscherpt het bedrijf zowel de scope van risico’s als de methoden waarmee het deze risico’s beoordeelt en bestuurd.

Risico’s van manipulatie krijgen eigen “kritisch vermogen”-niveau

Een kernvernieuwing is de toevoeging van een zogeheten Critical Capability Level (CCL) voor schadelijke manipulatie. DeepMind definieert dit als AI-modellen die in bepaalde situaties systematisch overtuigingen en gedragingen kunnen beïnvloeden, met grote gevolgen als dit grootschalig en structureel gebeurt. Hiermee wil het bedrijf mechanismen operationaliseren waarmee manipulatie kan worden geïdentificeerd en gemeten.

Google DeepMind strengthens the Frontier Safety Framework

Today, we’re publishing the third iteration of our Frontier Safety Framework (FSF) — our most comprehensive approach yet to identifying and mitigating severe risks from advanced AI models. This...

 

Misalignment: Zorgen over controle en leiding

Een tweede pijler in de update betreft veranderingen aan misalignment-risico’s. DeepMind breidt hierbij de focus uit naar scenario’s waarin AI-modellen het moeilijker maken voor mensen om ze te sturen, te wijzigen of zelfs uit te schakelen. Er wordt nu ook gekeken naar modellen die zodanig bijdragen aan de versnelling van onderzoek en ontwikkeling dat ze mogelijk destabiliserend werken.

Voorheen lag de aandacht in het FSF al op “instrumenteel redeneren” — situaties waarin AI begint te denken of handelen op manieren die misleiding zouden kunnen impliceren. Met de update worden echter aanvullende protocollen geïntroduceerd, onder andere over grootschalige interne implementatie voordat externe releases plaatsvinden.

Verfijning van risicobeoordeling

DeepMind maakt onderscheid tussen risico’s op basis van ernst, en past strengere criteria toe voor wat binnen een CCL valt. Voorafgaand aan externe lanceringen bij relevante CCL’s moeten zogenaamde safety case reviews worden uitgevoerd: grondige analyses die aantonen dat de risico’s op aanvaardbare wijze zijn teruggebracht. Ook de interne uitrol van modellen wordt kritisch onder de loep genomen.

Daarnaast wordt er dieper ingegaan op het proces van risicobeoordeling: wat zijn de vroege waarschuwingssignalen, hoe worden de verschillende capaciteiten van een model systematisch geanalyseerd, en hoe wordt bepaald welke risico’s acceptabel zijn in de praktijk?

Waarom deze verstrenging?

DeepMind stelt dat technologische doorbraken in AI steeds sneller gaan, niet alleen in theorie, maar in hun maatschappelijke impact — in wetenschap, onderwijs, astronomie, biologie enzovoort. Om te zorgen dat deze voordelen niet gepaard gaan met ernstige risico’s, wil men een steeds meer op bewijs gebaseerde aanpak hanteren.

Het aangescherpte FSF moet helpen om transformerende AI zo te ontwikkelen dat het de mensheid dient, met minimale schade. Verantwoordelijkheid, samenwerking met academici, de industrie en overheden, en het leren van eerdere ervaringen spelen daarbij een centrale rol.

Reflectie: Wat betekent dit voor de rest van het veld?

  • Voor onderzoekers: de nieuwe CCL’s en protocollen zullen extra verplichtingen meebrengen, vooral als het gaat om transparantie, vroege analyse en interne testen.
  • Voor AI-ontwikkelaars buiten DeepMind: dit kan leiden tot druk om vergelijkbare standaarden te hanteren, zeker wanneer deze maatregelen als best practices worden gezien.
  • Voor beleidsmakers en regulering: DeepMind’s stap benadrukt dat technische veiligheid niet losstaat van governance, toezicht, en juridische kaders.

Met de nieuwste versie van het Frontier Safety Framework verstevigt DeepMind zijn inzet op AI-veiligheid. Door nieuwe risicodomeinen zoals manipulatie expliciet te adresseren, en door strenger te letten op misalignment en op het proces van beoordeling, wil het bedrijf voorop lopen in het veilig ontwikkelen van grensverleggende AI. De uitdagingen blijven groot, maar met deze update is DeepMind duidelijk bezig het pad naar verantwoorde AI verder uit te stippelen.

Aanbevolen voor jou

In de kijker

AI kan vanaf nu de muis overnemen op je scherm

AI kan vanaf nu de muis overnemen op je scherm

Meta zet de volgende stap in AI met AI-gegenereerde posts

Meta zet de volgende stap in AI met AI-gegenereerde posts

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Updates

Inschrijven Nieuwsbrief

Zo word je altijd als eerste op de hoogte gebracht van ons laatste nieuws, updates, jobs, tips & promoties. Stay UP-TO-DATE!

WEBSITE LATEN MAKEN?​​​​​​​​​​​​​​

Kies voor een UP-TO-DATE AI Website 100% in Google

Een UP-TO-DATE AI Website maakt het gemakkelijk om automatisch up-to-date te blijven met je klanten en overal aanwezig te zijn.

Maak een afspraak