Veiligheid opnieuw vormgegeven: OpenAI opent gpt-oss-safeguard

Veiligheid opnieuw vormgegeven: OpenAI opent gpt-oss-safeguard

OpenAI heeft vandaag de onderzoeks-preview van gpt-oss-safeguard aangekondigd, een reeks open-gewicht modellen die speciaal zijn ontworpen voor veiligheidsclassificatie-taken. In twee varianten — 120 miljard parameters (120b) en 20 miljard parameters (20b) — zijn deze modellen beschikbaar onder de Apache 2.0 licentie, zodat ontwikkelaars vrij kunnen gebruiken, aanpassen en inzetten.

Wat is gpt-oss-safeguard?

Het model gpt-oss-safeguard gebruikt een innovatieve aanpak: tijdens de inferentie krijgt het zowel het te classificeren bericht als een beleid (policy) voorgeschoteld dat door de ontwikkelaar is opgesteld. Aan de hand daarvan reflecteert het model en levert het een oordeel samen met de redenering (‘chain-of-thought’) over waarom die beslissing is genomen.

 

OpenAI introduces safety models that other sites can use to classify harms

OpenAI developed the models in partnership with Discord, SafetyKit, and Robust Open Online Safety Tools.

Daarmee wijkt het af van de klassieke safety-classifiers, die eerst duizenden voorbeelden nodig hebben om impliciet een grens te leren tussen veilig en onveilig. In plaats van te worden getraind op die voorbeelden, werkt gpt-oss-safeguard direct op basis van het beleid — wat het iteratievriendelijker maakt.

Waarom deze aanpak?

Er zijn verschillende scenario’s waarin deze policy-gebaseerde redeneer­aanpak uitkomst biedt:

  • Wanneer het potentieel schadelijke gedrag in ontwikkeling is en de regels dus snel aangepast moeten worden.
  • Wanneer het domein erg genuanceerd is en standaardclassifiers moeite hebben om de nuance te vatten.
  • Wanneer er weinig gelabelde trainingsvoorbeelden beschikbaar zijn voor een specifieke risicocategorie.

Kortom: het geeft ontwikkelaars en platformen veel meer flexibiliteit om zelf de lijnen te trekken die passen bij hun gebruikers, regels en toepassingen.

Hoe werkt het in de praktijk?

Het model neemt twee invoer­elementen:

  1. Het beleid (policy) dat de ontwikkelaar heeft opgesteld.
  2. Het bericht of de content die geclassificeerd moet worden.

Het model produceert vervolgens:

  • Een oordeel: valt deze content binnen of buiten de beleidslijn?
  • En de chain-of-thought: een begrijpelijke redenering waarom het tot die beslissing kwam.

Als voorbeeld: een gamingforum-platform zou een beleid kunnen definiëren om berichten over vals spelen (‘cheating’) te detecteren. Een reviews-site zou een eigen beleid kunnen instellen om nep-reviews te filteren. Dankzij gpt-oss-safeguard kunnen ze die specifieke beleidslijn direct toepassen.

Prestaties & evaluatie

OpenAI voerde interne en externe evaluaties uit met gpt-oss-safeguard.

  • Op interne evaluaties waarbij meerdere beleidslijnen tegelijk werden gevoed tijdens inferentie, behaalden de gpt-oss-safeguard-modellen betere multi-policy nauwkeurigheid dan eerdere varianten zoals gpt-5-thinking en de oorspronkelijke gpt-oss-modellen.
  • Op publieke benchmarks zoals ToxicChat en een eerder vrijgegeven moderatie-dataset scoorden de modellen ook goed, al zijn er nog scenario’s waarin klassieke getrainde classifiers iets beter presteerden.

Beperkingen

De lancering maakt ook duidelijk waar nog ruimte is voor verbetering:

  • Voor situaties met zeer complexe risico’s kan een traditioneel getrainde classifier (met tienduizenden gelabelde voorbeelden) nog steeds betere prestaties leveren dan gpt-oss-safeguard.
  • De kosten in termen van tijd en compute zijn hoger: reasoning-modellen vragen meer rekenkracht, wat het schalen over grote hoeveelheden platformcontent uitdagender maakt.

Kortom: de tool is krachtig en flexibel, maar ontwikkelaars moeten afwegen of de trade-off in latentie en schaalbaarheid past bij hun infrastructuur.

De weg vooruit: Samenwerking met de gemeenschap

OpenAI geeft aan dat gpt-oss-safeguard het eerste open-safety-model is dat in samenwerking met de gemeenschap wordt gebouwd. Ze werkten samen met organisaties zoals ROOST om ontwikkelaarsbehoeften in kaart te brengen, documentatie te maken en een model-community op te zetten.

Via de “ROOST Model Community” kunnen onderzoekers en veiligheidsteams best practices delen voor het implementeren van open-source AI-modellen in veiligheids-workflows.

Daarnaast nodigt OpenAI iedereen uit om de modellen te downloaden via Hugging Face en zelf te experimenteren.

Waarom dit relevant is voor jou als ontwikkelaar of platform-manager

Voor iemand die werkt met chatbots, contentplatformen, sociale fora of andere AI-toepassingen vormt gpt-oss-safeguard een interessante tool:

  • Je kunt zelf bepalen wat “veilig” of “ongewenst” is, door je eigen beleidslijnen op te stellen.
  • Je krijgt inzicht in de redenering achter de beslissingen van het model — wat transparantie en audit-mogelijkheden bevordert.
  • Omdat het open gewicht is en licentie-vriendelijk (Apache 2.0), kun je de modellen aan‐of‐uit aanpassen, in je pipeline integreren of zelfs verder fine-tuneren voor jouw risicodomein.

Voor platforms is dit een stap richting meer controle over AI-veiligheid, minder afhankelijkheid van vaste black-box classifiers en meer mogelijkheden om te innoveren in veiligheidsmodellen.


Met de release van gpt-oss-safeguard zet OpenAI een opmerkelijke stap: van interne veiligheidsreasoners naar open-source tools voor iedereen. Het model geeft ontwikkelaars de vrijheid om eigen beleidslijnen te schrijven, te experimenteren en de redenering achter classificaties te begrijpen. Zoals altijd zijn er trade-offs — met name op schaalbaarheid en latentie — maar de nieuwe flexibiliteit maakt het tot een veelbelovende bouwsteen in het AI-veiligheidslandschap.

Als het gaat om AI-toepassingen in jouw project of platform, kan dit model betekenen dat je niet langer blind moet vertrouwen op generieke safety-classifiers, maar actief je eigen veiligheidsstrategie kunt vormgeven. Voor diegene die graag voorloopt in AI-ontwikkeling en veiligheid, is dit absoluut iets om in de gaten te houden.

Aanbevolen voor jou

In de kijker

AI kan vanaf nu de muis overnemen op je scherm

AI kan vanaf nu de muis overnemen op je scherm

Meta zet de volgende stap in AI met AI-gegenereerde posts

Meta zet de volgende stap in AI met AI-gegenereerde posts

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Updates

Inschrijven Nieuwsbrief

Zo word je altijd als eerste op de hoogte gebracht van ons laatste nieuws, updates, jobs, tips & promoties. Stay UP-TO-DATE!

WEBSITE LATEN MAKEN?​​​​​​​​​​​​​​

Kies voor een UP-TO-DATE AI Website 100% in Google

Een UP-TO-DATE AI Website maakt het gemakkelijk om automatisch up-to-date te blijven met je klanten en overal aanwezig te zijn.

Maak een afspraak