In conflictsituaties waar elke seconde telt, kan een fout van een generatief AI-systeem ernstige gevolgen hebben: verkeerde informatie, strategische misstappen, zelfs levensgevaar. Een recente bijdrage door Daniel Levinson op War on the Rocks waarschuwt dat defensie-instanties en gevechtsteams niet genoeg robuuste kwaliteitscontroles hanteren, vooral op tactisch niveau.
How to Keep Generative AI from Crashing in CombatFailure to constantly evaluate generative AI output is like driving a car, in a thunderstorm, at midnight, with no headlights. Good luck getting to your |
Waarom constante evaluatie essentieel is
- Onvoorspelbare afwijkingen (‘drift’)AI-modellen veranderen in de loop van tijd. Zonder voortdurende toetsing kunnen ze steeds minder betrouwbaar worden, vooral wanneer ze geüpdatet zijn, of wanneer omgevingen veranderen.
- Vergelijking met autorijden zonder koplampenLevinson vergelijkt het gebruik van generatieve AI zonder constante evaluatie met rijden in een onweersnacht zonder koplampen: je weet niet wat je tegemoetkomt.
- Risico’s voor de missie én het personeelOnbetrouwbare uitkomsten van AI kunnen leiden tot foute inlichtingen, verkeerde beslissingen, escalaties. Zaken die zich in gevechtssituaties niet mogen voordoen.
|
Gaining AI advantage: The need for trusted autonomy, transparency and controlA new report warns that fragmented, opaque AI tools are slowing the DOD's race to achieve decision dominance and why a new enterprise-to-edge approach, centered on trusted, transparent AI, is critical to winning an era of ‘algorithmic warfare.’ |
Praktische maatregelen: Controle ingebouwd in elk team
Levinson stelt voor dat elk klein team dat generatieve AI inzet, een Quality Assurance Sentinel moet aanwijzen: iemand binnen het team verantwoordelijk voor het bewaken van de kwaliteit van prompts, output, modelupdates, etc.
- Basismetricen vastleggen: feitelijke correctheid, latency, foutpercentages (“hallucinaties”), relevantie, helderheid.
- Testsets opstellen per use-case (20-50 scenario’s), A/B-vergelijkingen maken bij modelvarianten of bij prompt-veranderingen.
- Centraal prompt-repository bijhouden, versiecontrole, logging van alle veranderingen.
- Regelmatig evalueren, wekelijkse “stand-ups” over modelprestaties, geleerde lessen documenteren.
De weg vooruit: Vertrouwen én snelheid combineren
Levinson pleit ervoor dat militaire organisaties niet wachten op grootschalige, dure systemen, maar nu al met deze kleinere, decentrale kwaliteitscontroles aan de slag gaan. Ze fungeren als fundament om generatieve AI betrouwbaar te maken in echte operaties.
Uiteindelijk kan AI een deel van de rol van kwaliteitstoezichthouders overnemen, maar voorlopig moet er altijd een mens in de lus zijn in kritieke beslissingen.









