De Chinese AI-startup DeepSeek-AI lanceerde in oktober 2025 DeepSeek-OCR: een open-source vision-language model dat radicaal anders kijkt naar OCR (optische karakterherkenning). In plaats van tekst per woord of regel te tokenizen, zet het de hele pagina om in een afbeelding — en comprimeert die visuele data tot een kleine set “vision-tokens”. Die tokens worden vervolgens door een taalmodel weer ‘terugvertaald’ naar tekst.
Het gevolg: documenten van duizenden woorden, met layout, tabellen of diagrammen, kunnen worden verwerkt als compacte visuele context — ideaal voor AI-systemen met beperkte contextvensters.
DeepSeek may have found a new way to improve AI’s ability to rememberInstead of using text tokens, the Chinese AI company is packing information into images. |
Hoe werkt de techniek precies? DeepEncoder + MoE-decoder
DeepSeek-OCR bestaat uit twee delen:
- Een DeepEncoder: de vision-module die de documentpagina rendert als hoge-resolutie afbeelding en segmentatie & compressie toepast — met technieken als (SAM / CLIP) om zowel lokale details als globaal contextuele samenhang te vangen.
- Een DeepSeek-3B-MoE decoder: een Mixture-of-Experts taalmodel dat de verkregen vision-tokens ontcijfert en omzet naar tekst of gestructureerde output (Markdown, JSON …).
Door visuele compressie daalt het aantal tokens dramatisch — vaak met een factor 7 tot 20. Een pagina die normaal misschien duizenden teksttokens vereist, kan met DeepSeek-OCR in enkele honderden vision-tokens passen.
Prestaties & efficiëntie: Snelheid, schaal én acceptabele nauwkeurigheid
De resultaten zijn indrukwekkend:
- Bij een compressieratio van ongeveer 10 × behaalt DeepSeek-OCR zo’n 97% nauwkeurigheid.
- Zelfs bij extreme compressie (20 ×) blijft de output bruikbaar — met ongeveer 60% reconstructie-precisie.
- Qua throughput: op een enkele NVIDIA A100-GPU kan het model ± 200.000 pagina’s per dag verwerken. Bij opschaling naar een cluster van GPU’s komen verwerkingsvolumes in de orde van tientallen miljoenen pagina’s per dag in zicht.
Zo biedt DeepSeek-OCR niet zomaar een OCR-tool — maar een schaalbare pijplijn voor massadigitalisering van documenten, archieven of PDF-bibliotheken.
Wat betekent dit voor bedrijven, onderzoekers en content-makers?
De toepassingen zijn breed en veelbelovend:
- Digitale archieven en document-digitalisering: bedrijven, overheden of onderzoeksinstellingen kunnen enorme hoeveelheden papieren of gescande documenten efficiënt verwerken — met behoud van layout, tabellen, diagrammen, zelfs formules.
- Automatisering van data-extractie: facturen, contracten, financiële rapporten, tabellen, grafieken — alles kan worden omgezet naar gestructureerde data (bijv. JSON, Markdown), wat integratie met dashboards, databanken of AI-pipelines makkelijker maakt.
- Training van grote AI-modellen: door snel vele pagina’s te verwerken, kunnen organisaties grootschalige datasets genereren voor training van LLMs/VLMs, inclusief meertalige documenten, wetenschappelijke papers of technische rapporten.
- Multimodale en lange-context AI: doordat visuele compressie context dramatisch verkort, opent DeepSeek-OCR de deur naar AI-systemen die “boeken, archieven of volledige dossiers” aankunnen — een paradigmaverschuiving in hoe we documenten aan AI aanbieden.
Grenzen & aandachtspunten: Compressie ≠ perfectie
Toch is er een trade-off: hoe hoger de compressie, hoe groter de kans op verlies van detail of fouten — vooral bij complexe documenten, lage kwaliteit scans, of intensieve grafische elementen.
Daarnaast is DeepSeek-OCR — als open-source VLM — ontworpen voor GPU-infrastructuur. Lokale, CPU-gebaseerde verwerking is theoretisch mogelijk, maar veel trager en minder efficiënt, wat implementatie voor sommige gebruikers kan bemoeilijken.
Waarom DeepSeek-OCR het waard is om in de gaten te houden
DeepSeek-OCR doet meer dan tekst herkennen — het verandert de manier waarop AI naar documenten kijkt. Het combineert vision en taal, compressie en reconstructie, efficiëntie en schaalbaarheid. In een tijd waarin data-hoeveelheden exponentieel groeien, biedt dit model een routekaart voor hoe we morgen miljoenen documenten kunnen verwerken — snel, goedkoop én automatisch.









