DeepSeek-OCR ontsluit documenten in milliseconden: Elke pagina 10× kleiner

DeepSeek-OCR ontsluit documenten in milliseconden: Elke pagina 10× kleiner

De Chinese AI-startup DeepSeek-AI lanceerde in oktober 2025 DeepSeek-OCR: een open-source vision-language model dat radicaal anders kijkt naar OCR (optische karakterherkenning). In plaats van tekst per woord of regel te tokenizen, zet het de hele pagina om in een afbeelding — en comprimeert die visuele data tot een kleine set “vision-tokens”. Die tokens worden vervolgens door een taalmodel weer ‘terugvertaald’ naar tekst.

Het gevolg: documenten van duizenden woorden, met layout, tabellen of diagrammen, kunnen worden verwerkt als compacte visuele context — ideaal voor AI-systemen met beperkte contextvensters.

DeepSeek may have found a new way to improve AI’s ability to remember

Instead of using text tokens, the Chinese AI company is packing information into images.

 

Hoe werkt de techniek precies? DeepEncoder + MoE-decoder

DeepSeek-OCR bestaat uit twee delen:

  • Een DeepEncoder: de vision-module die de documentpagina rendert als hoge-resolutie afbeelding en segmentatie & compressie toepast — met technieken als (SAM / CLIP) om zowel lokale details als globaal contextuele samenhang te vangen.
  • Een DeepSeek-3B-MoE decoder: een Mixture-of-Experts taalmodel dat de verkregen vision-tokens ontcijfert en omzet naar tekst of gestructureerde output (Markdown, JSON …).

Door visuele compressie daalt het aantal tokens dramatisch — vaak met een factor 7 tot 20. Een pagina die normaal misschien duizenden teksttokens vereist, kan met DeepSeek-OCR in enkele honderden vision-tokens passen.

DeepSeek Just Dropped Free AI That Destroys Every OCR Model

Prestaties & efficiëntie: Snelheid, schaal én acceptabele nauwkeurigheid

De resultaten zijn indrukwekkend:

  • Bij een compressieratio van ongeveer 10 × behaalt DeepSeek-OCR zo’n 97% nauwkeurigheid.
  • Zelfs bij extreme compressie (20 ×) blijft de output bruikbaar — met ongeveer 60% reconstructie-precisie.
  • Qua throughput: op een enkele NVIDIA A100-GPU kan het model ± 200.000 pagina’s per dag verwerken. Bij opschaling naar een cluster van GPU’s komen verwerkingsvolumes in de orde van tientallen miljoenen pagina’s per dag in zicht.

Zo biedt DeepSeek-OCR niet zomaar een OCR-tool — maar een schaalbare pijplijn voor massadigitalisering van documenten, archieven of PDF-bibliotheken.

Wat betekent dit voor bedrijven, onderzoekers en content-makers?

De toepassingen zijn breed en veelbelovend:

  • Digitale archieven en document-digitalisering: bedrijven, overheden of onderzoeksinstellingen kunnen enorme hoeveelheden papieren of gescande documenten efficiënt verwerken — met behoud van layout, tabellen, diagrammen, zelfs formules.
  • Automatisering van data-extractie: facturen, contracten, financiële rapporten, tabellen, grafieken — alles kan worden omgezet naar gestructureerde data (bijv. JSON, Markdown), wat integratie met dashboards, databanken of AI-pipelines makkelijker maakt.
  • Training van grote AI-modellen: door snel vele pagina’s te verwerken, kunnen organisaties grootschalige datasets genereren voor training van LLMs/VLMs, inclusief meertalige documenten, wetenschappelijke papers of technische rapporten.
  • Multimodale en lange-context AI: doordat visuele compressie context dramatisch verkort, opent DeepSeek-OCR de deur naar AI-systemen die “boeken, archieven of volledige dossiers” aankunnen — een paradigmaverschuiving in hoe we documenten aan AI aanbieden.

Grenzen & aandachtspunten: Compressie ≠ perfectie

Toch is er een trade-off: hoe hoger de compressie, hoe groter de kans op verlies van detail of fouten — vooral bij complexe documenten, lage kwaliteit scans, of intensieve grafische elementen.

Daarnaast is DeepSeek-OCR — als open-source VLM — ontworpen voor GPU-infrastructuur. Lokale, CPU-gebaseerde verwerking is theoretisch mogelijk, maar veel trager en minder efficiënt, wat implementatie voor sommige gebruikers kan bemoeilijken.


Waarom DeepSeek-OCR het waard is om in de gaten te houden

DeepSeek-OCR doet meer dan tekst herkennen — het verandert de manier waarop AI naar documenten kijkt. Het combineert vision en taal, compressie en reconstructie, efficiëntie en schaalbaarheid. In een tijd waarin data-hoeveelheden exponentieel groeien, biedt dit model een routekaart voor hoe we morgen miljoenen documenten kunnen verwerken — snel, goedkoop én automatisch.

Aanbevolen voor jou

In de kijker

AI kan vanaf nu de muis overnemen op je scherm

AI kan vanaf nu de muis overnemen op je scherm

Meta zet de volgende stap in AI met AI-gegenereerde posts

Meta zet de volgende stap in AI met AI-gegenereerde posts

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Updates

Inschrijven Nieuwsbrief

Zo word je altijd als eerste op de hoogte gebracht van ons laatste nieuws, updates, jobs, tips & promoties. Stay UP-TO-DATE!

WEBSITE LATEN MAKEN?​​​​​​​​​​​​​​

Kies voor een UP-TO-DATE AI Website 100% in Google

Een UP-TO-DATE AI Website maakt het gemakkelijk om automatisch up-to-date te blijven met je klanten en overal aanwezig te zijn.

Maak een afspraak