Het jonge Chinese AI-bedrijf DeepSeek-AI zet een nieuwe stap in documentverwerking: met hun model DeepSeek-OCR laten zij zien dat tekst niet langer enkel als tekst verwerkt hoeft te worden, maar als beeld. Door teksten visueel om te zetten en vervolgens uit te lezen, verminderen zij het aantal benodigde tokens drastisch — en dat opent deuren voor enorme contexten in taalmodellen.
DeepSeek OCR is hereDeepSeek OCR is here How to use DeepSeek OCR for free? LLMs choke on length. It’s their oldest weakness. Feed them a 100K token document, and you’ll feel it, latency, memory blow-up, token costs … |
Visuele compressie als gamechanger
Traditionele taalmodellen kampen met de schijnbaar onuitputtelijke kosten van lange teksten. Hoe meer teksttokens een model moet verwerken, hoe hoger de rekenkracht en geheugenvereisten. DeepSeek-AI keert die logica om: hun nieuwe model gebruikt beelden van tekstpagina’s in plaats van puur tekstuele representaties. Beelden kunnen immers veel informatie bevatten per token-eenheid.
De kern van het systeem:
- De DeepEncoder (‘zichtcomponent’) verwerkt een pagina-afbeelding tot een beperkt aantal vision-tokens.
- De DeepSeek3B-MoE-decoder bouwt op die tokens een begrijpelijke tekst of gestructureerde output.
- Het resultaat: bij een compressieverhouding onder 10× ligt de OCR-precisie rond 97 %. Bij circa 20× compressie zakt de nauwkeurigheid naar circa 60%.
New Deepseek model drastically reduces resource usage by converting text and documents into images — 'vision-text compression' uses up to 20 times fewer tokensA novel way to reduce the number of tokens it uses, particularly when accessing memories. |
Wat betekent dit voor de praktijk?
Deze aanpak verandert niet alleen de technische fundamenten, maar ook de praktische toepassingen:
- Groot-schalig documentarchief? Eén GPU kan meer dan 200 000 pagina’s per dag verwerken.
- Complexe documenten zoals financiële rapporten, wetenschappelijke artikelen, tabellen, formules — allemaal binnen bereik.
- Grote taalmodellen hoeven straks niet meer door duizenden teksttokens heen te worstelen, maar kunnen een gecomprimeerde visuele representatie van een document verwerken. Dat maakt langere contexten realistisch.
Deepseek's OCR system compresses image-based text so AI can handle much longer documentsChinese AI company Deepseek has built an OCR system that compresses image-based text documents for language models, aiming to let AI handle much longer contexts without running into memory limits. |
Uitdagingen en toekomstperspectieven
Toch is het geen kant-en-klaar wondermiddel. Bij zeer sterke compressie neemt de nauwkeurigheid wél af — er is een trade-off tussen tokenreductie en leesbaarheid. Bovendien is dit concept — ‘optische contextcompressie’ — vooralsnog in het beginstadium. De onderzoekers zelf geven aan dat verder werk nodig is om het concept volledig uit te diepen.
Maar de implicaties zijn groot: stel dat een taalmodel straks een context van 10 miljoen tokens aankan — niet omdat de tokens kleiner zijn, maar omdat de informatie visueel gecomprimeerd is. Daardoor zou het soort AI-toepassingen dat we nu alleen nog abstract denken, realiteit kunnen worden.
|
DeepSeek releases new OCR model capable of generating 200,000 pages daily on a single GPU · TechNodeDeepSeek has unveiled DeepSeek-OCR: Contexts Optical Compression, an open-source model developed by its DeepSeek-AI research team. The new system |
Met DeepSeek-OCR maakt DeepSeek-AI duidelijk dat de manier waarop we teksten aan AI aanbieden — als reeks teksttokens — mogelijk een verouderd paradigma is. Door over te stappen op visuele representatie van tekst breekt het bedrijf tientallen malen tokens-kosten af, zonder dat het begrip significant achteruitgaat. Het is een slimme stap richting efficiëntere, grotere en praktischer inzetbare taal- en visuele systemen.









