In een tijd waarin grote taal- en multimodale modellen steeds vaker op hun contextraamwerk stuiten, komt een opvallende speler op de proppen: DeepSeek-OCR. Dit nieuwe systeem herdenkt niet alleen het klassieke OCR-proces (optische tekenherkenning) maar kijkt ook verder: hoe kun je enorme documenten, rapporten of archieven compacter maken zodat AI ze zonder overbelasting kan verwerken? Met een combinatie van visuele compressie en taalverwerking wil DeepSeek laten zien dat de toekomst van “lang geheugen” voor AI misschien wel visueel is.
Waarom de contextlimiet blijft knellen
Modellen zoals recente LLM’s en multimodale systemen krijgen steeds grotere contextvensters, maar zoals vaak opgemerkt: het wordt steeds duurder, trager en minder efficiënt. De aandachtmechanismen schalen kwadratisch met de lengte van de input. Daardoor ontstaat een bottleneck: hoe verwerk je grotere lappen tekst of hele dossiers zonder dat het systeem vastloopt of te duur wordt?
|
DeepSeek-OCR: How Optical Compression Redefines Long Context | IntuitionLabsExplore DeepSeek-OCR, an AI system that uses optical compression to process long documents. Learn how its vision-based approach solves long-context limits in LL |
Hier komt DeepSeek-OCR in beeld: het pakt het document niet enkel als een lange reeks teksttokens aan, maar gebruikt een visuele tussenstap — je zou kunnen zeggen: tekst wordt beeld, beeld wordt informatief compact — waarna de taalmodule er alsnog betekenis aan geeft.
Wat DeepSeek-OCR precies doet
Volgens de technische publicatie van DeepSeek AI is het systeem opgebouwd uit twee kerncomponenten: een vision-encoder (DeepEncoder) en een taal-decoder (DeepSeek3B-MoE).
- De DeepEncoder neemt visueel een hoge resolutie afbeelding van een document – bijvoorbeeld een gescande pagina – en herleidt deze tot een relatief klein aantal “vision tokens”.
- De DeepSeek3B-MoE decodeert die visuele tokens naar tekst of gestructureerde output (Markdown, JSON, etc.).
- Belangrijke maatstaf: wanneer het aantal teksttokens circa 10× zo groot is als het aantal vision-tokens, behaalt het systeem nog zo’n 97% nauwkeurigheid in OCR. Bij ~20× compressie zakt dit naar ~60%.
- In benchmarks (OmniDocBench) overtreft DeepSeek-OCR bestaande OCR-systemen met veel hogere tokenefficiëntie (bv. ~100 vision tokens vs honderden of duizenden tekst-tokens).
DeepSeek AI | Leading AI Language Models & SolutionsDeepSeek AI is the leading provider of advanced AI language models and enterprise solutions. Experience state-of-the-art artificial intelligence technology for your business needs. |
Waarom dit belangrijk is
Voor de gebruiker, onderzoeker of onderneming verandert dit een paar spelregels:
- Token-efficiëntie: Door documenten visueel te comprimeren, kun je méér inhoud in één keer verwerken. Dat betekent lagere kosten, minder rekenkracht en potentieel langere contexten mogelijk maken.
- Complexe documenten: Tabellen, diagrammen, wetenschappelijke formules, meertalige content – allemaal vormen waarin klassieke OCR moeite heeft. Het visuele component van DeepSeek biedt hier een voordeel.
- Archieven & bulkverwerking: Een systeem dat duizenden of zelfs miljoenen pagina’s per dag aankan opent nieuwe mogelijkheden voor digitalisering van bibliotheken, historische depositie, of bedrijfsarchieven.
- Nieuwe geheugenparadigma’s: Het idee van “oude gesprekken of documenten bewaren als steeds lagere resolutie beelden” – een soort visuele vervaging van geheugen – werd al gesuggereerd als toekomstmodel voor AI-agents. DeepSeek maakt die route plausibel.
TAI #176: DeepSeek’s Optical Compression: A Cheaper OCR or a New Path for LLMs?TAI #176: DeepSeek’s Optical Compression: A Cheaper OCR or a New Path for LLMs? Also, Gemini grounding with Google Maps, OpenAI Atlas Browser, SentinelStep, and more. What happened this week in AI … |
Waar liggen de beperkingen?
Zoals bij alle baanbrekende technologieën zijn er ook haken en ogen:
- Compressie vs. nauwkeurigheid: De zeer agressieve compressieniveaus (bv. 20×) leveren duidelijke verliezen op (nauwkeurigheid ~60%). Voor toepassingen waarin elke karakter telt (juridisch, medisch) moet je dus voorzichtig zijn.
- Rekenkracht en infrastructuur: Hoewel tokengebruik vermindert, blijft er sprake van een aanzienlijk model (Mixture-of-Experts, GPU-gebruik, etc.). Dit maakt het minder geschikt voor lichte on-device applicaties op dit moment.
- Speciale gevallen: Documenten met zeer lage kwaliteit scans, complexe vectorgrafieken, sterk verval of ongebruikelijke lay-outs kunnen uitdagingen blijven vormen.
- Adoptie en ecosystemen: Integratie in bestaande OCR/Documentatie-workflows vereist tijd en investering; standaardoplossingen zullen niet direct verdwijnen.
Met DeepSeek-OCR zet DeepSeek AI een indrukwekkende stap in de richting van visuele compressie van documenten en lange contexten voor AI. Het suggereert dat we misschien minder afhankelijk moeten zijn van gigantische tokenreeksen en in plaats daarvan slimmer kunnen coderen: tekst → beeld → betekenis.
Voor iedereen die werkt met langlopende documenten, archieven, multimodale inhoud of AI-gebaseerde verwerking van grote dossiers, is dit een ontwikkeling om op de radar te houden. De toekomst zou weleens visueler kunnen zijn dan we dachten.









