Beelden in plaats van woorden: Hoe DeepSeek-OCR de context van AI op zijn kop zet

Beelden in plaats van woorden: Hoe DeepSeek-OCR de context van AI op zijn kop zet

In een tijd waarin grote taal- en multimodale modellen steeds vaker op hun context­raamwerk stuiten, komt een opvallende speler op de proppen: DeepSeek-OCR. Dit nieuwe systeem herdenkt niet alleen het klassieke OCR-proces (optische teken­herkenning) maar kijkt ook verder: hoe kun je enorme documenten, rapporten of archieven compacter maken zodat AI ze zonder overbelasting kan verwerken? Met een combinatie van visuele compressie en taal­verwerking wil DeepSeek laten zien dat de toekomst van “lang geheugen” voor AI misschien wel visueel is.

Waarom de context­limiet blijft knellen

Modellen zoals recente LLM’s en multimodale systemen krijgen steeds grotere context­vensters, maar zoals vaak opgemerkt: het wordt steeds duurder, trager en minder efficiënt. De aandacht­mechanismen schalen kwadratisch met de lengte van de input. Daardoor ontstaat een bottleneck: hoe verwerk je grotere lappen tekst of hele dossiers zonder dat het systeem vastloopt of te duur wordt?

DeepSeek-OCR: How Optical Compression Redefines Long Context | IntuitionLabs

DeepSeek-OCR: How Optical Compression Redefines Long Context | IntuitionLabs

Explore DeepSeek-OCR, an AI system that uses optical compression to process long documents. Learn how its vision-based approach solves long-context limits in LL

Hier komt DeepSeek-OCR in beeld: het pakt het document niet enkel als een lange reeks tekst­tokens aan, maar gebruikt een visuele tussenstap — je zou kunnen zeggen: tekst wordt beeld, beeld wordt informatief compact — waarna de taal­module er alsnog betekenis aan geeft.

Wat DeepSeek-OCR precies doet

Volgens de technische publicatie van DeepSeek AI is het systeem opgebouwd uit twee kerncomponenten: een vision-encoder (DeepEncoder) en een taal-decoder (DeepSeek3B-MoE). 

  • De DeepEncoder neemt visueel een hoge resolutie afbeelding van een document – bijvoorbeeld een gescande pagina – en herleidt deze tot een relatief klein aantal “vision tokens”. 
  • De DeepSeek3B-MoE decodeert die visuele tokens naar tekst of gestructureerde output (Markdown, JSON, etc.).
  • Belangrijke maatstaf: wanneer het aantal tekst­tokens circa 10× zo groot is als het aantal vision-tokens, behaalt het systeem nog zo’n 97% nauwkeurigheid in OCR. Bij ~20× compressie zakt dit naar ~60%.
  • In benchmarks (OmniDocBench) overtreft DeepSeek-OCR bestaande OCR-systemen met veel hogere token­efficiëntie (bv. ~100 vision tokens vs honderden of duizenden tekst-tokens).
DeepSeek AI | Leading AI Language Models & Solutions

DeepSeek AI | Leading AI Language Models & Solutions

DeepSeek AI is the leading provider of advanced AI language models and enterprise solutions. Experience state-of-the-art artificial intelligence technology for your business needs.

https://deepseek.ai

Waarom dit belangrijk is

Voor de gebruiker, onderzoeker of onderneming verandert dit een paar spelregels:

  • Token-efficiëntie: Door documenten visueel te comprimeren, kun je méér inhoud in één keer verwerken. Dat betekent lagere kosten, minder rekenkracht en potentieel langere contexten mogelijk maken.
  • Complexe documenten: Tabellen, diagrammen, wetenschappelijke formules, meertalige content – allemaal vormen waarin klassieke OCR moeite heeft. Het visuele component van DeepSeek biedt hier een voordeel.
  • Archieven & bulkverwerking: Een systeem dat duizenden of zelfs miljoenen pagina’s per dag aankan opent nieuwe mogelijkheden voor digitalisering van bibliotheken, historische depositie, of bedrijfsarchieven.
  • Nieuwe geheugenparadigma’s: Het idee van “oude gesprekken of documenten bewaren als steeds lagere resolutie beelden” – een soort visuele vervaging van geheugen – werd al gesuggereerd als toekomst­model voor AI-agents. DeepSeek maakt die route plausibel.
TAI #176: DeepSeek’s Optical Compression: A Cheaper OCR or a New Path for LLMs?

TAI #176: DeepSeek’s Optical Compression: A Cheaper OCR or a New Path for LLMs?

TAI #176: DeepSeek’s Optical Compression: A Cheaper OCR or a New Path for LLMs? Also, Gemini grounding with Google Maps, OpenAI Atlas Browser, SentinelStep, and more. What happened this week in AI …

Waar liggen de beperkingen?

Zoals bij alle baanbrekende technologieën zijn er ook haken en ogen:

  • Compressie vs. nauwkeurigheid: De zeer agressieve compressieniveaus (bv. 20×) leveren duidelijke verliezen op (nauwkeurigheid ~60%). Voor toepassingen waarin elke karakter telt (juridisch, medisch) moet je dus voorzichtig zijn.
  • Reken­kracht en infrastructuur: Hoewel token­gebruik vermindert, blijft er sprake van een aanzienlijk model (Mixture-of-Experts, GPU-gebruik, etc.). Dit maakt het minder geschikt voor lichte on-device applicaties op dit moment.
  • Speciale gevallen: Documenten met zeer lage kwaliteit scans, complexe vector­grafieken, sterk verval of ongebruikelijke lay-outs kunnen uitdagingen blijven vormen.
  • Adoptie en ecosystemen: Integratie in bestaande OCR/Documentatie-workflows vereist tijd en investering; standaardoplossingen zullen niet direct verdwijnen.

Met DeepSeek-OCR zet DeepSeek AI een indrukwekkende stap in de richting van visuele compressie van documenten en lange contexten voor AI. Het suggereert dat we misschien minder afhankelijk moeten zijn van gigantische tokenreeksen en in plaats daarvan slimmer kunnen coderen: tekst → beeld → betekenis.

Voor iedereen die werkt met langlopende documenten, archieven, multimodale inhoud of AI-gebaseerde verwerking van grote dossiers, is dit een ontwikkeling om op de radar te houden. De toekomst zou weleens visueler kunnen zijn dan we dachten.

Aanbevolen voor jou

In de kijker

AI kan vanaf nu de muis overnemen op je scherm

AI kan vanaf nu de muis overnemen op je scherm

Meta zet de volgende stap in AI met AI-gegenereerde posts

Meta zet de volgende stap in AI met AI-gegenereerde posts

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Updates

Inschrijven Nieuwsbrief

Zo word je altijd als eerste op de hoogte gebracht van ons laatste nieuws, updates, jobs, tips & promoties. Stay UP-TO-DATE!

WEBSITE LATEN MAKEN?​​​​​​​​​​​​​​

Kies voor een UP-TO-DATE AI Website 100% in Google

Een UP-TO-DATE AI Website maakt het gemakkelijk om automatisch up-to-date te blijven met je klanten en overal aanwezig te zijn.

Maak een afspraak