Hoe twee technologiereuzen de snelheid van kunstmatige intelligentie opnieuw uitvinden
In de wereld van kunstmatige intelligentie draait alles steeds meer om snelheid. Hoe sneller een AI-model antwoorden kan genereren, hoe krachtiger en bruikbaarder het wordt voor bedrijven, ontwikkelaars en gebruikers.
Daarom slaan Amazon Web Services (AWS) en Cerebras Systems de handen in elkaar. Hun gezamenlijke doel: de snelste AI-inferentie ooit in de cloud bouwen. De technologie zal beschikbaar worden via Amazon Bedrock, het platform van AWS waarmee bedrijven generatieve AI-modellen kunnen gebruiken en integreren in hun toepassingen.
Met een innovatieve combinatie van nieuwe hardware, slimme architectuur en een geavanceerde netwerklaag willen beide bedrijven een nieuwe norm zetten voor prestaties in AI-systemen.
Een nieuwe architectuur voor AI-inferentie
Het hart van de samenwerking ligt in een technische aanpak die bekendstaat als “inference disaggregation”. Daarbij wordt het proces waarmee AI-modellen antwoorden genereren opgesplitst in twee afzonderlijke fasen.
AWS and Cerebras Collaboration Aims to Set a New Standard for AI Inference Speed and Performance in the CloudDeployed in AWS data centers and accessed through Amazon Bedrock, AWS Trainium + Cerebras CS-3 solution will accelerate inference speed |
1. Prefill: Het verwerken van de prompt
De eerste fase heet prefill. In deze stap analyseert het AI-model de prompt of vraag van de gebruiker en bereidt het zich voor op het genereren van een antwoord.
Dit proces is sterk parallel, zeer rekenintensief en vraagt vooral veel rekenkracht.
Voor deze taak zet AWS zijn nieuwe Trainium3-servers in. Deze chips zijn speciaal ontworpen om zware AI-berekeningen efficiënt uit te voeren en grote hoeveelheden data tegelijk te verwerken.
2. Decode: Het genereren van het antwoord
De tweede fase heet decode. Hier begint het AI-model daadwerkelijk tekst of output te produceren — token voor token.
Dit proces heeft een heel ander karakter. Het is sequentieel, relatief licht qua rekenkracht, maar vereist een enorme geheugenbandbreedte. Omdat elk woord of token stap voor stap wordt gegenereerd, neemt deze fase vaak het grootste deel van de totale verwerkingstijd in beslag.
Voor deze taak komt Cerebras CS-3 in beeld. Dit systeem gebruikt een revolutionaire wafer-scale chip, een gigantische processor die bijna de grootte van een volledige siliciumwafer heeft en uitzonderlijk veel geheugenbandbreedte kan leveren.
Het beste systeem voor elke stap
Door het inferentieproces op te splitsen kan elke fase draaien op hardware die er perfect voor is geoptimaliseerd.
- Trainium3 voert de zware berekeningen van de prefill-fase uit.
- Cerebras CS-3 verwerkt de decode-fase met extreme geheugenbandbreedte.
Deze samenwerking wordt verbonden via Elastic Fabric Adapter (EFA), een ultrasnel netwerk dat de systemen naadloos met elkaar laat communiceren.
Het resultaat: Snellere AI-antwoorden, lagere latentie en betere schaalbaarheid voor cloud-toepassingen.
Beschikbaar via Amazon Bedrock
De technologie zal geïntegreerd worden in Amazon Bedrock, het platform van AWS waarmee bedrijven generatieve AI-modellen kunnen inzetten zonder zelf complexe infrastructuur te beheren.
Later dit jaar zal AWS bovendien toonaangevende open-source taalmodellen en Amazon Nova beschikbaar maken op Cerebras-hardware. Dat betekent dat ontwikkelaars en bedrijven toegang krijgen tot extreem snelle AI-inferentie zonder zelf gespecialiseerde systemen te moeten bouwen.
Waarom snelheid nu cruciaal wordt voor AI
In het tijdperk van generatieve AI is latentie een van de belangrijkste factoren geworden. Snellere inferentie betekent:
- real-time AI-assistenten
- snellere chatbots en copilots
- efficiëntere AI-agents
- betere gebruikerservaring in apps en websites
Door hardware en architectuur samen te optimaliseren, proberen AWS en Cerebras een belangrijke bottleneck van moderne AI-systemen weg te nemen.
Een nieuwe fase voor AI-infrastructuur
De samenwerking toont ook een bredere trend in de AI-wereld: gespecialiseerde hardware-architecturen worden steeds belangrijker.
In plaats van één universele chip voor alle taken, gaan bedrijven steeds vaker werken met meerdere gespecialiseerde systemen, elk ontworpen voor een specifieke stap in het AI-proces.
Als de aanpak van AWS en Cerebras zijn belofte waarmaakt, kan dit model de blauwdruk worden voor de volgende generatie AI-datacenters.









