Het trainen van de nieuwste generatie AI-modellen is geen kwestie van simpelweg meer rekenkracht toevoegen. In de nieuwste aflevering van de OpenAI Podcast leggen experts Mark Handley en Greg Steinbrecher uit waarom het bouwen van een brein vraagt om een netwerk dat nooit een steek laat vallen.
In de wereld van kunstmatige intelligentie draait alles om schaal. We horen vaak over de duizenden GPU’s (grafische processoren) die nodig zijn om modellen zoals GPT-4 te trainen. Maar wat vaak onbelicht blijft, is de infrastructuur die deze krachtpatsers met elkaar verbindt. "Het is als een gigantisch gecoördineerd ballet," leggen Mark Handley en Greg Steinbrecher van OpenAI uit. Wanneer één danser uit de pas loopt, struikelt de hele groep.
De bottleneck van de giganten
Het trainen van zogenaamde frontier models verschilt fundamenteel van traditionele computerprocessen. Waar normale servers onafhankelijk van elkaar kunnen werken, moeten de GPU's in een AI-cluster voortdurend met elkaar communiceren. Ze wisselen miljarden parameters uit in een fractie van een seconde.
Het probleem? Traditionele netwerkprotocollen zijn niet gebouwd voor deze extreme intensiteit. Zodra er een kleine storing optreedt of een verbinding hapert, komt het volledige trainingsproces (dat miljoenen euro's per dag kost) knarsend tot stilstand. De kosten van wachten zijn simpelweg te hoog geworden.
De doorbraak: Multipath Reliable Connection (MRC)
Om dit probleem te tackelen, sloeg OpenAI de handen ineen met techreuzen als AMD, Broadcom, Intel, Microsoft en Nvidia. Het resultaat is het Multipath Reliable Connection (MRC) protocol.
In plaats van gegevens over één enkele route te sturen (waarbij een blokkade direct voor vertraging zorgt) kan MRC informatie via meerdere paden tegelijkertijd versturen. Als er ergens in de supercomputer een defect optreedt, stuurt het systeem de data automatisch langs een andere weg, zonder dat het trainingsproces hoeft te pauzeren. Het zorgt ervoor dat recordaantallen GPU's in perfecte 'lockstep' blijven werken, ongeacht de omvang van het systeem.
Waarom OpenAI de blauwdruk deelt
Opvallend is dat OpenAI besloten heeft om MRC als een open standaard beschikbaar te stellen voor de gehele industrie. Hoewel het bedrijf vaak kritiek krijgt op zijn gesloten karakter, is de filosofie hier anders. Volgens Handley en Steinbrecher heeft de hele sector er baat bij als de hardware-infrastructuur gestandaardiseerd wordt. Door de blauwdruk te delen, kunnen fabrikanten efficiëntere chips en routers bouwen die direct klaar zijn voor de toekomst van AI.
De blik op de sterren
Aan het eind van het gesprek blikken de experts vooruit op de verre toekomst. Naarmate de honger naar energie en rekenkracht toeneemt, rijst de vraag: waar gaan we deze supercomputers laten? Er wordt zelfs gespeculeerd over het verplaatsen van AI-berekeningen naar de ruimte. Hoewel dat nu nog klinkt als sciencefiction, onderstreept het de enorme schaal waarop OpenAI denkt. Voorlopig ligt de focus echter op de aarde, waar hun nieuwe netwerkprotocol de weg vrijmaakt voor de volgende grote sprong in kunstmatige intelligentie.









