Neural hírek logo

A mesterséges intelligencia gyári üzemei

Az AI-adatközpontok már gyárakként működnek, ahol az áramfelhasználás és a token-termelés hatékonysága dönti el a nyereségességet. A tokenek értéke azonban nem egyforma: a gyors, interaktív válaszok drágábbak, míg a tömeges feldolgozás olcsóbb. A szoftver, mint a TensorRT LLM vagy a disaggregated számítás, kulcsfontosságú a hatékonyság növelésében. A rack-scale architektúrák, mint az Nvidia NVL72, új szintre emelik a teljesítményt, de a hagyományos nyolcas GPU-rendszerek is versenyképesek maradnak.

Az AI-adatközpontok gyakran „gyárakként” működnek: az áram bemenet, a tokenek pedig a kimenet. Bár ez egy leegyszerűsített kép, az AI-inferencia gazdasági alapelvei valóban ennyire egyenesek: minél több tokent lehet előállítani egy adott mennyiségű áram felhasználásával, annál jobb. A felhőszolgáltatók (CSP-k) számára a „token per watt” közvetlenül bevételt jelent, ahogyan azt Nvidia vezérigazgatója, Jensen Huang is hangsúlyozta. Az optimalizálás kulcsa a másodpercenként, dolláronként és watt-onként generált tokenek (TPS/$/W) maximalizálása, de itt kezdődik a bonyodalom. Nem minden token egyenlő: a felhasználói élményt biztosító „jó átvitel” (goodput) – például az első token megjelenésének gyorsasága – mellett kell elérni a magas átviteli sebességet. A SemiAnalysis InferenceX benchmarkja jól illusztrálja ezt egy Pareto-görbén: a bal oldalon a nagy mennyiségű, de lassú tokenek („városi busz”), a jobb oldalon a gyors, de drága „prémium” tokenek, közöttük pedig a „Goldilocks-zóna”, ahol a költséghatékonyság és a reagálási sebesség optimális egyensúlyban van.

A szoftver döntő szerepet játszik a hatékonyságban. A különböző modellek különböző keretrendszereket igényelnek (pl. vLLM, SGLang, TensorRT LLM), és a megfelelő választás jelentős teljesítménybeli előnyt jelent. A Nvidia éppen ezért erőlteti saját inferencia-mikroszolgáltatásait (NIM-eket). A diszaggreált számítás (pl. Nvidia Dynamo, AMD MoRI) újabb effektív módszer: a munkaterhelést több GPU-ra osztja szét, ahol egyesek a számításigényes előfeltöltést (prefill), mások a sávszélesség-korlátozott dekódolást végzik. Ez, valamint a spekulatív dekódoláson alapuló technikák (pl. multi-token predikció) jelentősen feljebb és jobbra tolhatják a Pareto-görbét. A rack-méretű architektúrák (pl. Nvidia NVL72, AMD Helios) tovább növelik a hatékonyságot nagyobb GPU-sűrűségük és gyors összeköttetéseik révén, bár a hagyományos, nyolc GPU-s rendszerek továbbra is versenyképesek maradnak, különösen a magas reagálási sebesség igénylő feladatoknál.

A hardver fejlődését folyamatos szoftveroptimalizálás kíséri, ami naponta változtathatja a teljesítményképet – ahogyan azt az AMD MI355X gyorsítója esetén is láttuk, aminek teljesítménye egy hónap alatt jelentősen javult. Az inferencia költségeinek csökkentésében kulcsfontosságú az alacsonyabb precíziós számítások (pl. FP4) elterjedése is, amely kisebb modellméretet és memóriaigényt jelent, bár itt a modell pontosságának megőrzése a kihívás. Az inferencia-szolgáltatók számára ez egy verseny a legalacsonyabb költségekért, ahol a differenciálódás – akár prémium, kis késleltetésű tokenekkel (mint a Cerebras), akár testreszabott modellekkel (mint a Fireworks) – válik döntővé. A nyílt súlyú modellek minőségének javulása és a finomhangolás elterjedése miatt azonban még ez a terület is egyre inkább árucikké válik, így a kisebb szolgáltatóknak folyamatosan kell innoválniuk mind hardver, mind szoftver terén, hogy versenyben maradjanak.


Ez a cikk a Neural News AI (V1) verziójával készült.

Forrás: https://www.theregister.com/2026/03/07/ai_inference_economics/.

A képet Alexandr Podvalny készítette, mely az Unsplash-on található.

Neural hírek

Google Stitch bemutatja a „vibe design” koncepciót, mellyel szöveges utasításokból építhető fel felhasználói felület. A Google legújabb Gemini modelljeire épülő eszköz valós időben alkalmazkodik a
Ne hagyd otthon a töltőt – az Anker Nano utazó adapterrel bárhol feltöltheted a készülékeidet, és most rekord alacsony, 19.99 dolláros áron kapható. Ez a
A "csillagevő" idegen mikroorganizmusok veszélyeztetik a Földet a moziban, de a tudomány mögötte valós. Andy Weir, a regény szerzője fizikailag pontos alapokra építette a történetet,
A magyar választások eredménye messze túlmutat az ország határain: Orbán bukása megrengetné a globális autoritárius jobboldalt és Putyin terveit is. A Tisza Párt vezette ellenzék
A Grüns nevű vitamin gumicukrok forgalmazói klinikai vizsgálatokra hivatkoznak, de a tényleges tanulmányt nem teszik közzé. A cikk szerint a "tudományosan alátámasztott" jelző egyre inkább
Fedezd fel a fyn-t, a hihetetlenül gyors Python csomag- és projektkezelőt, amelyet Rust nyelven írtak. Ez a független közösségi fork az uv alapjain indult, de

Kertészet