Neural hírek logo

A mesterséges intelligencia gyári üzemei

Az AI-adatközpontok már gyárakként működnek, ahol az áramfelhasználás és a token-termelés hatékonysága dönti el a nyereségességet. A tokenek értéke azonban nem egyforma: a gyors, interaktív válaszok drágábbak, míg a tömeges feldolgozás olcsóbb. A szoftver, mint a TensorRT LLM vagy a disaggregated számítás, kulcsfontosságú a hatékonyság növelésében. A rack-scale architektúrák, mint az Nvidia NVL72, új szintre emelik a teljesítményt, de a hagyományos nyolcas GPU-rendszerek is versenyképesek maradnak.

Az AI-adatközpontok gyakran „gyárakként” működnek: az áram bemenet, a tokenek pedig a kimenet. Bár ez egy leegyszerűsített kép, az AI-inferencia gazdasági alapelvei valóban ennyire egyenesek: minél több tokent lehet előállítani egy adott mennyiségű áram felhasználásával, annál jobb. A felhőszolgáltatók (CSP-k) számára a „token per watt” közvetlenül bevételt jelent, ahogyan azt Nvidia vezérigazgatója, Jensen Huang is hangsúlyozta. Az optimalizálás kulcsa a másodpercenként, dolláronként és watt-onként generált tokenek (TPS/$/W) maximalizálása, de itt kezdődik a bonyodalom. Nem minden token egyenlő: a felhasználói élményt biztosító „jó átvitel” (goodput) – például az első token megjelenésének gyorsasága – mellett kell elérni a magas átviteli sebességet. A SemiAnalysis InferenceX benchmarkja jól illusztrálja ezt egy Pareto-görbén: a bal oldalon a nagy mennyiségű, de lassú tokenek („városi busz”), a jobb oldalon a gyors, de drága „prémium” tokenek, közöttük pedig a „Goldilocks-zóna”, ahol a költséghatékonyság és a reagálási sebesség optimális egyensúlyban van.

A szoftver döntő szerepet játszik a hatékonyságban. A különböző modellek különböző keretrendszereket igényelnek (pl. vLLM, SGLang, TensorRT LLM), és a megfelelő választás jelentős teljesítménybeli előnyt jelent. A Nvidia éppen ezért erőlteti saját inferencia-mikroszolgáltatásait (NIM-eket). A diszaggreált számítás (pl. Nvidia Dynamo, AMD MoRI) újabb effektív módszer: a munkaterhelést több GPU-ra osztja szét, ahol egyesek a számításigényes előfeltöltést (prefill), mások a sávszélesség-korlátozott dekódolást végzik. Ez, valamint a spekulatív dekódoláson alapuló technikák (pl. multi-token predikció) jelentősen feljebb és jobbra tolhatják a Pareto-görbét. A rack-méretű architektúrák (pl. Nvidia NVL72, AMD Helios) tovább növelik a hatékonyságot nagyobb GPU-sűrűségük és gyors összeköttetéseik révén, bár a hagyományos, nyolc GPU-s rendszerek továbbra is versenyképesek maradnak, különösen a magas reagálási sebesség igénylő feladatoknál.

A hardver fejlődését folyamatos szoftveroptimalizálás kíséri, ami naponta változtathatja a teljesítményképet – ahogyan azt az AMD MI355X gyorsítója esetén is láttuk, aminek teljesítménye egy hónap alatt jelentősen javult. Az inferencia költségeinek csökkentésében kulcsfontosságú az alacsonyabb precíziós számítások (pl. FP4) elterjedése is, amely kisebb modellméretet és memóriaigényt jelent, bár itt a modell pontosságának megőrzése a kihívás. Az inferencia-szolgáltatók számára ez egy verseny a legalacsonyabb költségekért, ahol a differenciálódás – akár prémium, kis késleltetésű tokenekkel (mint a Cerebras), akár testreszabott modellekkel (mint a Fireworks) – válik döntővé. A nyílt súlyú modellek minőségének javulása és a finomhangolás elterjedése miatt azonban még ez a terület is egyre inkább árucikké válik, így a kisebb szolgáltatóknak folyamatosan kell innoválniuk mind hardver, mind szoftver terén, hogy versenyben maradjanak.


Ez a cikk a Neural News AI (V1) verziójával készült.

Forrás: https://www.theregister.com/2026/03/07/ai_inference_economics/.

A képet Alexandr Podvalny készítette, mely az Unsplash-on található.

Neural hírek

Az önklónozó sci-fi stratégiai játék, a The Alters egy bővítményt kap, amelyben terraformálhatod az eredeti játék világát, miközben a kriogén alvás segítségével gyorsíthatod az évek
A Samsung állítólag két Galaxy Z Fold 8 modellt tervez idén: a hagyományos Z Fold 8 Ultra és a szélesebb képernyős változat is érkezik. A
Egy átlagos látogató várhatóan 5400 dollárt költ az USA-ban a 2026-os FIFA-világbajnokság alatt, ami messze meghaladja a Katarban 2022-ben költött 720–2500 dollárt. A torna hatalmas
Mit vennél szívesebben egy olcsóbb humanoid robotot, mint egy okostelefon? LinkerBot, a kínai vezető emberszerű kézgyártó, máris mindössze 600 dollárért kínál ötujjas, 11 ízületből álló
A Google részletesen bemutatta a Gemini for Home és a Home alkalmazás májusi frissítését, amely többek között egy hatalmas kamerafejlesztést hoz. Az új funkcióval, amely
Ha többet szeretnél megtakarítani, a korai nyugdíjasok és pénzügyileg független emberek szerint nem kell lemondanod minden apró örömről. A lényeg, hogy tudatosabban költsd a pénzed,

Kertészet