A mesterséges intelligencia gyári üzemei

Rooby
március 15, 2026
7:01 de.
[post-views]

Az AI-adatközpontok már gyárakként működnek, ahol az áramfelhasználás és a token-termelés hatékonysága dönti el a nyereségességet. A tokenek értéke azonban nem egyforma: a gyors, interaktív válaszok drágábbak, míg a tömeges feldolgozás olcsóbb. A szoftver, mint a TensorRT LLM vagy a disaggregated számítás, kulcsfontosságú a hatékonyság növelésében. A rack-scale architektúrák, mint az Nvidia NVL72, új szintre emelik a teljesítményt, de a hagyományos nyolcas GPU-rendszerek is versenyképesek maradnak.

Az AI-adatközpontok gyakran „gyárakként” működnek: az áram bemenet, a tokenek pedig a kimenet. Bár ez egy leegyszerűsített kép, az AI-inferencia gazdasági alapelvei valóban ennyire egyenesek: minél több tokent lehet előállítani egy adott mennyiségű áram felhasználásával, annál jobb. A felhőszolgáltatók (CSP-k) számára a „token per watt” közvetlenül bevételt jelent, ahogyan azt Nvidia vezérigazgatója, Jensen Huang is hangsúlyozta. Az optimalizálás kulcsa a másodpercenként, dolláronként és watt-onként generált tokenek (TPS/$/W) maximalizálása, de itt kezdődik a bonyodalom. Nem minden token egyenlő: a felhasználói élményt biztosító „jó átvitel” (goodput) – például az első token megjelenésének gyorsasága – mellett kell elérni a magas átviteli sebességet. A SemiAnalysis InferenceX benchmarkja jól illusztrálja ezt egy Pareto-görbén: a bal oldalon a nagy mennyiségű, de lassú tokenek („városi busz”), a jobb oldalon a gyors, de drága „prémium” tokenek, közöttük pedig a „Goldilocks-zóna”, ahol a költséghatékonyság és a reagálási sebesség optimális egyensúlyban van.

A szoftver döntő szerepet játszik a hatékonyságban. A különböző modellek különböző keretrendszereket igényelnek (pl. vLLM, SGLang, TensorRT LLM), és a megfelelő választás jelentős teljesítménybeli előnyt jelent. A Nvidia éppen ezért erőlteti saját inferencia-mikroszolgáltatásait (NIM-eket). A diszaggreált számítás (pl. Nvidia Dynamo, AMD MoRI) újabb effektív módszer: a munkaterhelést több GPU-ra osztja szét, ahol egyesek a számításigényes előfeltöltést (prefill), mások a sávszélesség-korlátozott dekódolást végzik. Ez, valamint a spekulatív dekódoláson alapuló technikák (pl. multi-token predikció) jelentősen feljebb és jobbra tolhatják a Pareto-görbét. A rack-méretű architektúrák (pl. Nvidia NVL72, AMD Helios) tovább növelik a hatékonyságot nagyobb GPU-sűrűségük és gyors összeköttetéseik révén, bár a hagyományos, nyolc GPU-s rendszerek továbbra is versenyképesek maradnak, különösen a magas reagálási sebesség igénylő feladatoknál.

A hardver fejlődését folyamatos szoftveroptimalizálás kíséri, ami naponta változtathatja a teljesítményképet – ahogyan azt az AMD MI355X gyorsítója esetén is láttuk, aminek teljesítménye egy hónap alatt jelentősen javult. Az inferencia költségeinek csökkentésében kulcsfontosságú az alacsonyabb precíziós számítások (pl. FP4) elterjedése is, amely kisebb modellméretet és memóriaigényt jelent, bár itt a modell pontosságának megőrzése a kihívás. Az inferencia-szolgáltatók számára ez egy verseny a legalacsonyabb költségekért, ahol a differenciálódás – akár prémium, kis késleltetésű tokenekkel (mint a Cerebras), akár testreszabott modellekkel (mint a Fireworks) – válik döntővé. A nyílt súlyú modellek minőségének javulása és a finomhangolás elterjedése miatt azonban még ez a terület is egyre inkább árucikké válik, így a kisebb szolgáltatóknak folyamatosan kell innoválniuk mind hardver, mind szoftver terén, hogy versenyben maradjanak.

Ez a cikk a Neural News AI (V1) verziójával készült.

Forrás: https://www.theregister.com/2026/03/07/ai_inference_economics/.

A képet Alexandr Podvalny készítette, mely az Unsplash-on található.

A mesterséges intelligencia gyári üzemei

Neural hírek

A fizetési iparág AI versenyének győztese

Óriásváltás a médiabirodalomban

A mesterséges intelligencia gyári üzemei

Műanyag szennyezés a mogyorókrémben – visszahívás több tízezer termékre

AOC kínai kérdésre adott válasza és a média narratíva

A hazugság tudománya

Kertészet

A kert koronás fője: Minden, amit a császárkorona virágról tudni érdemes

Pasztinák: A középkor elfeledett szuperétele és a modern konyha kincse

Balszerencsés növények és kerti babonák: Átok vagy áldás a kertedben Péntek 13-án?

Január végi kerti teendők – 7 dolog, amit most még meg kell csinálnod, mielőtt megérkezik a tavasz

Chili paprika vetése és termesztése: A teljes útmutató a magtól a szüretig

Szobai levegőtisztító növények – 3 döbbenetes növény: így varázsol frissebb levegőt az anyósnyelv, a legénypálma és a szobai futóka