Neural hírek logo

A mesterséges intelligencia gyári üzemei

Az AI-adatközpontok már gyárakként működnek, ahol az áramfelhasználás és a token-termelés hatékonysága dönti el a nyereségességet. A tokenek értéke azonban nem egyforma: a gyors, interaktív válaszok drágábbak, míg a tömeges feldolgozás olcsóbb. A szoftver, mint a TensorRT LLM vagy a disaggregated számítás, kulcsfontosságú a hatékonyság növelésében. A rack-scale architektúrák, mint az Nvidia NVL72, új szintre emelik a teljesítményt, de a hagyományos nyolcas GPU-rendszerek is versenyképesek maradnak.

Az AI-adatközpontok gyakran „gyárakként” működnek: az áram bemenet, a tokenek pedig a kimenet. Bár ez egy leegyszerűsített kép, az AI-inferencia gazdasági alapelvei valóban ennyire egyenesek: minél több tokent lehet előállítani egy adott mennyiségű áram felhasználásával, annál jobb. A felhőszolgáltatók (CSP-k) számára a „token per watt” közvetlenül bevételt jelent, ahogyan azt Nvidia vezérigazgatója, Jensen Huang is hangsúlyozta. Az optimalizálás kulcsa a másodpercenként, dolláronként és watt-onként generált tokenek (TPS/$/W) maximalizálása, de itt kezdődik a bonyodalom. Nem minden token egyenlő: a felhasználói élményt biztosító „jó átvitel” (goodput) – például az első token megjelenésének gyorsasága – mellett kell elérni a magas átviteli sebességet. A SemiAnalysis InferenceX benchmarkja jól illusztrálja ezt egy Pareto-görbén: a bal oldalon a nagy mennyiségű, de lassú tokenek („városi busz”), a jobb oldalon a gyors, de drága „prémium” tokenek, közöttük pedig a „Goldilocks-zóna”, ahol a költséghatékonyság és a reagálási sebesség optimális egyensúlyban van.

A szoftver döntő szerepet játszik a hatékonyságban. A különböző modellek különböző keretrendszereket igényelnek (pl. vLLM, SGLang, TensorRT LLM), és a megfelelő választás jelentős teljesítménybeli előnyt jelent. A Nvidia éppen ezért erőlteti saját inferencia-mikroszolgáltatásait (NIM-eket). A diszaggreált számítás (pl. Nvidia Dynamo, AMD MoRI) újabb effektív módszer: a munkaterhelést több GPU-ra osztja szét, ahol egyesek a számításigényes előfeltöltést (prefill), mások a sávszélesség-korlátozott dekódolást végzik. Ez, valamint a spekulatív dekódoláson alapuló technikák (pl. multi-token predikció) jelentősen feljebb és jobbra tolhatják a Pareto-görbét. A rack-méretű architektúrák (pl. Nvidia NVL72, AMD Helios) tovább növelik a hatékonyságot nagyobb GPU-sűrűségük és gyors összeköttetéseik révén, bár a hagyományos, nyolc GPU-s rendszerek továbbra is versenyképesek maradnak, különösen a magas reagálási sebesség igénylő feladatoknál.

A hardver fejlődését folyamatos szoftveroptimalizálás kíséri, ami naponta változtathatja a teljesítményképet – ahogyan azt az AMD MI355X gyorsítója esetén is láttuk, aminek teljesítménye egy hónap alatt jelentősen javult. Az inferencia költségeinek csökkentésében kulcsfontosságú az alacsonyabb precíziós számítások (pl. FP4) elterjedése is, amely kisebb modellméretet és memóriaigényt jelent, bár itt a modell pontosságának megőrzése a kihívás. Az inferencia-szolgáltatók számára ez egy verseny a legalacsonyabb költségekért, ahol a differenciálódás – akár prémium, kis késleltetésű tokenekkel (mint a Cerebras), akár testreszabott modellekkel (mint a Fireworks) – válik döntővé. A nyílt súlyú modellek minőségének javulása és a finomhangolás elterjedése miatt azonban még ez a terület is egyre inkább árucikké válik, így a kisebb szolgáltatóknak folyamatosan kell innoválniuk mind hardver, mind szoftver terén, hogy versenyben maradjanak.


Ez a cikk a Neural News AI (V1) verziójával készült.

Forrás: https://www.theregister.com/2026/03/07/ai_inference_economics/.

A képet Alexandr Podvalny készítette, mely az Unsplash-on található.

Neural hírek

Visa vezeti a mesterséges intelligencia versenyt a fizetési iparágban, de a cégek nem hozzák nyilvánosságra, mennyit is hoz a technológia. Az Evident friss rangsora szerint
A Paramount és a Warner Bros. Discovery rekordértékű, közel 111 milliárd dolláros egyesülése sokkal több, mint két hollywoodi óriás összeolvadása. Az üzlet nemcsak a DC
Az AI-adatközpontok már gyárakként működnek, ahol az áramfelhasználás és a token-termelés hatékonysága dönti el a nyereségességet. A tokenek értéke azonban nem egyforma: a gyors, interaktív
Az FDA visszahívott több tízezer kis adagú mogyoróvaj-terméket egy aggasztó felfedezés miatt. A Ventura Foods már több mint kilenc hónapja kezdeményezett önkéntes visszahívást, miután kék
Alexandria Ocasio-Cortez Münchenben kínos választ adott a Kína-Tajván kérdésben, ami heves médiavihart kavart. A cikk szerint a reakciók mögött az áll, hogy AOC a rendszerre
A "The Traitors" győzelem kulcsa a verbális jelek figyelése és a nyitott, barátságos viselkedés – mondják a szakértők. A hazugságok felismerésében a megszokott testbeszédre (pl.

Kertészet