Neural hírek logo

A mesterséges intelligencia gyári üzemei

Az AI-adatközpontok már gyárakként működnek, ahol az áramfelhasználás és a token-termelés hatékonysága dönti el a nyereségességet. A tokenek értéke azonban nem egyforma: a gyors, interaktív válaszok drágábbak, míg a tömeges feldolgozás olcsóbb. A szoftver, mint a TensorRT LLM vagy a disaggregated számítás, kulcsfontosságú a hatékonyság növelésében. A rack-scale architektúrák, mint az Nvidia NVL72, új szintre emelik a teljesítményt, de a hagyományos nyolcas GPU-rendszerek is versenyképesek maradnak.

Az AI-adatközpontok gyakran „gyárakként” működnek: az áram bemenet, a tokenek pedig a kimenet. Bár ez egy leegyszerűsített kép, az AI-inferencia gazdasági alapelvei valóban ennyire egyenesek: minél több tokent lehet előállítani egy adott mennyiségű áram felhasználásával, annál jobb. A felhőszolgáltatók (CSP-k) számára a „token per watt” közvetlenül bevételt jelent, ahogyan azt Nvidia vezérigazgatója, Jensen Huang is hangsúlyozta. Az optimalizálás kulcsa a másodpercenként, dolláronként és watt-onként generált tokenek (TPS/$/W) maximalizálása, de itt kezdődik a bonyodalom. Nem minden token egyenlő: a felhasználói élményt biztosító „jó átvitel” (goodput) – például az első token megjelenésének gyorsasága – mellett kell elérni a magas átviteli sebességet. A SemiAnalysis InferenceX benchmarkja jól illusztrálja ezt egy Pareto-görbén: a bal oldalon a nagy mennyiségű, de lassú tokenek („városi busz”), a jobb oldalon a gyors, de drága „prémium” tokenek, közöttük pedig a „Goldilocks-zóna”, ahol a költséghatékonyság és a reagálási sebesség optimális egyensúlyban van.

A szoftver döntő szerepet játszik a hatékonyságban. A különböző modellek különböző keretrendszereket igényelnek (pl. vLLM, SGLang, TensorRT LLM), és a megfelelő választás jelentős teljesítménybeli előnyt jelent. A Nvidia éppen ezért erőlteti saját inferencia-mikroszolgáltatásait (NIM-eket). A diszaggreált számítás (pl. Nvidia Dynamo, AMD MoRI) újabb effektív módszer: a munkaterhelést több GPU-ra osztja szét, ahol egyesek a számításigényes előfeltöltést (prefill), mások a sávszélesség-korlátozott dekódolást végzik. Ez, valamint a spekulatív dekódoláson alapuló technikák (pl. multi-token predikció) jelentősen feljebb és jobbra tolhatják a Pareto-görbét. A rack-méretű architektúrák (pl. Nvidia NVL72, AMD Helios) tovább növelik a hatékonyságot nagyobb GPU-sűrűségük és gyors összeköttetéseik révén, bár a hagyományos, nyolc GPU-s rendszerek továbbra is versenyképesek maradnak, különösen a magas reagálási sebesség igénylő feladatoknál.

A hardver fejlődését folyamatos szoftveroptimalizálás kíséri, ami naponta változtathatja a teljesítményképet – ahogyan azt az AMD MI355X gyorsítója esetén is láttuk, aminek teljesítménye egy hónap alatt jelentősen javult. Az inferencia költségeinek csökkentésében kulcsfontosságú az alacsonyabb precíziós számítások (pl. FP4) elterjedése is, amely kisebb modellméretet és memóriaigényt jelent, bár itt a modell pontosságának megőrzése a kihívás. Az inferencia-szolgáltatók számára ez egy verseny a legalacsonyabb költségekért, ahol a differenciálódás – akár prémium, kis késleltetésű tokenekkel (mint a Cerebras), akár testreszabott modellekkel (mint a Fireworks) – válik döntővé. A nyílt súlyú modellek minőségének javulása és a finomhangolás elterjedése miatt azonban még ez a terület is egyre inkább árucikké válik, így a kisebb szolgáltatóknak folyamatosan kell innoválniuk mind hardver, mind szoftver terén, hogy versenyben maradjanak.


Ez a cikk a Neural News AI (V1) verziójával készült.

Forrás: https://www.theregister.com/2026/03/07/ai_inference_economics/.

A képet Alexandr Podvalny készítette, mely az Unsplash-on található.

Neural hírek

Változás közeleg: Magyar Péter győzelme új korszakot ígér Magyarország és az EU kapcsolatában. A korábbi fenyegetések és vétók helyett a gazdasági együttműködés és az uniós
Felcsút, Orbán miniszterelnök szülőfaluja, a túlzások szimbólumává vált a Pancho Arénával és a luxusvasúttal. A stadiont, amely több mint 200 millió dollárba került, a közelgő
Egy Pennsylvaniai Egyetemi professzor AI segítségével 12 óra alatt sajátította el azt, ami egy mesterképzésen egy hetet vesz igénybe. Jesús Fernández-Villaverde közgazdász az Anthropic Claude
Deion Sanders horgászbotot vitt a Colorado Pro Day-ra, ami sokakban kérdéseket ébresztett. A bot egy motivációs kihívás része volt Jeremiah Brown számára, akit már öt
A hagyományos kalóriaböngésző appok helyett mostanában egyre többen kísérleteznek mesterséges intelligenciával, mint a ChatGPT, hogy pontosabban kövessék az étrendjüket. Az AI nemcsak a fehérje- és
Egy San Francisco-i startup, az Eon Systems állítása szerint digitálisan feltöltött egy légy agyát, de a tudományos közösség kételkedik a jelentőségében. A vállalat videókat osztott

Kertészet