„Meta“ atvira AI aparatinės įrangos vizija

Atvirojo skaičiavimo projekto (OCP) Global Summit 2024 metu kartu su OCP bendruomene pristatome savo naujausius atvirojo AI aparatinės įrangos dizainus.
Šios naujovės apima naują AI platformą, pažangiausius atviro stovo dizainus ir pažangius tinklo audinius bei komponentus.
Dalindamiesi savo dizainu tikimės įkvėpti bendradarbiauti ir skatinti naujoves. Jei aistringai norite kurti AI ateitį, kviečiame bendradarbiauti su mumis ir OCP, kad padėtume sukurti naujos kartos atvirą AI aparatinę įrangą.

Dirbtinis intelektas buvo daugelio metų „Meta“ žmonėms ir įmonėms teikiamos patirties pagrindas, įskaitant dirbtinio intelekto modeliavimo naujoves, skirtas optimizuoti ir tobulinti tokias funkcijas kaip Pašaras ir mūsų skelbimų sistema. Kurdami ir išleisdami naujus pažangius AI modelius, taip pat stengiamės tobulinti savo infrastruktūrą, kad palaikytume naujus ir atsirandančius AI darbo krūvius.

Pavyzdžiui, Skambinkite 3.1 405Bdidžiausias Meta modelis, yra tankus transformatorius su 405B parametrais ir kontekstiniu langu iki 128 000 žetonų. Norėdami parengti didelį tokio masto kalbos modelį (LLM), turintį daugiau nei 15 trilijonų žetonų, turėjome iš esmės optimizuoti visą mokymo krūvą. Šios pastangos paskatino mūsų infrastruktūrą veikti daugiau nei 16 000 NVIDIA H100 GPU, todėl Llama 3.1 405B tapo pirmuoju Llama serijos modeliu, kuris buvo apmokytas tokiu didžiuliu mastu.

Tačiau reikalai įsibėgėjo. Sparčiai padidinome savo mokymo grupes, kad palaikytume AI darbo krūvį. Šiandien mes mokome savo modelius ant dviejų 24K-GPU klasteriai.

Nesitikime, kad ši AI klasterių kilimo trajektorija greitai sulėtės. Tiesą sakant, tikimės, kad dirbtinio intelekto mokymui reikalingų skaičiavimų skaičius gerokai padidės nuo dabartinės vietos.

AI klasterių kūrimui reikia ne tik GPU. Tinklas ir pralaidumas atlieka svarbų vaidmenį užtikrinant grupių veikimą. Mūsų sistemas sudaro glaudžiai integruota HPC skaičiavimo sistema ir izoliuotas didelio pralaidumo skaičiavimo tinklas, jungiantis visus mūsų GPU ir konkrečiam domenui būdingus greitintuvus. Šis dizainas yra būtinas, kad būtų patenkinti mūsų įpurškimo poreikiai ir išspręstų iššūkius, kylančius dėl mūsų poreikio perpjauti pralaidumą.

Per ateinančius kelerius metus tikimės didesnio įpurškimo pralaidumo maždaug terabaitu per sekundę vienam greitintuvui, esant vienodam normalizuoto dalijimosi pralaidumui. Tai reiškia daugiau nei eilės didėjimą, palyginti su šiandienos tinklais!

Norint paremti šį augimą, mums reikia didelio našumo, kelių pakopų, neblokuojančio tinklo audinio, kuris galėtų panaudoti šiuolaikinę perkrovos kontrolę, kad būtų galima nuspėjamai veikti esant didelei apkrovai. Tai leis mums visapusiškai išnaudoti mūsų AI grupių galią ir užtikrinti, kad jos ir toliau veiktų optimaliai, nes peržengsime ribas to, kas įmanoma naudojant AI.

Norint padidinti AI tokiu greičiu, reikia atvirų aparatinės įrangos sprendimų. Naujų architektūrų, tinklo struktūrų ir sistemų projektų kūrimas yra veiksmingiausias ir paveikiausias, kai galime jį kurti remdamiesi atvirumo principais. Investuodami į atvirą aparatinę įrangą išlaisviname visą AI potencialą ir skatiname nuolatines naujoves šioje srityje.

Turinys:

Pristatome „Catalina: Open Architecture for AI Infra“.

Catalina vaizdas iš priekio (kairėje) ir vaizdas iš galo (dešinėje).

Šiandien paskelbėme apie artėjantį Catalina, mūsų naujos didelės galios stovo, skirto dirbtinio intelekto darbo krūviams, išleidimą OCP bendruomenei. „Catalina“ yra pagrįsta „NVIDIA Blackwell“ platformos visu stelažų masto sprendimu, daugiausia dėmesio skiriant moduliškumui ir lankstumui. Jis sukurtas palaikyti naujausią NVIDIA GB200 Grace Blackwell Superchip, užtikrinant, kad jis atitiktų augančius šiuolaikinės AI infrastruktūros poreikius.

Didėjantis GPU energijos poreikis reiškia, kad atvirojo stovo sprendimai turi palaikyti didesnę galią. Su Catalina pristatome Orv3 – didelės galios stovą (HPR), galintį palaikyti iki 140 kW.

Visas sprendimas yra aušinamas skysčiu ir susideda iš maitinimo lentynos, kuri palaiko skaičiavimo dėklą, jungiklių dėklą, Orv3 HPR, Pleištas 400 audinio jungiklis, valdymo jungiklis, akumuliatoriaus atsarginis blokas ir stovo valdymo valdiklis.

Siekiame, kad Catalina modulinis dizainas įgalintų kitus pritaikyti stovą, kad jis atitiktų specifinį AI darbo krūvį, kartu pasitelkiant esamus ir naujus pramonės standartus.

„Grand Teton“ platforma dabar palaiko AMD greitintuvus

Mes paskelbėme, kad 2022 m Didysis Tetonasmūsų naujos kartos AI platforma (mūsų Zion-EX platformos tęsinys). „Grand Teton“ sukurtas su skaičiavimo pajėgumais, kad atitiktų su atminties pralaidumu susijusius darbo krūvius, tokius kaip „Meta“ gilaus mokymosi rekomendacijų modeliai (DLRM), taip pat su skaičiavimais susietus darbo krūvius, pvz., turinio supratimą.

Dabar išplėtėme „Grand Teton“ platformą, kad palaikytume AMD Instinct MI300X, ir prisidėsime prie šios naujos OCP versijos. Kaip ir jos pirmtakai, ši nauja „Grand Teton“ versija turi vieną monolitinę sistemos dizainą su visiškai integruotomis maitinimo, valdymo, skaičiavimo ir audinių sąsajomis. Šis aukšto lygio integravimas supaprastina sistemos diegimą, leidžia greitai keisti mastelį ir padidinti patikimumą atliekant didelio masto AI išvadų darbo krūvius.

Be to, kad „Grand Teton“ palaiko daugybę greitintuvų, dabar įskaitant AMD Instinct MI300x, jis siūlo žymiai didesnį skaičiavimo pajėgumą, leidžiantį greičiau suartėti su didesniu svorių rinkiniu. Tai papildyta išplėsta atmintimi, kad būtų galima saugoti ir paleisti didesnius modelius vietoje, taip pat padidintas tinklo pralaidumas, kad būtų galima efektyviai padidinti mokymo grupių dydį.

Atidarykite suskirstytą suplanuotą audinį

Atviros, pardavėjų agnostiškos tinklo sistemos kūrimas vaidins svarbų vaidmenį ateityje, nes toliau didinsime savo AI mokymo grupių našumą. Tinklo išskaidymas leidžia dirbti su tiekėjais iš visos pramonės, kad sukurtume novatoriškas, keičiamo dydžio, lanksčias ir efektyvias sistemas.

Mūsų naujasis suplanuotas audinys (DSF), skirtas mūsų naujos kartos AI klasteriams, turi keletą pranašumų, palyginti su esamais jungikliais. Atverdami tinklo struktūrą galime įveikti masto, komponentų tiekimo galimybių ir galios tankio apribojimus. DSF maitinamas atviru režimu OCP-SAI standartinis ir FBOSS„Meta“ tinklo operacinė sistema, skirta tinklo jungikliams valdyti. Jis taip pat palaiko atvirą ir standartinę eternetu pagrįstą RoCE sąsają su galiniais taškais ir greitintuvais keliuose GPUS ir NICS iš kelių skirtingų tiekėjų, įskaitant mūsų partnerius NVIDIA, Broadcom ir AMD.

Be DSF, mes taip pat sukūrėme ir sukūrėme naujus 51T audinio jungiklius, pagrįstus Broadcom ir Cisco ASIC. Galiausiai dalijamės savo naujuoju FBNIC – nauju NIC moduliu, kuriame yra mūsų pirmasis metadizaino tinklas ASIC. Siekdami patenkinti augančius mūsų AI poreikius

„Meta“ ir „Microsoft“: kartu skatiname atviras inovacijas

„Meta“ ir „Microsoft“ palaiko ilgalaikę OCP partnerystę, pradedant nuo kūrimo Switch Abstraction Interface (SAI) duomenų centrams 2018 m. Per daugelį metų kartu prisidėjome prie pagrindinių iniciatyvų, tokių kaip Atidaryti greitintuvo modulį (OAM) standarto ir SSD standartizavimas, parodantis mūsų bendrą įsipareigojimą plėtoti atviras inovacijas.

Mūsų srovė bendradarbiaujant daugiausia dėmesio skiriama Diablo kalnuinaujas išskaidytas maitinimo stovas. Tai pažangiausias sprendimas su keičiamu 400 V nuolatinės srovės įrenginiu, kuris padidina efektyvumą ir padidina mastelio keitimą. Šis novatoriškas dizainas suteikia daugiau dirbtinio intelekto greitintuvų viename IT stove ir žymiai patobulina AI infrastruktūrą. Džiaugiamės galėdami tęsti bendradarbiavimą per šį indėlį.

Atvira AI infrastruktūros ateitis

Meta yra įsipareigojusi naudoti atvirojo kodo AI. Tikime, kad atvirasis šaltinis suteiks AI privalumus ir galimybes žmonėms visame pasaulyje.

AI neišnaudos viso savo potencialo be bendradarbiavimo. Mums reikia atvirų programinės įrangos struktūrų, kad galėtume paskatinti modelių naujoves, užtikrinti perkeliamumą ir skatinti dirbtinio intelekto kūrimo skaidrumą. Taip pat turime teikti pirmenybę atviriems ir standartizuotiems modeliams, kad galėtume panaudoti kolektyvines žinias, padaryti dirbtinį intelektą labiau prieinamą ir stengtis sumažinti mūsų sistemų šališkumą.

Taip pat svarbu, kad mums taip pat reikia atvirų AI aparatinės įrangos sistemų. Šios sistemos yra būtinos norint sukurti tokią didelio našumo, ekonomiškai efektyvią ir pritaikomą infrastruktūrą, kuri reikalinga dirbtinio intelekto pažangai.

Raginame visus, norinčius padėti plėtoti AI aparatinės įrangos sistemų ateitį, bendrauti su OCP bendruomene. Kartu spręsdami AI infrastruktūros poreikius galime atskleisti tikrąjį atviro AI pažadą visiems

Source link

Pristatome „Catalina: Open Architecture for AI Infra“.

„Grand Teton“ platforma dabar palaiko AMD greitintuvus

Atidarykite suskirstytą suplanuotą audinį

„Meta“ ir „Microsoft“: kartu skatiname atviras inovacijas

Atvira AI infrastruktūros ateitis

Susiję įrašai