OCP Summit 2024: atvira DI tinklo aparatinės įrangos ateitis


  • „Open Compute Project Summit“ (OCP) 2024 m. dalinamės informacija apie naujos kartos tinklo struktūrą, skirtą mūsų AI mokymo klasteriams.
  • Išplėtėme tinklo aparatinės įrangos portfelį ir prie OCP pridedame du naujus išskaidytus tinklo elementus ir naują NIC.
  • Tikimės tęstinio bendradarbiavimo su OCP, kad sukurtume stelažų, serverių, saugojimo dėžučių ir pagrindinių plokščių dizainus, kurie būtų naudingi visų dydžių įmonėms visoje pramonės šakoje.

„Meta“ tikime, kad atvira aparatinė įranga skatina naujoves. Šiuolaikiniame pasaulyje, kur vis daugiau duomenų centrų infrastruktūros skiriama naujoms ir atsirandančioms AI technologijoms palaikyti, atviroji aparatinė įranga atlieka svarbų vaidmenį padedant skaidyti. Suskaidydami tradicines duomenų centrų technologijas į jų pagrindinius komponentus, galime sukurti naujas lankstesnes, keičiamo dydžio ir efektyvesnes sistemas.

Nuo tada, kai 2011 m. padėjome įkurti OCP, bendriname savo duomenų centro ir komponentų dizainą ir sukūrėme atvirojo kodo tinklo orkestravimo programinę įrangą, kad sukurtume naujų idėjų tiek savo duomenų centruose, tiek visoje pramonėje. Šios idėjos sukūrė „Meta“ duomenų centrus vienas tvariausių ir efektyviausių pasaulyje. Dabar naudodami OCP į savo duomenų centrus ir platesnę pramonę pristatome naujas atviro pažangiojo tinklo technologijas, skirtas pažangioms AI programoms.

Skelbiame du naujus mūsų duomenų centrų etapus: mūsų naujos kartos AI tinklo struktūrą ir naują tinklo aparatinės įrangos portfelį, kurį sukūrėme glaudžiai bendradarbiaudami su keliais pardavėjais.

Išskaidyti tinklo audiniai suteikia didelių mastelio pranašumų, palyginti su modulinės važiuoklės audinio jungikliais.

DSF: suplanuotas audinys, kuris yra išskaidytas ir atviras

Tinklo našumas ir pasiekiamumas vaidina svarbų vaidmenį siekiant išgauti geriausią našumą AI mokymo klasteriai. Dėl šios priežasties mes ir toliau stengėmės išskaidyti savo AI grupių vidinius tinklus. Per pastaruosius metus sukūrėme išskaidytą planuotą audinį (DSF), skirtą mūsų naujos kartos AI klasteriams, kad padėtų mums kurti atviras, pardavėjų agnostines sistemas su keičiamais statybiniais blokais iš pardavėjų visoje pramonėje. DSF pagrindu pagaminti audiniai leidžia mums sukurti didelius, neblokuojančius audinius, kad palaikytų didelio pralaidumo AI grupes.

DSF išplečia mūsų išskaidymo tinklo sistemas į VoQ pagrįstas perjungiamas sistemas, kurios maitinamos atviru režimu OCP-SAI standartinis ir FBOSS„Meta“ tinklo operacinė sistema, skirta tinklo jungikliams valdyti. VoQ pagrįstas srauto planavimas užtikrina aktyvų spūsčių išvengimą audinyje, o ne reaktyvų spūsčių signalizavimą ir reakciją.

DSF audinys palaiko atvirą ir standartinę Ethernet pagrindu veikiančią RoCE sąsają su galiniais taškais ir greitintuvais keliuose xPU ir NIC, įskaitant Meta. VRM taip pat iš kelių pardavėjų.

DSF platformos naujos kartos AI audiniams

Arista 7700R4 serija

DSF platformas, Arista 7700R4 seriją, sudaro specialios lapų ir stuburo sistemos, kurios yra sujungtos, kad būtų sukurtas didelis, paskirstytas jungiklis. Kaip paskirstyta sistema, DSF sukurta palaikyti didelio masto AI grupes.

7700R4C-38PE: DSF lapų jungiklis

  • DSF paskirstytų lapų jungiklis (pagrįstas „Broadcom Jericho3-AI“)
  • 18 x 800GE (36 x 400GE) OSFP800 pagrindinio kompiuterio prievadai
  • 20 x 800 Gbps (40 x 400 Gbps) audinio prievadai
  • 14,4 Tbps laidų sparta su 16 GB buferių

7720R4-128PE: DSF nugaros jungiklis

  • DSF paskirstytas stuburo jungiklis (pagrįstas „Broadcom Ramon3“)
  • Pagreitintas skaičiavimo optimizuotas dujotiekis
  • 128 x 800 Gbps (256 x 400 Gbps) audinio prievadai
  • 102,4 Tbps laidinio greičio našumas

51T jungikliai naujos kartos 400G/800G audiniams

Minipack3 („Broadcom Tomahawk5“ pagrindu, sukurta „Meta“ ir pagaminta „Celestica“) 51.2T jungiklis.

„Meta“ įdiegs du naujos kartos 400G audinio jungiklius „Minipack3“ (naujausia Minipakelispaties Meta audinio tinklo jungiklis) ir Cisco 8501, kurie abu taip pat yra suderinami su ankstesniais 200G ir 400G jungikliais ir palaikys atnaujinimus iki 400G ir 800G.

Minipack3 naudoja naujausią Broadcom Tomahawk5 ASIC, o Cisco 8501 yra pagrįsta Cisco Silicon One G200 ASIC. Šie didelio našumo jungikliai perduoda iki 51,2 Tb/s spartą su 64x OSFP prievadais, o dizainas optimizuotas nereikalaujant reterių, kad būtų pasiektas maksimalus energijos vartojimo efektyvumas. Jie taip pat turi žymiai sumažintą galią vienam bitui, palyginti su ankstesniais modeliais.

„Meta“ veiks ir „Minipack3“, ir „Cisco 8501“ per FBOSS.

Cisco 8501 (pagrįstas Cisco Silicon One G200, sukurtas ir pagamintas Cisco) 51.2T jungiklis.

Optika: 2x400G FR4 optika 400G/800G optiniam sujungimui

„Meta“ duomenų centro audiniai išaugo nuo 200 Gbps / 400 Gbps iki 400 Gbps / 800 Gbps ir savo duomenų centruose jau įdiegėme 2x400G optiką.

Plėtojamas FBOSS ir SAI DSF

Mes ir toliau naudojame OCP-SAI, kad įdiegtume naujus tinklo audinius, perjungtume aparatinės įrangos platformas ir optinius siųstuvus-imtuvus į FBOSS. Bendradarbiavome su pardavėjais ir OCP bendruomene, siekdami tobulinti SAI. Dabar jis palaiko naujas funkcijas ir koncepcijas, pvz., DSF ir kitas patobulintas maršruto parinkimo schemas.

Kūrėjai ir inžinieriai iš viso pasaulio gali dirbti su šia atvira aparatine įranga ir pridėti savo programinę įrangą, kurią jie, savo ruožtu, gali naudoti patys ir dalytis su platesne pramone.

FBNIC: „Meta“ sukurtas daugialypis pagrindinis NIC

Mes ir toliau kuriame daugiau ASIC, įskaitant FBNIC skirtą ASIC. FBNIC yra tikras daugiafunkcinis pagrindinis NIC ir jame yra pirmasis mūsų metasukurtas tinklo ASIC mūsų serverių parkui ir VRM sprendimus. Jis gali palaikyti iki keturių pagrindinių kompiuterių su visišku kiekvieno pagrindinio kompiuterio duomenų kelio izoliavimu. FBNIC tvarkyklė buvo perkelta aukštyn (pasiekiama iš v6.11 branduolio). NIC modulį sukūrė „Marvell“ ir jis buvo įtrauktas į OCP.

Pagrindinės FBNIC funkcijos:

  • Tinklo sąsajos iki 4×100/4×50/4×25 GE su SerDes palaikymu iki 56G PAM4 vienoje juostoje.
  • Iki 4 nepriklausomų PCIe Gen5 dalių
  • HW iškrovimai, įskaitant LSO, kontrolinę sumą
  • Linijinės spartos laiko žymėjimas (kiekvienam pagrindiniam kompiuteriui iki PHY) PTP
  • Antraštės ir duomenų padalijimas, kad būtų lengviau kopijuoti nulinę kopiją
  • Suderinamas su OCP NIC 3.0, 1.2.0 versija, dizaino specifikacija

Ateitis atvira

Tobulinti AI reiškia kurti duomenų centro infrastruktūrą, kuri peržengia masto ribas. Jis taip pat turi būti lankstesnis ir efektyvus bei tvarus. „Meta“ mes įsivaizduojame AI aparatūros sistemų ateitį, kuri yra ne tik keičiamo dydžio, bet ir atvira bei bendradarbiaujanti.

Raginame visus, norinčius padėti plėtoti DI tinklo aparatinės įrangos ateitį, bendradarbiauti su OCP ir Meta, kad padėtų dalytis AI infrastruktūros ateitimi.





Source link

Draugai: - Marketingo paslaugos - Teisinės konsultacijos - Skaidrių skenavimas - Fotofilmų kūrimas - Karščiausios naujienos - Ultragarsinis tyrimas - Saulius Narbutas - Įvaizdžio kūrimas - Veidoskaita - Nuotekų valymo įrenginiai -  Padelio treniruotės - Pranešimai spaudai -