AI vaidina pagrindinį vaidmenį kuriant vertingus ryšius tarp žmonių ir reklamuotojų „Meta“ programų šeimoje. Meta skelbimų rekomendacijų variklis, maitinamas gilaus mokymosi rekomendacijų modeliai (DLRM)padėjo žmonėms teikti suasmenintus skelbimus. Šios sėkmės raktas buvo tūkstančiai žmogaus sukurtų signalų ar funkcijų į DLRM pagrįstą rekomendacijų sistemą.
Nepaisant didžiulio duomenų kiekio mokymo, dabartinės DLRM pagrįstos skelbimų rekomendacijos su rankiniu funkcijų inžinieriumi yra ribotos, nes DLRM nesugeba panaudoti nuoseklios informacijos iš žmonių patirties duomenų. Siekiant geriau užfiksuoti patirtinį elgesį, skelbimų rekomendacijų modeliai buvo pakeisti iš esmės dviem aspektais:
- Įvykiais pagrįstas mokymasis: mokymosi reprezentacijų tiesiogiai iš asmens įsitraukimo ir konversijos įvykių, o ne tradicinių žmogaus sukurtų savybių.
- Mokymasis iš sekų: naujų sekų mokymosi architektūrų kūrimas, pakeisiantis tradicines DLRM neuroninių tinklų architektūras.
Įtraukus šiuos natūralios kalbos supratimo ir kompiuterinio matymo patobulinimus, naujos kartos „Meta“ skelbimų rekomendacijų variklis pašalina tradicinių DLRM apribojimus, todėl žmonėms rodomi tinkamesni skelbimai, didesnė vertė reklamuotojams ir geresnis infrastruktūros efektyvumas.
Šios naujovės leido mūsų skelbimų sistemai geriau suprasti žmonių elgesį prieš ir po skelbimo konvertavimo, todėl galime daryti išvadą apie kitą atitinkamų skelbimų rinkinį. Nuo pat pristatymo naujoji skelbimų rekomendacijų sistema pagerino skelbimų numatymo tikslumą, todėl reklamuotojams suteikiama didesnė vertė ir pasirinktuose segmentuose sulaukiama 2–4 % daugiau konversijų.
Skelbimų rekomendacijų DLRM apribojimai
„Meta“ suasmenintų skelbimų DLRM remiasi daugybe signalų, kad suprastų žmonių ketinimus pirkti ir pageidavimus. DLRM pakeitė mokymąsi iš negausūs bruožaikurie fiksuoja asmens sąveiką tokiuose subjektuose kaip „Facebook“ puslapiai, kurių kardinaliai dažnai siekia milijardus. DLRM sėkmė grindžiama jų gebėjimu išmokti apibendrinamų, didelių matmenų vaizdų, ty įterpimų iš negausių funkcijų.
Norint panaudoti dešimtis tūkstančių tokių funkcijų, naudojamos įvairios strategijos, skirtos funkcijoms derinti, tarpiniams atvaizdams transformuoti ir galutiniams išvestims sudaryti. Toliau, sanalizuoti savybes yra kuriami apibendrinant asmens veiksmų atributus įvairiais laiko langeliais su skirtingais duomenų šaltiniais ir agregavimo schemomis.
Kai kurie taip sukurtų senų retų funkcijų pavyzdžiai būtų:
- Skelbimai, kuriuos asmuo spustelėjo per pastarąsias N dienų → (Ad-id1, Ad-id2, Ad-id3, …, Ad-idN)
- „Facebook“ puslapiai, kuriuos asmuo aplankė per pastarąsias M dienų, nurodant, kiek apsilankymų kiekviename puslapyje → ((Puslapio ID1, 45), (Puslapio ID2, 30), (Puslapio ID3, 8), …)
Žmogaus sukurtos negausios funkcijos, kaip aprašyta aukščiau, keletą metų buvo kertinis akmuo teikiant suasmenintus DLRM rekomendacijas. Tačiau šis metodas turi apribojimų:
- Nuoseklios informacijos praradimas: sekos informacija, ty asmens įvykių eiliškumas, gali suteikti vertingų įžvalgų, susijusių su geresnių skelbimų rekomendacijomis, susijusiomis su asmens elgesiu. Reti funkcijų agregatai praranda nuoseklią informaciją asmens kelionėse.
- Išsamios informacijos praradimas: smulki informacija, pvz., atributų išdėstymas tame pačiame įvykyje, prarandama, nes funkcijos kaupiamos įvairiuose įvykiuose.
- Pasitikėjimas žmogaus intuicija: mažai tikėtina, kad žmogaus intuicija atpažins neintuityvią, sudėtingą sąveiką ir modelius iš daugybės duomenų.
- Perteklinė funkcijų erdvė: naudojant skirtingas apibendrinimo schemas sukuriami keli funkcijų variantai. Nors sutampančios agregacijos suteikia papildomos vertės, padidina skaičiavimo ir saugojimo išlaidas, o funkcijų valdymas tampa sudėtingas.
Žmonių interesai laikui bėgant kinta su nuolat besikeičiančiais ir dinamiškais ketinimais. Tokį sudėtingumą sunku modeliuoti naudojant rankų darbo funkcijas. Šios sąveikos modeliavimas padeda geriau suprasti asmens elgesį laikui bėgant ir gauti geresnių skelbimų rekomendacijų.
Paradigmos pokytis mokantis iš rekomendacijų sistemų sekų
Naujoji „Meta“ skelbimų rekomendacijų sistema naudoja sekos mokymąsi. Dėl to reikėjo visiškai pertvarkyti skelbimų rekomendacijų sistemą, susijusią su duomenų saugykla, funkcijų įvesties formatais ir modelio architektūra. Perprojektuojant reikėjo sukurti naują į žmones orientuotą infrastruktūrą, mokyti ir optimizuoti pažangiausias sekos mokymosi architektūras ir modelio / sistemos kodą, kad būtų galima efektyviai keisti mastelį.
Įvykiu pagrįstos funkcijos
Įvykiais pagrįstos funkcijos (EBF) yra naujų sekos mokymosi modelių pagrindiniai elementai. EBF – tradicinių funkcijų atnaujinimas – standartizuoja nevienalytes įvestis į sekos mokymosi modelius trimis aspektais:
- Įvykių srautai: EBF duomenų srautas, pvz., naujausių skelbimų, su kuriais susidomėjo žmonės, seka arba žmonėms patikusių puslapių seka.
- Sekos ilgis apibrėžia, kiek naujausių įvykių įtraukta iš kiekvieno srauto, ir nustatoma pagal kiekvieno srauto svarbą.
- Įvykio informacija: užfiksuoja semantinę ir kontekstinę informaciją apie kiekvieną srauto įvykį, pvz., skelbimo kategoriją, su kuria užsiima asmuo, ir įvykio laiko žymą.
Kiekvienas EBF yra vienas nuoseklus objektas, fiksuojantis visą pagrindinę informaciją apie įvykį. EBF leisk mums įtraukti turtingą informaciją ir sistemingai keisti įvestis. EBF sekos pakeičia senas negausias funkcijas kaip pagrindines rekomendacijų modelių įvestis. Kartu su toliau aprašytais įvykių modeliais EBF nukrypo nuo žmogaus sukurtų funkcijų agregacijų.
Sekos modeliavimas naudojant EBF
Įvykio modelis sintezuoja įvykių įterpimus iš įvykio atributų. Jis išmoksta kiekvieno atributo įterpimus ir naudoja linijinį glaudinimą, kad juos apibendrintų į vieną priskiriamą įvykį pagrįstą įterpimą. Įvykiai yra užkoduoti laiko žyma, kad būtų užfiksuotas jų naujausias laikas ir laiko tvarka. Įvykio modelis sujungia laiko žymos kodavimą su sintezuotu įvykio atributu pagrįstu įterpimu, kad būtų sukurtas galutinis įvykio lygio atvaizdavimas – taip EBF seka paverčiama įvykių įterpimo seka.
Tai panašu į tai, kaip kalbos modeliai naudoja įterpimus žodžiams pavaizduoti. Skirtumas tas, kad EBF žodynas yra daug dydžių didesnis nei natūrali kalba, nes jie kilę iš nevienalyčių įvykių srautų ir apima milijonus subjektų.
Tada įvykių modelio įvykių įterpimai įvedami į sekos modelį naujos kartos skelbimų rekomendacijų sistemos centre. Įvykių sekos modelis yra asmens lygio įvykių apibendrinimo modelis, kuriame naudojami nuoseklūs įvykių įterpimai. Jame naudojami moderniausi dėmesio mechanizmai į sintetinti įvykių įterpimus į iš anksto nustatytą įterpimų skaičių, kurį įveda skelbimas, kurio reitingas. Naudojant tokius metodus kaip kelių galvų dėmesio sutelkimas, dėmesio į save modulio sudėtingumas sumažėja O(N*N) į O(M*N) . M yra derinamas parametras, o N yra didžiausias įvykių sekos ilgis.
Toliau pateiktame paveikslėlyje pavaizduoti skirtumai tarp DLRM su žmogaus sukurtų funkcijų paradigma (kairėje) ir sekos modeliavimo paradigmos su EBF (dešinėje) iš asmens įvykių srauto perspektyvos.
Naujos sekos mokymosi paradigmos mastelis
Po naujo dizaino perėjus nuo retų funkcijų mokymosi prie įvykiais pagrįsto sekos mokymosi, kitas dėmesys buvo skiriamas mastelio keitimui dviejose srityse – sekos mokymosi architektūros mastelio keitimas ir įvykių sekų mastelio keitimas, kad būtų ilgesnės ir turtingesnės.
Mastelio keitimo sekos mokymosi architektūros
Buvo sukurta pritaikyta transformatoriaus architektūra, apimanti sudėtingas funkcijų kodavimo schemas, kad būtų galima visiškai modeliuoti nuoseklią informaciją, kad būtų galima greičiau ištirti ir pritaikyti naujausius rekomendacijų sistemų metodus. Pagrindinis šio architektūrinio požiūrio iššūkis yra pasiekti gamybos našumo ir efektyvumo reikalavimus. Užklausa „Meta“ skelbimų rekomendacijų sistemai turi reitinguoti tūkstančius skelbimų per kelis šimtus milisekundžių.
Norint padidinti vaizdavimo mokymąsi, kad būtų užtikrintas didesnis tikslumas, naudojamas esamas sumų kaupimo metodas buvo pakeistas su nauja architektūra, kuri išmoko funkcijų sąveiką iš nesujungtų įterpimų. Nors ankstesnė sistema, pagrįsta agreguotomis funkcijomis, buvo labai optimizuota fiksuoto ilgio įterpimams, kurie sujungiami paprastais metodais, pvz., vidurkinimu, sekų mokymasis kelia naujų iššūkių, nes skirtingi žmonės turi skirtingą įvykių trukmę. Dėl ilgesnių kintamo ilgio įvykių sekos, kurias vaizduoja nelygūs įterpimo tenzoriai ir nesujungti įterpimai, atsiranda didesnės skaičiavimo ir ryšio sąnaudos su didesne dispersija.
Šis augančių sąnaudų iššūkis sprendžiamas pritaikant aparatūros kodo dizaino naujoves, skirtas palaikyti dantytas tenzores, būtent:
- Natūralios „PyTorch“ galimybės palaikyti dantytus tenzorius.
- Branduolio lygio optimizavimas, skirtas apdoroti nelygius GPU tenzorius.
- A Nelygus blykstės dėmesys modulis, skirtas palaikyti „Flash Attention on Jagged tensors“.
Mastelio keitimas naudojant ilgesnes, turtingesnes sekas
„Meta“ naujos kartos rekomendacijų sistemos gebėjimas mokytis tiesiogiai iš įvykių sekos, kad būtų galima geriau suprasti žmonių pageidavimus, dar labiau pagerintas naudojant ilgesnes sekas ir turtingesnius įvykių atributus.
Sekos mastelio keitimas apima:
- Mastelio keitimas ilgesnėmis sekomis: Didėjantis sekos ilgis suteikia gilesnių įžvalgų ir konteksto apie asmens interesus. Norint efektyviai keisti sekos ilgį, naudojami tokie metodai kaip kelių tikslumo kvantavimas ir verte pagrįsti atrankos metodai.
- Mastelio keitimas naudojant turtingesnę semantiką: EBF leidžia mums užfiksuoti turtingesnius semantinius signalus apie kiekvieną įvykį, pvz., naudojant daugiarūšio turinio įterpimą. Norint efektyviai užkoduoti kiekvieno įvykio įterpimo atributus, naudojami pritaikyti vektoriaus kvantavimo metodai. Taip gaunamas informatyvesnis galutinio įvykio įterpimo vaizdas.
Sekos mokymosi poveikis ir ateitis
Įvykių sekos mokymosi paradigma buvo plačiai pritaikyta visose „Meta“ skelbimų sistemose, todėl pagerėjo skelbimų tinkamumas ir našumas, veiksmingesnė infrastruktūra ir pagreitintas tyrimų greitis. Kartu su mūsų dėmesys pažengusiems transformatorių architektūrosįvykių sekos mokymasis pakeitė „Meta“ požiūrį į skelbimų rekomendacijų sistemas.
Ateityje dėmesys bus skiriamas tolesniam įvykių sekų mastelio keitimui 100 kartų, efektyvesnių sekos modeliavimo architektūrų, pvz., linijinio dėmesio ir būsenos erdvės modelių, kūrimui, rakto vertės (KV) talpyklos optimizavimui ir daugiarūšiam įvykių sekų praturtinimui.
Padėkos
Norėtume padėkoti Neeradžas BhatiaZhirong Chen, Parshva Doshi, Džonatanas Herbachas, Yuxi HuAbha Jain, Kun Jiang, Santanu KolayBoyang Li, Hong Li, Paolo Massimi, Sandeep Pandey, Dinesh Ramasamy, Ketanas SinghasDoris Wang, Rengan Xu, Junjie Yang ir visa įvykių sekos mokymosi komanda, dalyvaujanti kuriant ir kuriant naujos kartos sekų mokymu pagrįstą skelbimų rekomendacijų sistemą.