Multimodalinė AI – modeliai, galintys apdoroti kelių skirtingų tipų įvestis, tokias kaip kalba, tekstas ir vaizdai – keičia vartotojų patirtį nešiojamose vietose.
Su mūsų „Ray-Ban Meta“ akiniais multimodalinė AI padeda akiniams pamatyti, ką mato dėvėtojas. Tai reiškia, kad kiekvienas, dėvintis „Ray-Ban Meta“ akinius, gali užduoti jiems klausimų apie tai, ką jie žiūri. Akiniai gali suteikti informacijos apie orientyrą, išversti tekstą, į kurį žiūrite, ir daugybę kitų funkcijų.
Bet ko reikia norint įtraukti AI į nešiojamą įrenginį?
Šiame „Meta Tech Podcast“ epizode susitikite su Shane, „Meta“ mokslininku, kuris pastaruosius septynerius metus praleido sutelkdamas dėmesį į kompiuterinę viziją ir multimodalinę AI dėvimoms prekėms. Shane’as ir jo komanda atsiliko nuo pažangiausių AI tyrimų, tokių kaip „AnyMal“, vieningas kalbos modelis, galintis pagrįsti daugybę įvesties signalų, įskaitant tekstą, garso, vaizdo ir net IMU judesio jutiklio duomenis.
Shane’as atsisėda su Pascal Hartig, norėdamas pasidalyti, kaip jo komanda kuria pagrindinius „Ray-Ban Meta“ akinių modelius. Jie kalba apie unikalius AI taurių iššūkius ir AI varomosios nešiojamos technologijos ribas.
Nesvarbu, ar esate inžinierius, ar technikos entuziastas, ar tiesiog įdomu, šis epizodas turi ką nors visiems!
Atsisiųskite arba klausykite toliau pateikto epizodo:
Taip pat galite rasti epizodą visur, kur gausite savo podcast’us, įskaitant:
„Meta Tech“ podcast’as yra podcast’as, kurį jums atnešė „Meta“, kur mes pabrėžiame, kad „Meta“ inžinierių darbas daro bet kokį lygį-nuo žemo lygio rėmų iki galutinio vartotojo funkcijų.
Atsiųskite mums atsiliepimą apie „Instagram“, gijas arba X.
Ir jei jus domina daugiau sužinoti apie karjeros galimybes „Meta“, apsilankykite „Meta Careers“ puslapyje.
Nuorodos
Laiko žymos
- Įvadas 0:06
- OSS naujienos 0:56
- Įvadas Shane 1:30
- Tyrimo mokslininko vaidmuo laikui bėgant 3:03
- Kas yra daugialypė AI? 5:45
- Taikymas daugiarėžiais AI meta produktuose 7:21
- Akustiniai būdai, viršijantys kalbą 9:17
- Anmal 12:23
- Kodavimo zoologijos sodo 13:53
- 0-shot spektaklis 16:25
- Pakartojimas modeliuose 17:28
- LLM parametro dydis 19:29
- Kaip mes apdorojame užklausą iš akinių? 21:53
- Judančių vaizdų apdorojimas 23:44
- Mascing iki milijardų vartotojų 26:01
- Kur slypi optimizavimo potencialas? 28:12
- Įtraukus grįžtamąjį ryšį 29:08
- Atviro kodo įtaka 31:30
- Būk mano akių programa 33:57
- Darbas su pramonės ekspertais Meta 36:18
- Kiti 38:55