Mažų samprotavimų modelių kilimas: Ar galite kompaktiškas AI atitikimo GPT lygio pagrindimas?

Pastaraisiais metais AI lauką sužavėjo didelių kalbų modelių (LLMS) sėkmė. Iš pradžių sukurti natūralios kalbos apdorojimui, šie modeliai tapo galingais samprotavimo priemonėmis, galinčiomis kovoti su sudėtingomis problemomis, susijusiomis su žmogaus panašiu žingsnis po žingsnio minties procesu. Tačiau, nepaisant išskirtinių samprotavimų sugebėjimų, LLMS turi didelių trūkumų, įskaitant dideles skaičiavimo išlaidas ir lėtą diegimo greitį, todėl jie nepraktiški realiame pasaulyje naudojimui naudojamiems suvaržytose aplinkose, tokiose kaip mobilieji įrenginiai ar kraštų skaičiavimas. Tai lėmė didėjantį susidomėjimą kurti mažesnius, efektyvesnius modelius, kurie gali pasiūlyti panašias samprotavimo galimybes, tuo pačiu sumažinant išlaidas ir išteklių poreikius. Šiame straipsnyje nagrinėjami šių mažų samprotavimo modelių, jų galimybių, iššūkių ir padarinių AI ateičiai kilimas.

Turinys:

Perspektyvos poslinkis

Didžiojoje pastarojo meto AI istorijoje sritis laikėsi „mastelio įstatymų“ principo, kuris rodo, kad modelio našumas pagerėja kaip duomenys, skaičiuojamos galios ir modelio dydžio padidėjimas. Nors šis požiūris davė galingus modelius, jis taip pat sukėlė reikšmingų kompromisų, įskaitant dideles infrastruktūros sąnaudas, poveikį aplinkai ir latencijos problemas. Ne visoms programoms reikalingas visas masinių modelių, turinčių šimtus milijardų parametrų, galimybes. Daugeliu praktinių atvejų, tokių kaip padėjėjai įrenginiuose, sveikatos priežiūros ir švietimo srityse-menkavertės modeliai gali pasiekti panašių rezultatų, jei jie gali efektyviai pagrįsti.

Suprasti samprotavimus AI

AI samprotavimai reiškia modelio gebėjimą sekti logines grandines, suprasti priežastį ir pasekmes, išskaičiuoti pasekmes, suplanuoti proceso veiksmus ir nustatyti prieštaravimus. Kalbų modeliams tai dažnai reiškia ne tik informacijos gavimą, bet ir manipuliavimą bei išvadą apie informaciją, naudojant struktūrizuotą, žingsnis po žingsnio metodą. Šis samprotavimų lygis paprastai pasiekiamas tiksliai suderinant LLM, kad būtų galima atlikti daugiapakopius samprotavimus prieš atvykstant į atsakymą. Nors šie metodai yra veiksmingi, jie reikalauja reikšmingų skaičiavimo išteklių ir gali būti lėtai ir brangūs diegti, keliant susirūpinimą dėl jų prieinamumo ir poveikio aplinkai.

Suprasti mažus samprotavimo modelius

Mažų samprotavimo modelių siekiama atkartoti didelių modelių pagrindimo galimybes, tačiau didesnį efektyvumą skaičiavimo galios, atminties naudojimo ir latencijos efektyvumu. Šie modeliai dažnai naudoja techniką, vadinamą žinių distiliavimu, kai mažesnis modelis („studentas“) mokosi iš didesnio iš anksto išmokyto modelio („mokytojas“). Distiliavimo procesas apima mažesnio modelio, kurį sukuria didesnis, mokymas, siekiant perkelti samprotavimo galimybes. Tada studentų modelis yra patobulintas, kad pagerintų jo našumą. Kai kuriais atvejais sustiprinimo mokymasis naudojant specializuotas domeno sritis, skirtas atlygio funkcijoms, siekiant dar labiau sustiprinti modelio gebėjimą atlikti konkrečius užduoties pagrindus.

Mažų samprotavimų modelių kilimas ir pažanga

Ryškus etapas kuriant mažus samprotavimo modelius buvo išleistas „Deepseek-R1“. Nepaisant to, kad jis buvo mokomas palyginti kuklų senesnių GPU grupių, „Deepseeek-R1“ našumas buvo panašus į didesnius modelius, tokius kaip „Openai“ O1, tokiuose etalonuose kaip MMLU ir GSM-8K. Šis pasiekimas paskatino persvarstyti tradicinį mastelio keitimo metodą, kuris darė prielaidą, kad didesni modeliai iš prigimties buvo pranašesni.

„Deepseeek-R1“ sėkmė gali būti priskiriama jo novatoriškam mokymo procesui, kuris sujungė didelio masto stiprinimo mokymąsi, nesikreipiant į prižiūrimą patobulinimą ankstyvajame etape. Ši naujovė paskatino sukurti „Deepseek-R1-Zero“-modelį, kuris parodė įspūdingus samprotavimo sugebėjimus, palyginti su dideliais samprotavimo modeliais. Tolesni patobulinimai, tokie kaip šalto starto duomenų naudojimas, padidino modelio darną ir užduoties vykdymą, ypač tokiose srityse kaip matematika ir kodas.

Be to, pasirodė, kad distiliavimo metodai yra labai svarbūs kuriant mažesnius, efektyvesnius didesnių modelių modelius. Pavyzdžiui, „Deepseek“ išleido distiliuotas savo modelių versijas, kurių dydžiai svyruoja nuo 1,5 milijardo iki 70 milijardų parametrų. Naudodamiesi šiais modeliais, tyrėjai išmokė palyginti mažesnį modelį „Deepseek-R1-Distill-QWEN-32B“, kuris aplenkė „Openai“ O1-mini įvairiuose etalonuose. Šie modeliai dabar yra naudojami naudojant standartinę aparatinę įrangą, todėl jie yra perspektyvesni variantams įvairioms programoms.

Ar maži modeliai gali atitikti GPT lygio samprotavimus

Norint įvertinti, ar maži samprotavimų modeliai (SRMS) gali atitikti didelių modelių (LRMS), tokių kaip GPT, samprotavimų galią, svarbu įvertinti jų našumą standartiniuose etalonuose. Pavyzdžiui, „Deepseeek-R1“ modelis MMLU teste įvertino apie 0,844, panašų į didesnius modelius, tokius kaip O1. „GSM-8K“ duomenų rinkinyje, kuriame pagrindinis dėmesys skiriamas klasių mokyklos matematikai, „Deepseeek-R1“ distiliuotas modelis pasiekė aukščiausios pakopos našumą, pranokdamas tiek O1, tiek O1-mini.

Kodavimo užduotyse, tokiose kaip „LiveCodeBench“ ir „Codeforces“, „Deepseeek-R1“ distiliuoti modeliai buvo atlikti panašiai kaip O1-Mini ir GPT-4o, parodant stiprias programavimo galimybes. Tačiau didesni modeliai vis dar turi pranašumą atliekant užduotis, reikalaujančias platesnio kalbos supratimo ar ilgų kontekstinių langų tvarkymo, nes mažesni modeliai paprastai būna konkretesni užduotims.

Nepaisant jų stipriųjų pusių, maži modeliai gali kovoti su išplėstinėmis samprotavimo užduotimis arba susidūrę su duomenimis dėl paskirstymo. Pavyzdžiui, atliekant LLM šachmatų modeliavimą, „Deepseek-R1“ padarė daugiau klaidų nei didesni modeliai, o tai rodo, kad jos gebėjimas išlaikyti dėmesį ir tikslumą ilgą laiką.

Kompromisai ir praktiniai padariniai

Modelio dydžio ir našumo kompromisai yra labai svarbūs lyginant SRM su GPT lygio LRM. Mažesniems modeliams reikia mažiau atminties ir skaičiavimo galios, todėl jie yra idealūs krašto įrenginiams, programoms mobiliesiems ar situacijoms, kuriose būtina daryti išvadą neprisijungus. Šis efektyvumas padidina mažesnes eksploatavimo išlaidas, o modeliai, tokie kaip „Deepseek-R1“, yra iki 96% pigesnių nei didesni modeliai, tokie kaip O1.

Tačiau šis efektyvumo padidėjimas yra su tam tikrais kompromisais. Mažesni modeliai paprastai yra tiksliai suderinti su konkrečiomis užduotimis, kurios gali apriboti jų universalumą, palyginti su didesniais modeliais. Pvz., Nors „Deepseek-R1“ išsiskiria matematikos ir kodavimo srityje, jam trūksta daugialypės galimybių, tokių kaip galimybė interpretuoti vaizdus, kuriuos gali valdyti didesni modeliai, tokie kaip „GPT-4o“.

Nepaisant šių apribojimų, praktinis mažų samprotavimo modelių pritaikymas yra platus. Sveikatos priežiūros srityje jie gali maitinti diagnostikos priemones, kurios analizuoja medicininius duomenis standartiniuose ligoninių serveriuose. Šv. Moksliniuose tyrimuose jie gali padėti analizuoti duomenų analizę ir hipotezės tyrimus tokiose srityse kaip matematika ir fizika. Tokių modelių kaip „Deepseek-R1“ atvirojo kodo pobūdis taip pat skatina bendradarbiavimą ir demokratizuoja prieigą prie AI, suteikiant galimybę mažesnėms organizacijoms gauti naudos iš pažangių technologijų.

Esmė

Kalbų modelių raida mažesniuose samprotavimo modeliuose yra reikšmingas PG tobulėjimas. Nors šie modeliai dar gali nevisiškai atitikti plačias didelių kalbos modelių galimybes, jie siūlo pagrindinius efektyvumo, ekonominio efektyvumo ir prieinamumo pranašumus. Stebėdami pusiausvyrą tarp samprotavimo galios ir išteklių efektyvumo, mažesni modeliai yra skirti atlikti lemiamą vaidmenį įvairiose programose, todėl AI yra praktiškesni ir tvaresni realiojo pasaulio naudojimui.

Source link