Nuo ketinimo iki vykdymo: kaip „Microsoft“ paverčia didelius kalbinius modelius į veiksmą orientuotą AI

Dideli kalbos modeliai (LLM) pakeitė natūralios kalbos apdorojimo būdą. Jie gali atsakyti į klausimus, rašyti kodą ir palaikyti pokalbius. Tačiau jiems nepavyksta atlikti realaus pasaulio užduotis. Pavyzdžiui, LLM gali padėti jums nusipirkti striukę, bet negali pateikti užsakymo. Šis atotrūkis tarp mąstymo ir veikimo yra pagrindinis apribojimas. Žmonėms reikia ne tik informacijos; jie nori rezultatų.

Siekdama užpildyti šią spragą, „Microsoft“ paverčia LLM į veiksmus orientuotais AI agentais. Suteikdami jiems galimybę planuoti, skaidyti užduotis ir įsitraukti į sąveiką realiame pasaulyje, jie įgalina LLM efektyviai valdyti praktines užduotis. Šis pokytis gali iš naujo apibrėžti, ką LLM gali padaryti, paversdamas juos įrankiais, kurie automatizuoja sudėtingas darbo eigas ir supaprastina kasdienes užduotis. Pažiūrėkime, ko reikia, kad tai įvyktų, ir kaip „Microsoft“ sprendžia problemą.

Turinys:

Ką LLM turi veikti

Kad LLM galėtų atlikti užduotis realiame pasaulyje, jie turi ne tik suprasti tekstą. Jie turi sąveikauti su skaitmenine ir fizine aplinka, prisitaikydami prie kintančių sąlygų. Štai keletas jiems reikalingų galimybių:

Naudotojo ketinimų supratimas

Kad veiktų efektyviai, LLM turi suprasti vartotojų užklausas. Įvestis, pvz., teksto ar balso komandos, dažnai yra neaiški arba neišsami. Sistema turi užpildyti spragas, naudodama savo žinias ir užklausos kontekstą. Kelių etapų pokalbiai gali padėti patikslinti šiuos ketinimus ir užtikrinti, kad AI suprastų prieš imdamasi veiksmų.

Ketinimų pavertimas veiksmais

Supratę užduotį, LLM turi ją paversti veiksmingais veiksmais. Tai gali apimti mygtukų paspaudimą, API iškvietimą arba fizinių įrenginių valdymą. LLM turi modifikuoti savo veiksmus pagal konkrečią užduotį, prisitaikyti prie aplinkos ir spręsti kylančius iššūkius.

Prisitaikymas prie pokyčių

Realaus pasaulio užduotys ne visada vyksta taip, kaip planuota. LLM turi numatyti problemas, pakoreguoti veiksmus ir rasti alternatyvų, kai kyla problemų. Pavyzdžiui, jei nėra reikiamų išteklių, sistema turėtų rasti kitą būdą užduočiai atlikti. Šis lankstumas užtikrina, kad procesas nestigtų, kai viskas pasikeičia.

Specializuojasi atliekant specifines užduotis

Nors LLM yra skirtos bendram naudojimui, specializacija daro juos efektyvesnius. Sutelkiant dėmesį į konkrečias užduotis, šios sistemos gali pasiekti geresnių rezultatų su mažiau išteklių. Tai ypač svarbu įrenginiams su ribota skaičiavimo galia, pvz., išmaniesiems telefonams ar įterptoms sistemoms.

Lavindami šiuos įgūdžius, LLM gali ne tik apdoroti informaciją. Jie gali imtis prasmingų veiksmų, sudarydami sąlygas dirbtiniam intelektui sklandžiai integruotis į kasdienes darbo eigas.

Kaip „Microsoft“ keičia LLM

„Microsoft“ požiūris kuriant į veiksmą orientuotą AI yra struktūrizuotas. Pagrindinis tikslas yra leisti LLM suprasti komandas, efektyviai planuoti ir imtis veiksmų. Štai kaip jie tai daro:

1 veiksmas: duomenų rinkimas ir paruošimas

Pirmoje frazėje jie rinko duomenis, susijusius su konkrečiais jų naudojimo atvejais: NSO agentas (aprašyta toliau). Duomenys apima naudotojų užklausas, aplinkos informaciją ir konkrečias užduotis. Šiame etape renkami dviejų skirtingų tipų duomenys: pirma, jie surinko užduočių plano duomenis, padedančius LLM apibūdinti aukšto lygio veiksmus, reikalingus užduočiai atlikti. Pavyzdžiui, „Keisti šrifto dydį programoje Word“ gali apimti tokius veiksmus kaip teksto pasirinkimas ir įrankių juostos nustatymų koregavimas. Antra, jie rinko užduočių ir veiksmų duomenis, leidžiančius LLM šiuos veiksmus paversti tiksliomis instrukcijomis, pvz., spustelėti konkrečius mygtukus arba naudoti sparčiuosius klavišus.

Šis derinys suteikia modeliui bendrą vaizdą ir išsamias instrukcijas, kurių reikia norint efektyviai atlikti užduotis.

2 veiksmas: modelio mokymas

Surinkus duomenis, LLM patobulinami per kelias mokymo sesijas. Pirmuoju žingsniu LLM mokomi planuoti užduotis, mokant juos suskirstyti vartotojų užklausas į veiksmingus veiksmus. Tada ekspertų pažymėti duomenys naudojami mokant juos, kaip šiuos planus paversti konkrečiais veiksmais. Siekdami dar labiau pagerinti savo problemų sprendimo galimybes, LLM įsitraukė į save skatinantį tyrinėjimo procesą, kuris įgalina juos spręsti neišspręstas užduotis ir kurti naujus nuolatinio mokymosi pavyzdžius. Galiausiai taikomas stiprinamasis mokymasis, naudojant grįžtamąjį ryšį apie sėkmę ir nesėkmes, siekiant dar labiau pagerinti sprendimų priėmimą.

3 veiksmas: testavimas neprisijungus

Po apmokymo modelis išbandomas kontroliuojamoje aplinkoje, siekiant užtikrinti patikimumą. Našumui matuoti naudojama tokia metrika kaip užduočių sėkmės rodiklis (TSR) ir žingsnio sėkmės rodiklis (SSR). Pavyzdžiui, kalendoriaus valdymo agento testavimas gali apimti jo gebėjimo planuoti susitikimus ir siųsti kvietimus be klaidų patikrinimą.

4 veiksmas: integravimas į realias sistemas

Patvirtinus modelį, jis integruojamas į agento sistemą. Tai leido jai sąveikauti su realiomis aplinkomis, pvz., spustelėti mygtukus ar naršyti meniu. Įrankiai, tokie kaip UI automatizavimo API, padėjo sistemai dinamiškai atpažinti ir valdyti vartotojo sąsajos elementus.

Pavyzdžiui, jei jam pavesta paryškinti tekstą programoje „Word“, agentas identifikuoja paryškinimo mygtuką, pasirenka tekstą ir taiko formatavimą. Atminties komponentas galėtų padėti LLM sekti praeities veiksmus ir prisitaikyti prie naujų scenarijų.

5 veiksmas: testavimas realiame pasaulyje

Paskutinis žingsnis yra internetinis įvertinimas. Čia sistema išbandoma pagal realaus pasaulio scenarijus, siekiant užtikrinti, kad ji galėtų susidoroti su netikėtais pakeitimais ir klaidomis. Pavyzdžiui, klientų aptarnavimo robotas gali padėti vartotojams iš naujo nustatyti slaptažodį ir prisitaikyti prie neteisingos įvesties arba trūkstamos informacijos. Šis bandymas užtikrina, kad dirbtinis intelektas yra tvirtas ir paruoštas kasdieniam naudojimui.

Praktinis pavyzdys: NSO agentas

Siekdama parodyti, kaip veikia į veiksmą orientuotas dirbtinis intelektas, „Microsoft“ sukūrė NSO agentą. Ši sistema skirta vykdyti realaus pasaulio užduotis Windows aplinkoje, paverčiant vartotojo užklausas užbaigtais veiksmais.

Iš esmės NSO agentas naudoja LLM prašymams interpretuoti ir veiksmams planuoti. Pavyzdžiui, jei vartotojas sako: „Šiame dokumente paryškinkite žodį „svarbus“, agentas sąveikauja su „Word“, kad užbaigtų užduotį. Jis renka kontekstinę informaciją, pvz., vartotojo sąsajos valdiklių pozicijas, ir naudoja ją veiksmams planuoti ir vykdyti.

NSO agentas remiasi tokiais įrankiais kaip „Windows UI Automation“ (UIA) API. Ši API nuskaito programas, ieškodama valdymo elementų, pvz., mygtukų ar meniu. Atlikdamas tokią užduotį kaip „Išsaugoti dokumentą kaip PDF“, agentas naudoja UIA, kad nustatytų mygtuką „Failas“, surastų parinktį „Išsaugoti kaip“ ir atliktų reikiamus veiksmus. Nuosekliai struktūrizuojant duomenis, sistema užtikrina sklandų veikimą nuo mokymo iki realaus pritaikymo.

Iššūkių įveikimas

Nors tai yra įdomi plėtra, kuriant į veiksmą orientuotą dirbtinį intelektą kyla iššūkių. Mastelio keitimas yra pagrindinė problema. Šių modelių mokymas ir diegimas atliekant įvairias užduotis reikalauja didelių išteklių. Saugumo ir patikimumo užtikrinimas yra vienodai svarbus. Modeliai turi atlikti užduotis be nenumatytų pasekmių, ypač jautrioje aplinkoje. Kadangi šios sistemos sąveikauja su privačiais duomenimis, taip pat labai svarbu laikytis etikos standartų, susijusių su privatumu ir saugumu.

„Microsoft“ gairėse pagrindinis dėmesys skiriamas efektyvumo didinimui, naudojimo atvejų išplėtimui ir etikos standartų palaikymui. Dėl šių pažangų LLM galėtų iš naujo apibrėžti, kaip dirbtinis intelektas sąveikauja su pasauliu, todėl jie tampa praktiškesni, pritaikomi ir orientuoti į veiksmus.

AI ateitis

LLM pavertimas į veiksmą orientuotais agentais gali pakeisti žaidimą. Šios sistemos gali automatizuoti užduotis, supaprastinti darbo eigą ir padaryti technologijas prieinamesnes. „Microsoft“ darbas su į veiksmą orientuotu AI ir įrankiais, tokiais kaip NSO agentas, yra tik pradžia. Kadangi dirbtinis intelektas ir toliau vystosi, galime tikėtis išmanesnių, galingesnių sistemų, kurios ne tik bendraus su mumis – jos atliks darbus.

Source link

Ką LLM turi veikti

Naudotojo ketinimų supratimas

Ketinimų pavertimas veiksmais

Prisitaikymas prie pokyčių

Specializuojasi atliekant specifines užduotis