2025 m. Balandžio 16 d. „Openai“ išleido patobulintas savo pažangių samprotavimo modelių versijas. Šie nauji modeliai, pavadinti O3 ir O4-mini, siūlo atitinkamai patobulinimus, palyginti su jų pirmtakais, O1 ir O3-Mini. Naujausi modeliai suteikia geresnį našumą, naujas funkcijas ir didesnį prieinamumą. Šiame straipsnyje nagrinėjami pirminiai O3 ir O4-MINI pranašumai, aprašomos jų pagrindinės galimybės ir aptariama, kaip jie galėtų paveikti AI programų ateitį. Bet prieš pasinerdami į tai, kas daro O3 ir O4-MINI, svarbu suprasti, kaip „Openai“ modeliai laikui bėgant vystėsi. Pradėkime nuo trumpos „Openai“ kelionės apžvalgos kuriant vis galingesnes kalbos ir samprotavimo sistemas.
„Openai“ didelių kalbos modelių evoliucija
„Openai“ didelių kalbų modelių kūrimas prasidėjo nuo GPT-2 ir GPT-3, dėl kurių „ChatGPT“ buvo naudojamas naudojimui dėl jų sugebėjimo sukurti sklandų ir kontekstinį tikslų tekstą. Šie modeliai buvo plačiai priimti atliekant tokias užduotis kaip apibendrinimas, vertimas ir atsakymai į klausimus. Tačiau vartotojams pritaikius sudėtingesnius scenarijus, jų trūkumai tapo aiškūs. Šie modeliai dažnai kovojo su užduotimis, kurioms reikėjo gilių samprotavimų, loginio nuoseklumo ir kelių žingsnių problemų sprendimo. Siekdamas išspręsti šiuos iššūkius, „Openai“ pristatė GPT-4 ir nukreipė dėmesį į savo modelių samprotavimo galimybių gerinimą. Šis poslinkis paskatino O1 ir O3-mini vystymąsi. Abu modeliai naudojo metodą, vadinamą mąstymo raginimu, kuris leido jiems sugeneruoti logiškesnius ir tikslius atsakymus, pagrįstus žingsnis po žingsnio. Nors O1 yra skirtas pažangių problemų sprendimo poreikiams, „O3-Mini“ yra sukurtas taip, kad būtų užtikrintas panašias galimybes efektyviau ir ekonomiškiau. Remdamasis šiuo pagrindu, „Openai“ dabar pristatė O3 ir O4-Mini, o tai dar labiau padidina jų LLM samprotavimo gebėjimus. Šie modeliai yra sukurti siekiant pateikti tikslesnius ir gerai apgalvotus atsakymus, ypač tokiose techninėse srityse kaip programavimas, matematika ir mokslinė analizė, kur loginis tikslumas yra kritinis. Kitame skyriuje mes išnagrinėsime, kaip O3 ir O4-Mini pagerės pagal jų pirmtakus.
Pagrindiniai pasiekimai O3 ir O4-MINI
Sustiprintos samprotavimo galimybės
Vienas iš pagrindinių O3 ir O4-MINI patobulinimų yra jų sustiprintas samprotavimo galimybė atlikti sudėtingas užduotis. Skirtingai nuo ankstesnių modelių, kurie pateikė greitus atsakymus, O3 ir O4-MINI modeliai užtrunka daugiau laiko kiekvienam raginimui apdoroti. Šis papildomas apdorojimas leidžia jiems išsamiau samprotauti ir pateikti tikslesnius atsakymus, todėl pagerina etalonų rezultatus. Pavyzdžiui, „O3“ „LiveBench.ai“ – etaloną, kuris įvertina efektyvumą keliose sudėtingose užduotyse, tokiose kaip logika, matematika ir kodas, pralenkia O1 9%. „SWE-Bench“, kuris patikrina programinės įrangos inžinerijos užduočių pagrindimus, O3 pasiekė 69,1%balą, pralenkdamas net konkurencinius modelius, tokius kaip „Gemini 2.5 Pro“, kurio surinka 63,8%. Tuo tarpu „O4-Mini“ surinko 68,1% už tą patį etaloną ir pasiūlė beveik tą patį samprotavimo gylį už daug mažesnę kainą.
Multimodalinė integracija: mąstymas su vaizdais
Viena iš novatoriškiausių O3 ir O4-Mini bruožų yra jų sugebėjimas „galvoti su vaizdais“. Tai reiškia, kad jie gali ne tik apdoroti tekstinę informaciją, bet ir integruoti vaizdinius duomenis tiesiai į jų samprotavimo procesą. Jie gali suprasti ir analizuoti vaizdus, net jei jie yra žemos kokybės – tokios kaip ranka rašyti užrašai, eskizai ar diagramos. Pvz., Vartotojas galėjo įkelti sudėtingos sistemos schemą, o modelis galėjo ją išanalizuoti, nustatyti galimas problemas ar net pasiūlyti patobulinimų. Ši galimybė užpildo atotrūkį tarp tekstinių ir vaizdinių duomenų, leidžiančią intuityvesnei ir visapusiškesnei sąveikai su AI. Abu modeliai gali atlikti tokius veiksmus, kaip artėja prie detalių ar besisukančių vaizdų, kad juos geriau suprastų. Šis multimodalinis samprotavimas yra reikšmingas tobulėjimas dėl pirmtakų, tokių kaip O1, kurie pirmiausia buvo pagrįsti tekstu. Tai atveria naujas galimybes tokioms sritims kaip švietimas tokiose srityse, kai vizualinės priemonės yra esminės, ir tyrimai, kai diagramos ir diagramos dažnai yra svarbiausios supratimui.
Pažangaus įrankio naudojimas
„O3“ ir „O4-Mini“ yra pirmieji „Openai“ modeliai, naudojantys visus „ChatGPt“ galimus įrankius. Šie įrankiai apima:
- Naršymas internete: leidžiant modeliams gauti naujausią informaciją apie laiką jautrias užklausas.
- „Python“ kodo vykdymas: įgalinant juos atlikti sudėtingus skaičiavimus ar duomenų analizę.
- Vaizdo apdorojimas ir generavimas: jų sugebėjimo dirbti su vaizdiniais duomenimis sustiprinimas.
Naudodamiesi šiais įrankiais, O3 ir O4-Mini gali efektyviau išspręsti sudėtingas, kelių žingsnių problemas. Pavyzdžiui, jei vartotojas užduoda klausimą, kuriame reikalaujama dabartinių duomenų, modelis gali atlikti žiniatinklio paiešką, kad gautų naujausią informaciją. Panašiai užduotims, apimančioms duomenų analizę, duomenims apdoroti gali vykdyti „Python“ kodą. Ši integracija yra reikšmingas žingsnis link autonominių AI agentų, galinčių atlikti platesnį užduočių spektrą be žmogaus įsikišimo. „Codex CLI“, lengvo, atvirojo kodo kodavimo agento, veikiančio su O3 ir O4-Mini, įvedimas dar labiau padidina jų naudingumą kūrėjams.
Pasekmės ir naujos galimybės
O3 ir O4-MINI išleidimas turi plačiai paplitusius poveikį pramonės šakoms:
- Išsilavinimas: Šie modeliai gali padėti studentams ir mokytojams pateikdami išsamius paaiškinimus ir vaizdinę pagalbą, todėl mokymasis tampa interaktyvus ir efektyvesnis. Pavyzdžiui, studentas galėtų įkelti matematikos problemos eskizą, o modelis galėtų pateikti žingsnis po žingsnio sprendimą.
- Tyrimai: Jie gali pagreitinti atradimą analizuodami sudėtingus duomenų rinkinius, generuodami hipotezes ir aiškindami vaizdinius duomenis, tokius kaip diagramos ir diagramos, o tai yra neįkainojama tokioms sritims kaip fizika ar biologija.
- Pramonė: Jie gali optimizuoti procesus, pagerinti sprendimų priėmimą ir sustiprinti klientų sąveiką tvarkydami tiek teksto, tiek vaizdines užklausas, tokias kaip produktų dizaino analizė ar trikčių šalinimo techninės problemos.
- Kūrybiškumas ir žiniasklaida: Autoriai gali naudoti šiuos modelius, norėdami paversti skyriaus aprašus paprastomis siužetinėmis lentelėmis. Muzikantai atitinka vaizdus su melodija. Filmo redaktoriai gauna pasiūlymus dėl tempo. Architektai paverčia rankų apdailos grindų planus į išsamius 3 -D brėžinius, apimančius struktūrinius ir tvarumo užrašus.
- Prieinamumas ir įtraukimas: Aklams vartotojams modeliai išsamiai aprašo vaizdus. Kurčiųjų vartotojams jie konvertuoja schemas į vaizdines sekas arba antraštę. Jų žodžių ir vaizdų vertimas padeda įveikti kalbą ir kultūrines spragas.
- Link autonominių agentų: Kadangi modeliai gali naršyti internete, paleisti kodą ir apdoroti vaizdus vienoje darbo eigoje, jie sudaro autonominių agentų pagrindą. Kūrėjai apibūdina funkciją; Modelis rašo, testuoja ir diegia kodą. Žinių darbuotojai gali perduoti duomenų rinkimą, analizę, vizualizaciją ir pranešti rašymui vienam AI asistentui.
Apribojimai ir kas bus toliau
Nepaisant šių pažangų, O3 ir O4-Mini vis dar turi žinių ribą nuo 2023 m. Rugpjūčio mėn. Ateities iteracijos greičiausiai panaikins šią spragą pagerindami realaus laiko duomenų nurijimą.
Mes taip pat galime tikėtis tolesnės autonominių AI agentų pažangos – sistemų, kurios gali suplanuoti, priežasties, veikti ir nuolat mokytis su minimalia priežiūra. „Openai“ įrankių integracija, samprotavimo modeliai ir duomenų prieigos prie duomenų realiojo laiko signalai, kurie judame arčiau tokių sistemų.
Esmė
Nauji „Openai“ modeliai „O3“ ir „O4-Mini“ siūlo patobulinti samprotavimus, multimodalinį supratimą ir įrankių integraciją. Jie yra tikslesni, universalesni ir naudingi įvairiausiose užduotyse – nuo analizės sudėtingų duomenų ir generuojant kodą iki aiškinimo vaizdų. Šie pasiekimai gali žymiai padidinti produktyvumą ir paspartinti naujoves įvairiose pramonės šakose.