OpenAI ķircina savu jaudīgāko spriešanas modeli ar nosaukumu o3

OpenAI tikko noslēdza savu 12 dienu pasākumu ar nosaukumu “Shipmas”, kurā tas sniedza dažus pārsteidzošus paziņojumus. Kā pareizu nosūtīšanu OpenAI mūs iepazīstināja ar o3, tā gaidāmo spriešanas modeli, un šķiet, ka tas būs ārkārtīgi gudrs.

Shipmas laikā OpenAI paziņoja par dažiem citiem lieliskiem AI labumiem. Iesācējiem tas ieviesa savu ChatGPT Pro plānu 200 USD mēnesī. Tādējādi lietotāji varēs piekļūt jaudīgākajai o1 versijai un citām lieliskām funkcijām. Uzņēmums arī izlaida Sora, savu AI video ģeneratoru, kas diezgan lielā mērā salauza internetu, kad uzņēmums pirmo reizi to demonstrēja. Varat to izmantot, ja esat ChatGPT Plus dalībnieks.

OpenAI sniedz mums nelielu ieskatu o3, tā jaunākajā spriešanas modelī

Kas notika ar o2? Tā ir saimniecības jaunākā stāvoklī kopā ar Windows 9, OnePlus 4 un iPhone 9. OpenAI nolēma pāriet uz o3, jo ir Lielbritānijas telekomunikāciju uzņēmums ar nosaukumu O2. Tātad, tas bija veids, kā izvairīties no jebkādām juridiskām problēmām.

o3 būs spriešanas modelis, kas ir līdzīgs parastajam modelim. Tomēr galvenā atšķirība ir tā, ka tā vietā, lai sniegtu atbildi uzreiz, spriešanas modelis faktiski izjauks procesu un parādīs visas darbības, kas veiktas, lai nonāktu pie secinājuma. Google Gemini 2.0 Flash Thinking ir labs argumentācijas modeļa piemērs. Tātad, ja vēlaties sīkāk izpētīt, kā modelis nonācis pie atbildes, tad vēlēsities izmantot argumentācijas modeļus.

Tā kā šis būs OpenAI magnum opus, jūs zināt, ka tas būs aprīkots ar dažiem ārprātīgiem AI gudrībām. Uzņēmums publicēja dažus statistikas datus par tā darbību, un tas parāda, ka tas ir krietni pāri tam, lai radītu AI, kas ir gudrāks par cilvēku (labi, galvenokārt).

Piemēram, uzņēmums modelim veica SWE-Bench Verified kodēšanas testus, un tas pārspēja o1 par 22,8%. Pēc tam OpenAI izmantoja o3, izmantojot GPQA (Google-Proof Q&A etalonu) Diamond zinātnes etalonu, un tas ieguva 87,7%. OpenAI arī ievietoja o3, izmantojot AIME (American Invitiational Mathematics Examination), un tajā tika izlaists tikai viens no 15 jautājumiem. AIME ir ārkārtīgi grūts matemātikas konkurss.

Šķiet, ka OpenAI šoreiz patiešām pārspēja sevi. Mēs nezinām, kad uzņēmums šo modeli izdos sabiedrībai. Vienkārši nedomājiet ar to tuvākajā laikā, jo o1 joprojām ir diezgan jauns.