Nvidia izlaiž Cosmos 3, atvērtu AI pasaules modeli robotiem, pašbraucošām automašīnām un fiziskajam AI

Nvidia otrdien prezentēja Cosmos 3 — jaunu atvērtā pirmkoda AI modeli, kas apvieno fizisko spriešanu, pasaules ģenerēšanu un darbību ģenerēšanu vienā sistēmā.

Robots var identificēt kafijas krūzi. Pašbraucoša automašīna var atpazīt gājēju. Tomēr zināt, kas varētu notikt tālāk, prognozēt, kā objekti pārvietosies, un izlemt, kā reaģēt reāllaikā, joprojām ir dažas no sarežģītākajām mākslīgā intelekta problēmām.

Cosmos 3 ir Nvidia jaunākais mēģinājums risināt šo izaicinājumu. Uzņēmums izlaiž modeli kopā ar apmācības skriptiem, datu kopām, izvietošanas rīkiem un secinājumu pakalpojumiem, lai paātrinātu fizisko AI sistēmu izstrādi.

“NVIDIA Cosmos 3 ir fiziskā AI robežmodelis, kas apvieno fizisko spriešanu, pasaules ģenerēšanu un darbību ģenerēšanu vienā atvērtā modelī,” teikts Nvidia emuāra ziņā.

Palaišana iezīmē Nvidia jaunāko virzību ārpus AI infrastruktūras un programmatūras slānī, kas varētu veidot nākamās paaudzes robotus, autonomos transportlīdzekļus, noliktavu sistēmas un viedo vidi.

Viens modelis daudzu vietā

Iepriekšējās Cosmos versijas sadalīja fizisko spriešanu, pasaules ģenerēšanu un ainas kontroli atsevišķos modeļos un darbplūsmās.

Cosmos 3 apvieno šīs iespējas vienā arhitektūrā, ko Nvidia sauc par Transformatoru maisījumu jeb MoT.

Sistēmas centrā ir divas sastāvdaļas.

Videoklipu kolekcija Digital Human Scenes datu kopā. Videoklipos ir parādītas dažas simulētas iekštelpu un āra vides ar digitāliem cilvēkiem, kas stāv un pārvietojas. Šie videoklipi nodrošina daudzveidīgu cilvēka izskatu, kustību, ainas kontekstu, apgaismojumu un kameras kustību.

Pirmais ir argumentācijas tornis, vīzijas valodas modelis, kas analizē attēlus, video un tekstu, lai interpretētu kustību, objektu mijiedarbību un fizisko kontekstu. Nvidia to raksturo kā sistēmas daļu, kas domā par notiekošo pirms paaudzes sākuma.

Otrais ir ģeneratora tornis, kas rada nākotnes novērojumus un darbību secības. Izmantojot uz difūziju balstītas metodes, tas ģenerē video un darbības, pamatojoties uz spriešanas sistēmas noteikto fizisko kontekstu.

Rezultāts ir modelis, kas var analizēt ainu, paredzēt, kas varētu notikt tālāk, un ģenerēt darbības no šīs prognozes, nepaļaujoties uz atsevišķiem konveijeriem.

Tas ir svarīgi izstrādātājiem, kuri veido fiziskas AI sistēmas, kur vairāku modeļu koordinēšana bieži rada latentumu, inženiertehniskās izmaksas un papildu sarežģītību.

Paredzēts robotiem un autonomām sistēmām

Nvidia izlaiž Cosmos 3 divās versijās.

Cosmos 3 Nano satur 16 miljardus parametru, un tas ir paredzēts darbstaciju klases aparatūrai, tostarp NVIDIA RTX PRO 6000 GPU. Nvidia saka, ka modelis ir piemērots robotikas secinājumiem un citām reāllaika fiziskām AI lietojumprogrammām.

Cosmos 3 Super, lielāks 64 miljardu parametru modelis, koncentrējas uz maksimālu veiktspēju un ir paredzēts izvietošanai datu centru vidēs, kuras darbina Hopper un Blackwell GPU. Nvidia pozicionē to sintētisko datu ģenerēšanai un uzlabotiem fiziskās spriešanas uzdevumiem.

Modelis atbalsta plašu ievades un izvades veidu klāstu, tostarp tekstu, attēlus, videoklipus un darbību secības. Šī elastība ļauj izstrādātājiem izmantot Cosmos 3 uzdevumiem, sākot no robotu mācīšanās un autonomas braukšanas līdz sintētisko video ģenerēšanai un noliktavas uzraudzībai.

Izlaidumam pievienojas atvērtās datu kopas

Izlaidums pārsniedz modeļa svaru.

Nvidia publicē sešas sintētiskas datu kopas, kas aptver robotiku, fizisko mijiedarbību, telpisko spriešanu, digitālos cilvēkus, autonomās braukšanas scenārijus un noliktavas darbības.

Datu kopas var izmantot, lai pēcapmācītu Cosmos 3 vai kalpotu kā apmācības resursi citām fiziskām AI sistēmām.

Nvidia ir derības, ka atvērta piekļuve gan modeļiem, gan datiem paātrinās attīstību visās nozarēs, kas arvien vairāk ir atkarīgas no mašīnu uztveres un lēmumu pieņemšanas reālajā vidē.

Videoklipu kolekcija Embodied Robot Scenes datu kopā. Videoklipos redzami dažādi humanoīdi roboti, kas veic manipulācijas dažādās vidēs.

Novērtējiet, vai AI patiešām saprot fiziku

Viens no izaicinājumiem, ar ko saskaras AI pētnieki, ir noteikt, vai modelis patiesi izprot fizisko uzvedību vai vienkārši rada pārliecinošus rezultātus.

Lai risinātu šo problēmu, Nvidia izveidoja etalonu ar nosaukumu Cosmos Human Evaluation (HUE).

Ietvars novērtē ģenerētos videoklipus, izmantojot bināros faktu pārbaudes jautājumus, kas pārbauda semantisko saskaņošanu, fiziskos likumus, ģeometrisko argumentāciju un vizuālo kvalitāti. Tā vietā, lai paļautos uz plašiem subjektīviem vērtējumiem, HUE sadala videoklipus atsevišķos faktos, kurus var pārbaudīt cilvēki.

Saskaņā ar Nvidia sniegto informāciju etalons aptver septiņus fiziskos AI domēnus, tostarp robotiku, autonomos transportlīdzekļus un uz fiziku balstītus scenārijus.

Uzņēmums ir publiski izlaidis Hugging Face novērtējuma sistēmu.

Etalona rezultāti

Nvidia saka, ka Cosmos 3 pašlaik ir viens no spēcīgākajiem atvērtā pirmkoda modeļiem vairākos fiziskajos AI etalonos.

Uzņēmums uzsvēra vadošos rezultātus PAI-Bench, Physics-IQ, RoboLab un R-Bench, kas mēra video ģenerēšanas kvalitāti, robotikas veiktspēju un fiziskās spriešanas iespējas.

Mākslīgās analīzes līderu sarakstos Nvidia saka, ka Cosmos 3 pašlaik ir visefektīvākais atvērtā koda modelis gan teksta pārveidošanai attēlā, gan attēla pārvēršanai video.

Neatkarīga pētnieku un izstrādātāju apstiprināšana, visticamāk, noteiks, kā šie apgalvojumi saglabāsies laika gaitā, jo īpaši tāpēc, ka no lielākajām laboratorijām un jaunizveidotiem uzņēmumiem parādās konkurējoši fiziskie AI modeļi.

Apmācība un izvietošana

Nvidia izlaiž pēcapmācības receptes, kas ļauj izstrādātājiem pielāgot Cosmos 3 konkrētām nozarēm, datu kopām un robotu sistēmām.

Darbplūsmas atbalsta uzraudzītu precizēšanu video ģenerēšanas uzdevumiem un uz darbību vērstu apmācību robotikas lietojumprogrammām, tostarp uz priekšu un apgriezto dinamiku un politikas ģenerēšanu.

Izvietošanai Nvidia padara Cosmos 3 pieejamu, izmantojot NVIDIA NIM mikropakalpojumus. Pakalpojumu pakotne optimizē secinājumu izpildes laiku un atbalsta kvantēšanas metodes, piemēram, FP8 un NVFP4, kas, pēc Nvidia teiktā, var nodrošināt līdz pat divkāršu ātruma uzlabojumu salīdzinājumā ar BF16 modeļiem.

Uzņēmums nekavējoties ir izlaidis Cosmos 3 Reasoner NIM, bet ģeneratora NIM paredzēts vēlāk.

Lielāka bilde

Sacensības par fiziskā AI veidošanu kļūst par vienu no vissvarīgākajām sacensībām tehnoloģiju jomā.

Lielie valodu modeļi pārveidoja to, kā mašīnas strādā ar tekstu. Fiziskā AI mērķis ir paveikt kaut ko daudz vērienīgāku: iemācīt mašīnām, kā uzvedas reālā pasaule.

Šis izaicinājums ir robotikas, autonomā transporta, rūpnieciskās automatizācijas un viedās vides centrā.

Izmantojot Cosmos 3, Nvidia cenšas kļūt par kaut ko vairāk nekā uzņēmums, kas piegādā mikroshēmas aiz AI. Tā vēlas nodrošināt modeļus, datu kopas, rīkus un infrastruktūru, kas māca mašīnām uztvert, prognozēt un darboties fiziskās telpās.

Ja šī vīzija pieņemsies spēkā, nākamais AI izrāviens var nenotikt ekrānā. Tas var notikt noliktavā, rūpnīcas stāvā vai pie autonoma transportlīdzekļa stūres.

Noskatieties video par palaišanu zemāk.