Anthropic's Claude Sonnet 4.5 var kodēt līdz 30 stundām taisni

AI ainava turpina straujo izaugsmi, palaižot Claude Sonnet 4.5, kas ir Antropic jaunākais lielās valodas modelis. Uzņēmums ir iesniedzis drosmīgu prasību, aprakstot jauno modeli kā “labāko kodēšanas modeli pasaulē”. Viens no lielākajiem akcentiem ir spēja kodēt nepārtrauktu līdz 30 stundām.

Claude Sonnet 4.5 ierodas tikai dažus mēnešus pēc tā priekšgājēja, Sonnet 4.. Tomēr tas parāda ievērojamu spēju pieaugumu, īpaši izstrādātājiem. Modelis vērtē ziņoto 77,2% uz SWE-bench verificēto etalonu. Pēdējais pārbauda AI spēju rīkoties ar reālās pasaules github vilkšanas pieprasījumiem. Šis rezultāts, kā ziņots, ļauj Sonnet 4.5 pārspēt konkurējošos modeļus no Openai un Google kodēšanas uzdevumos.

Turklāt modelis tagad vada OSWorld etalonu-testu, kas mēra reālās pasaules datoru izmantošanas uzdevumus-ar panākumu līmeni 61,4%. Tas ir ievērojams pieaugums salīdzinājumā ar iepriekšējām Kloda versijām.

Anthropic’s Claude Sonnet 4.5: izturības aģents

Tas, kas patiesi atdala Sonnet 4.5 no tās konkurences un iepriekšējiem Claude modeļiem, ir tā spēja veikt ilgstošu darbu. Antropiski ziņo, ka modelis tagad var darboties autonomi līdz 30 stundām, saglabājot fokusu un veiktspēju visā. Tas ir dramatisks pieaugums no septiņu stundu robežas, kas novērota iepriekšējā flagmanī, Claude Opus 4.

https://www.youtube.com/watch?v=oxfvkbb7mcg

Šī izturība pārveido modeli no vienkārša palīga par spējīgu aģentu. Agrīnu izmēģinājumu laikā Sonnet 4.5, kā ziņots, parādīja spēju darīt vairāk, nekā tikai uzrakstīt pieteikumu. Tas varētu arī izpildīt sarežģītus, daudzpakāpju projektus, piemēram, datu bāzes pakalpojumu izvietošanu. Tas reģistrēja domēna vārdus un pat veica SOC 2 drošības auditus – visu bez cilvēku uzraudzības.

Lai atbalstītu šo pāreju uz autonomiju, Antropic ir devis modeļa piekļuvi jaunām funkcijām. Sarakstā ir virtuālās mašīnas un atmiņa, kā arī labāka konteksta pārvaldība ilgstošiem procesiem.

Ekosistēma AI aģentiem

Papildus galvenā modeļa atjauninājumam Antropic ieviesa vairākus rīkus, kas izstrādāti, lai ļautu izstrādātājiem izmantot Claude:

Kloda koda atjauninājumi: Antropic specializētais kodēšanas aģents saņem Sonnet 4.5 modeli. Jaunās funkcijas ietver Visual Studio koda paplašinājumu reālā laika izmaiņu skatīšanai, uzlabota statusa redzamība terminālī un kontrolpunkti, kas lietotājiem ļauj viegli novērst koda izmaiņas, ja modelis pieļauj kļūdas.

Kloda aģents SDK: Izstrādātāji tagad var izveidot savus pielāgotos AI aģentus, izmantojot to pašu galveno infrastruktūru, kas nodrošina Claude kodu. SDK ietver aģentu orķestrācijas, atmiņas un konteksta pārvaldības rīkus, salīdzinot ar paplašinātiem uzdevumiem.

Iedomājieties ar Klodu: Anthropic uzsāka šo pagaidu augstākās klases eksperimentu, lai parādītu modeļa iespējas. Tas ļauj Max abonentiem mijiedarboties ar Claude, jo tas ģenerē programmatūru un lietotāja saskarnes lidojuma laikā, bez iepriekš uzrakstīta koda vai iepriekš noteiktas funkcionalitātes.

Anthropic apgalvo, ka Sonnet 4.5 līdz šim ir tā “visvairāk saskaņotais” modelis. Tam ir lieli drošības uzlabojumi, kas paredzēti, lai pretotos tūlītējiem injekcijas uzbrukumiem un samazinātu attiecībā uz izturēšanos, piemēram, sycophancy. Sonnet 4.5 ir pieejams caur Claude API un Claude.AI tīmekļa lietotni, un cenu noteikšana atbilst iepriekšējam Sonnet 4 modelim.

https://www.youtube.com/watch?v=oz-alrj0ovg