Google Gemini 3 pārspēj Klodu kodēšanas etalonos; Sourcegraph to pieņem miljoniem izstrādātāju

Google Gemini 3 ir izvirzījies AI kodēšanas diskusiju centrā, aizēnot Claude Sonnet 4.5 galvenajos etalonpārbaudēs un mudinot Sourcegraph veikt būtiskas izmaiņas tā noklusējuma AI dzinējā. Tas, kas sākās kā veiktspējas salīdzināšanas kārta, ir kļuvis par plašāku signālu par to, kurp varētu virzīties AI atbalstīta attīstība.

Izstrādātāju kopienu pārskati un nozares etaloni norāda uz konsekventu modeli: Gemini 3 nodrošina labākus rezultātus kodēšanas uzdevumos, ātrākas iterācijas un lielāku stabilitāti ilgākās, daudzpakāpju darbplūsmās. Šis impulss sasniedza jaunu līmeni pēc tam, kad The Information apstiprināja: “Gemini 3 kodēšanas novērtējumos pārspēja Claude Sonnet 4.5 un kļuva par Sourcegraph jauno noklusējuma iestatījumu.”

Google Gemini 3: palaišana, kas nosaka posmu

Google izlaida Gemini 3 2025. gada 18. novembrī, nodēvējot to par uzņēmuma “vēl viedāko modeli”. Atjauninājums radīja būtiskus uzlabojumus argumentācijā, multimodālajās iespējās un ilgtermiņa uzdevumu izpildē. Pamatojoties uz iepriekšējo versiju mācībām, modelis saista kopā tekstu, kodu, attēlus, audio un video tādā veidā, kas sniedz izstrādātājiem vairāk vietas kustībai. Uzdevumi, kuriem kādreiz bija nepieciešamas ilgas uzvednes vai vairāki atkārtojumi, ir kļuvuši ātrāki un mazāk nomācoši.

Adopcija ir bijusi satriecoša. Vairāk nekā miljons cilvēku ar to eksperimentēja pirmajā dienā, izmantojot Google kodēšanas rīkus, un lietotnē Gemini tagad ir 650 miljoni aktīvo lietotāju mēnesī. Pieaugums nav tikai zinātkāre. Izstrādātāji saka, ka viņi redz skaidrus uzlabojumus koda ģenerēšanā, atkļūdošanā un radošajā prototipā.

“Pirms gandrīz diviem gadiem mēs aizsākām Gemini ēru, kas ir viens no mūsu lielākajiem zinātniskajiem un produktu centieniem, kas jebkad veikti kā uzņēmums. Kopš tā laika ir bijis neticami redzēt, cik ļoti cilvēkiem tas patīk. AI pārskatos tagad katru mēnesi ir 2 miljardi lietotāju. Lietotnē Gemini mēnesī ir vairāk nekā 650 miljonu lietotāju, vairāk nekā 70% no mūsu izstrādātājiem ir izveidojuši mūsu miljonus, Cloud1 klienti1 ir izveidojuši mūsu miljonus. tikai fragments no ietekmes, ko mēs redzam,” teikts Google emuāra ierakstā, kurā tika paziņots par palaišanu.

Alphabet izpilddirektors Sundars Pichai izteicās vienkārši: modelis var “tvert dziļumu un nianses”, piedāvājot precīzākus rezultātus ar mazāku kustību uz priekšu un atpakaļ.

“Un tagad mēs iepazīstinām ar Gemini 3, mūsu visgudrāko modeli, kas apvieno visas Gemini iespējas, lai jūs varētu īstenot jebkuru ideju. Tas ir vismodernākais argumentācijā, kas izstrādāts tā, lai aptvertu dziļumu un nianses — vai tas ir radošās idejas smalko pavedienu uztveršana vai arī sarežģītās problēmas, kas pārklājas, atdalīšana daudz labāk. Jūsu pieprasījuma konteksts un nolūks, lai jūs iegūtu to, kas jums nepieciešams, ar mazāku pamudinājumu.

Kodēšana viens pret otru: Gemini 3 pret Kloda sonetu 4.5

Debates par veiktspēju saasinājās līdz ar etalonu rezultātu uzplaukumu. SWE-Bench Gemini 3 Pro vienā mēģinājuma testos uzrādīja aptuveni 76,2% precizitāti. Claude Sonnet 4.5 joprojām to pārspēja ar 77,2% (vai 78,2% ar paplašinātu kontekstu). Taču šie skaitļi neizstāstīja visu. Programmā LiveCodeBench Pro, kas atspoguļo konkurētspējīgas kodēšanas problēmas, Gemini 3 ieguva 2439 pret Kloda 1418. Un Vending-Bench 2, ilgtermiņa simulācija, kas pārbauda noturīgu argumentāciju gadu ilga virtuālā uzņēmuma scenārijā, Gemini 3 saglabāja savu izdomāto biznesu ar peļņu, kamēr Klods paklupa.

Praktiski izmēģinājumi radīja vēl skaidrāku ainu. TechRadar lūdza vadošajiem modeļiem izveidot digitālu roku cīkstēšanās spēli Thumb Wars. Gemini 3 Pro nodrošināja funkcionālu PWA ar dzīviem vizuāliem attēliem, ātru atsaucību un vienmērīgām animācijām. Tas labi pielāgojās atgriezeniskajai saitei, uzlabojot efektus un kustību, nezaudējot saskaņotību. Klods izstrādāja praktisku versiju, taču tai trūka tādas pašas dimensijas izjūtas. GPT-5.1 darbojās vienmērīgi, taču jutās mazāk dinamisks.

Izstrādātāji atkārtoja šos atklājumus Reddit pavedienos un Cursor kopienas ziņās, aprakstot Gemini 3 kā izgudrojošāku priekšgalā un ātrāk pārvēršot vaļīgās instrukcijas slīpētos prototipos. Klods joprojām saņem atzinību par precīzu loģikas darbu, jo īpaši aizmugures uzdevumos, taču Gemini multimodālās priekšrocības piešķir tai plašāku daudzpusību. Tā spēja interpretēt lietotāja interfeisa attēlus, radīt vizuālos līdzekļus un kartēt dizaina koncepcijas tieši kodā ir kļuvusi par izcilību komandām, kas strādā dažādās disciplīnās.

Anthropic turpina virzīt Claude 4.5 kā vadošo kodēšanas modeli, un tā HumanEval rezultāts gandrīz 90% joprojām ir viens no spēcīgākajiem šajā jomā. Iespaidīgs ir arī vairāku rīku orķestrēšanas logs, kas ilgst vairāk nekā 30 stundas. Tomēr daudzu izstrādātāju ikdienas pieredze ir atkarīga no Gemini diapazona un pielāgojamības.

Sourcegraph’s Shift: balsojums par uzticību Google Gemini 3

Vislielāko apstiprinājumu nenāca no etaloniem — to sniedza Sourcegraph.

Kodu izlūkošanas platforma, uz kuru paļaujas tādi uzņēmumi kā Uber un Netflix, klusi padarīja Gemini 3 Pro par noklusējuma modeli Cody, tā AI kodēšanas palīgam. Iekšējā testēšana parādīja ievērojamu veiktspējas pieaugumu salīdzinājumā ar Gemini 2.5 Pro, tostarp vairāk atrisinātu uzdevumu, tīrāku argumentāciju un labāku apstrādi ar masveida kodu bāzēm.

“Gemini 3 pārspēja Claude Sonnet 4.5 kodēšanas novērtējumos un kļuva par Sourcegraph jauno noklusējuma versiju,” ziņoja The Information.

Sourcegraph CTO skaidri fiksēja iznākumu: “Gemini 3 ir atrisinājis problēmas, kas satrieca citus vadošos modeļus”, atzīstot modeļa ilgo konteksta spēku dziļi informētā koda navigācijā un problēmu risināšanā.

Tas ir vairāk nekā parasts jauninājums. Sourcegraph tradicionāli ir sajaucis vairākus modeļus atkarībā no uzdevuma. Miljoniem izstrādātāju pārvietošana uz Gemini 3 kā noklusējuma signālu liecina par uzticību tās uzticamībai reālām ražošanas darbplūsmām — no plaši izplatītu repozitoriju lasīšanas līdz lielu priekšgala koda bloku pārrakstīšanai. Viens JetBrains inženieris, kurš pārbaudīja atjauninājumu, aprakstīja ievērojamu progresu “dziļumā, argumentācijā un uzticamībā”.

Tā kā vairāk nekā 13 miljoni izstrādātāju izmanto Sourcegraph integrācijas, izmantojot VS Code, GitHub, JetBrains IDE un iekšējos uzņēmuma rīkus, šis lēmums nodrošina Gemini 3 jaudīgu izplatīšanas kanālu, paātrinot to, cik ātri modelis var veidot reālu inženiertehnisko vidi.

Plašāka AI atbalstītas attīstības maiņa

Šīs norises notiek spraigas konkurences brīdī. GPT-5.1, Claude Sonnet 4.5 un virkne specializētu kodēšanas modeļu ir cīnījušies par pārņemšanu uzņēmumā. Gemini 3 ir mainījis sarunu daļēji ar veiktspēju, bet vēl vairāk ar izplatīšanu. Google sasniedzamība pakalpojumā Search, Workspace, Android, YouTube un mākoņa infrastruktūrā sniedz tai priekšrocības, kuru vairumam konkurentu vienkārši nav.

Salesforce izpilddirektors Marks Beniofs dalījās savā skatījumā uz X, sakot, ka pēc Gemini 3 testēšanas viņš “neatgriežas pie ChatGPT” un nosauca uzlabojumu par “ārprātīgu” argumentācijas un ātruma ziņā.

“Svētais dievs. Es lietoju ChatGPT katru dienu 3 gadus. Tikko pavadīju 2 stundas Gemini 3. Es neatgriezīšos. Lēciens ir ārprātīgs — argumentācija, ātrums, attēli, video… viss ir asāks un ātrāks. Atkal ir sajūta, ka pasaule ir tikko mainījusies. ❤️ 🤖,” raidījumā X sacīja Benioffs.

Pārmaiņa nav bez debatēm. Etalona rezultāti atšķiras atkarībā no konteksta lieluma, piekļuves rīkam un uzvednes struktūras. Izstrādātāji, kuri dod priekšroku Claude, bieži atsaucas uz tā intuitīvo apstrādi ar sarežģītām loģiskām ķēdēm. Uzņēmums Google ir paplašinājis drošības testēšanu, sadarbojoties ar tādiem uzņēmumiem kā Apollo un Vaultis, lai risinātu uzticamības problēmas saistībā ar lietošanas mērogiem.

Kur lauks iet tālāk

2025. gadam beidzoties, Gemini 3 impulss — gan etalonos, gan īstu izstrādātāju rokās — iezīmē ievērojamu pagrieziena punktu. Bezmaksas līmenis lietotnē Gemini nodrošina iesācējiem un hobijiem piekļuvi augstas kvalitātes kodēšanas atbalstam, savukārt uzņēmumu komandas, kas izmanto Vertex AI un Google Cloud, modeli jau ievieš nepārtrauktās integrācijas sistēmās, pārveido darbplūsmas un aģentu ietvarus.

Deep Think režīms Gemini Ultra turpina piesaistīt izstrādātājus, kas cīnās ar grūtākām loģikas mīklām un matemātiskām problēmām, piesaistot pētniecības iestāžu un uzņēmumu, kas veido sarežģītus iekšējos rīkus, interesi.

Jauns IDE un aģentu sistēmu vilnis, tostarp Antigravity, gatavojas izmantot modeļa ilgtermiņa konteksta un multimodālās iespējas. Patiesais pārbaudījums tagad ir tas, kā inženieru komandas pielāgo savus cauruļvadus un vai Gemini ierašanās mudina konkurentus reaģēt ar modeļiem, kas atbilst gan tā veiktspējai, gan izplatīšanas pēdai.

Pagaidām Gemini 3 izceļas ne tikai ar uzvarām etalonos, bet arī ar to, ka ir nopelnījis vietu vienā no visplašāk izmantotajām koda izlūkošanas sistēmām šajā jomā. Sourcegraph slēdzis runā skaļi. Kā izstrādātāji vienmēr saka: pierādījums ir kodā.

Noskatieties tālāk esošo YouTube videoklipu, lai uzzinātu vairāk par Gemini 3.