DeepSeek izlaiž V4 AI modeļus, lai gadu pēc izrāviena izaicinātu OpenAI un Anthropic

DeepSeek ir atgriezies, un tas nenokļūst uzmanības centrā. Gadu pēc tam, kad tā agrākais modelis satricināja Silīcija ieleju un lika pārdomāt, cik patiesībā izmaksā uzlabota AI izveide, Hangdžou bāzētais starta uzņēmums ir ieviesis jaunu vadošo sistēmu, kas ir paredzēta tieši nozares lielākajiem nosaukumiem.

Paziņojot par izlaišanu pakalpojumā X, uzņēmums teica: “DeepSeek-V4 priekšskatījums ir oficiāli tiešraides un atvērtā koda avots! Laipni lūdzam rentablā 1 miljona konteksta garuma laikmetā.”

Uzņēmums atklāja savas V4 sērijas priekšskatījuma versijas, pozicionējot to kā nopietnu sāncensi pret OpenAI un Anthropic modeļiem.

Izlaiduma centrā ir divi varianti, V4 Flash un V4 Pro. DeepSeek saka, ka gan virzās uz priekšu kodēšanas etalonos, gan ir redzams skaidrs ieguvums argumentācijā un aģenta stila uzdevumos. Uzlabojumi izriet no arhitektūras izmaiņu un stingrākas optimizācijas kombinācijas, uzņēmumam izceļot jaunu pieeju, ko tā sauc par hibrīda uzmanības arhitektūru. Ideja ir vienkārša: palīdziet modelim saglabāt kontekstu ilgās sarunās, nezaudējot iepriekšējo ievadi.

Tam ir lielāka nozīme nekā jebkad agrāk, jo izstrādātāji pāriet no īsām uzvednēm uz sarežģītām darbplūsmām. DeepSeek saka, ka V4 modeļi var apstrādāt līdz pat 1 miljonu marķieru konteksta logu, kas ir pietiekami liels, lai apstrādātu visas kodu bāzes vai garus dokumentus vienā uzvednē. Šāds mērogs norāda uz izmaiņām šo sistēmu izmantošanā, pārejot no atsevišķiem vaicājumiem uz ilgstošiem, daudzpakāpju uzdevumiem.

Palaišana notiek laikā, kad izmaksas ir kļuvušas tikpat svarīgas kā neapstrādāta veiktspēja. DeepSeek izveidoja savu reputāciju, paveicot vairāk ar mazāku summu, un V4 turpina šo pieeju. Sistēma balstās uz Mixture-of-Experts dizainu, aktivizējot tikai daļu no tās kopējiem parametriem katram uzdevumam. No triljoniem parametru jebkurā brīdī tiek iesaistīti tikai aptuveni 37 miljardi. Rezultāts ir zemākas secinājumu izmaksas bez būtiskas produkcijas kvalitātes krituma.

Šis līdzsvars starp iespējām un efektivitāti ir vieta, kur DeepSeek cenšas panākt priekšrocības. Uzņēmums apgalvo, ka tā jaunie modeļi pārspēj vairākas vadošās sistēmas standarta etalonos, tostarp OpenAI GPT-5.2, lai gan atzīst, ka tas joprojām atpaliek no jaunākajiem modeļiem dažus mēnešus.

Tomēr vēstījums ir skaidrs. DeepSeek netiecas pēc dominēšanas ar brutālu spēku. Tā mērķis ir mainīt aiz tā esošo ekonomiku.

Šī stratēģija jau ietekmē plašāku tirgu. Kad uzņēmums izlaida savu agrāko R1 modeli, tas izraisīja asu reakciju visās pasaules tehnoloģiju akcijās, radot šaubas par to, vai nozares vairāku miljardu dolāru tēriņi mākslīgā intelekta infrastruktūrai ir ilgtspējīgi. Kopš tā laika investīcijas atkal ir palielinājušās, un paredzams, ka ASV tehnoloģiju giganti nākamajos gados ieguldīs simtiem miljardu datu centros un skaitļošanas jaudās.

V4 šajā vidē nonāk ar atšķirīgu toni. Tas ir izveidots, lai darbotos ar pieejamāku infrastruktūru, un sagaidāms, ka cenas vēl vairāk samazināsies, tiklīdz tiešsaistē būs pieejamas jaunas skaitļošanas kopas. DeepSeek saka, ka šīs kopas balstīsies uz Huawei Ascend 950 mikroshēmām, kuras plānots palaist gada otrajā pusē.

Pagaidām piekļuve augstākā līmeņa V4 Pro modelim joprojām ir ierobežota. Uzņēmums norāda uz skaitļošanas resursu trūkumu, kas ir kļuvis izplatīts visā nozarē, jo pieprasījums pēc augstas veiktspējas modeļiem pārsniedz pieejamo aparatūru.

DeepSeek V4 iekšpusē: DeepSeek-V4-Pro un DeepSeek-V4-Flash

DeepSeek sadala savu vadošo izlaidumu divos atsevišķos modeļos, no kuriem katrs ir paredzēts cita veida darba slodzei.

Augšējā galā ir DeepSeek-V4-Prosistēma, kas izstrādāta lieljaudas uzdevumiem. Tas darbojas ar 1,6 triljonu parametru arhitektūru, vienam uzdevumam aktivizējot aptuveni 49 miljardus parametru. Tas iekļaujas tajā pašā sarunā ar vadošajiem slēgtā pirmkoda modeļiem, vismaz pamatojoties uz agrīnajiem etaloniem.

Tad ir DeepSeek-V4-Flashvieglāks un efektīvāks risinājums. Tas izmanto 284 miljardu parametru dizainu ar aptuveni 13 miljardiem aktīvo parametru, padarot to daudz lētāku darbību. Kompromiss ir skaidrs: mazāk neapstrādātu iespēju, bet ātrāka reakcija un zemākas izmaksas.

Sadalījums atspoguļo plašākas izmaiņas AI modeļu izvietošanā. Tā vietā, lai viena sistēma mēģinātu rīkoties ar visu, uzņēmumi sāk piedāvāt līmeņus, kas līdzsvaro veiktspēju, ātrumu un izmaksas atkarībā no lietošanas gadījuma.

Izlaidums jau viļņojas Ķīnas tirgos. Vietējo mikroshēmu ražotāju akcijas pieauga, jo investori saderēja, ka pieprasījums pēc vietējās AI aparatūras pieaugs līdz ar tādiem modeļiem kā V4. Tajā pašā laikā konkurējošie modeļu nodrošinātāji izjūt spiedienu. Vairāki uzņēmumi pēdējo nedēļu laikā ir steidzīgi izlaiduši savus atjauninājumus, cenšoties sekot līdzi.

DeepSeek pieaugums nav palicis nepamanīts ārpus Ķīnas. Uzņēmums sāk sarunas ar Tencent un Alibaba par savu pirmo finansēšanas kārtu, kas varētu vēl vairāk nostiprināt tā pozīcijas. Lielāko platformas spēlētāju interese liecina par dziļākām izmaiņām, kur izplatīšanai un ekosistēmas kontrolei var būt tikpat liela nozīme kā modeļa veiktspējai.

Līdz ar to ir pievērsta uzmanība. ASV amatpersonas un tehnoloģiju vadītāji ir pauduši bažas par to, kā DeepSeek apmācīja savus modeļus. Viena problēma ir vērsta uz destilāciju, metodi, kurā viena AI sistēma mācās no citas sistēmas rezultātiem. Gan OpenAI, gan Anthropic ir ierosinājuši, ka ir atklājuši šādu darbību, kas saistīta ar DeepSeek. Vēl viena problēma ir saistīta ar piekļuvi ierobežotai aparatūrai, tostarp uzlabotām Nvidia mikroshēmām, kuras nav paredzēts pārdot Ķīnas uzņēmumiem.

DeepSeek nav tieši pievērsies šiem apgalvojumiem, lai gan jautājumi turpina strauji pieaugt.

Izstrādātājiem un uzņēmumiem, kuri skatās no malas, lielāka uzmanība var būt mazāka par kādu atsevišķu etalonu un vairāk par virzienu. DeepSeek virza modeli, kas samazina atšķirību no vadošajām sistēmām, vienlaikus samazinot izmaksas. Ja šī tendence saglabāsies, tā varētu mainīt to, kā uzņēmumi izlemj, uz kurām AI platformām balstīties un cik daudz viņi ir gatavi tērēt.

“Minimax un Zhipu kā neatkarīgi modeļu nodrošinātāji vienmēr būs neaizsargāti pret konkurenci, jo īpaši no interneta platformām vai mākoņpakalpojumu sniedzējiem, kuriem ir labāka sasniedzamība un izplatīšana,” aģentūrai Bloomberg sacīja Union Bancaire Privee rīkotājdirektors Vejs Serns Lings. “Galu galā modeļa veiktspējas atšķirības lielākajai daļai lietotāju būs nemanāmas.”

Palaišana notiek laikā, kad DeepSeek ietekme sāk paplašināties ārpus modeļa veiktspējas. Uzņēmums sāk sarunas ar Tencent Holdings un Alibaba Group Holding par savu pirmo finansēšanas kārtu, un diskusijas liecina par novērtējumu uz ziemeļiem no 20 miljardiem ASV dolāru.

Interese norāda, cik ātri saruna mainās. Šeit vairs nav runa tikai par to, kurš būvē labāko modeli. Tas ir par to, kurš kontrolē AI infrastruktūru, izplatīšanu un ilgtermiņa ekonomiku.

Šī prognoze norāda uz nākotni, kurā veiktspējas atšķirībām ir mazāka nozīme nekā piekļuvei, cenām un integrācijai. DeepSeek ir derības, ka ar šiem noteikumiem var uzvarēt.

Pirms gada tas lika nozarei pārskatīt savus pieņēmumus. Izmantojot V4, tas mēģina to izdarīt vēlreiz.