Aizmirstiet par ChatGPT. Jauns bezmaksas AI lielas valodas modelis pārņem internetu. Šis jaunais AI modelis nav cēlies no OpenAI, Meta, Google vai citiem pazīstamiem vārdiem. Iepazīstieties ar DeepSeek — bezmaksas atvērtā pirmkoda AI, ko izstrādājis ķīniešu jaunuzņēmums. Ar 685 miljardiem parametru DeepSeek piesaista uzmanību, pārspējot gandrīz visus kosmosa modeļus.
Nesenā DeepSeek jaunākās versijas V3 izlaišana ir piesaistījusi pasaules uzmanību ne tikai ar izcilo veiktspēju etalontestos, bet arī ar pārsteidzoši zemajām modeļu apmācības izmaksām.
Jauns CNBC ziņojums atklāj, ka DeepSeek-V3 dažādos etalonos pārspēj tādus modeļus kā Llama 3.1 un GPT-4o. Tas ir apmācīts par NVIDIA H800 GPU par niecīgu daļu no parastajām izmaksām, un tas pat norāda uz ChatGPT izvadu izmantošanu (modelis tiek identificēts kā ChatGPT, kad tas tiek jautāts). Šī attīstība rada jautājumus par OpenAI konkurētspēju un tā dominējošo stāvokli AI robežās.
Kāpēc DeepSeek V3 ir svarīgs
Saskaņā ar vairākiem ziņojumiem DeepSeek V3 pārspēja vadošos modeļus, piemēram, Llama 3.1 un GPT-4o, ņemot vērā galvenos kritērijus, tostarp konkurētspējīgās kodēšanas problēmas Codeforces. Projekts tika pabeigts ar tikai 5,5 miljonu ASV dolāru budžetu, kas ir krass kontrasts ar simtiem miljonu, ko iztērējuši tā konkurenti. Šis sasniegums izaicina uzskatu, ka progresīvai AI attīstībai ir nepieciešami milzīgi finanšu ieguldījumi.
Modeļa veidotāji ir atklāti paziņojuši, ka tas izmanto esošos ietvarus, iespējams, pat ChatGPT rezultātus. Šī pieeja uzsver, ka mazinās šķēršļi ienākšanai AI attīstībā, vienlaikus radot jautājumus par to, kā tiek izmantoti patentētie dati un resursi.
Augsta veiktspēja, zemas izmaksas
DeepSeek spēja sasniegt pasaules līmeņa rezultātus ar ierobežotu budžetu ir izraisījusi diskusijas investoru un inženieru vidū. CNBC pārstāvis Braiens Salivans nesenā intervijā uzsvēra dramatisko izmaksu atšķirību: “Ko es saņemu par 5,5 miljoniem ASV dolāru pret vienu miljardu dolāru?” Atbilde, pēc analītiķu domām, ir veiktspēja līdzvērtīga dažiem labākajiem modeļiem tirgū. Trešo pušu etaloni apstiprina, ka DeepSeek V3 atbilst vai pārspēj savus konkurentus kodēšanas, tulkošanas un teksta ģenerēšanas uzdevumos.
Andrejs Karpathy, ievērojams AI personāls, nosauca DeepSeek sasniegumu par izrāvienu resursu efektīvas inženierijas jomā. Viņš atzīmēja, ka modeļa veidotāji divus mēnešus izmantoja tikai 2048 GPU, lai apmācītu DeepSeek V3, kas apšauba tradicionālos pieņēmumus par šādiem projektiem nepieciešamo mērogu.
Ietekme uz AI attīstību
DeepSeek V3 ir vairāk nekā tikai tehnisks brīnums; tas ir paziņojums par AI nozares mainīgo dinamiku. Projekts, ko atbalsta High Flyer Capital Management, izvairījās no ierobežojumiem augstas veiktspējas GPU, izmantojot pieejamākos NVIDIA H800. Rezultāts? Modelis, kas nodrošina augstākās klases iespējas bez augstākās klases cenas zīmes.
Izlaists saskaņā ar atļauju licenci, DeepSeek V3 ļauj izstrādātājiem modificēt un integrēt modeli komerciālās lietojumprogrammās. Tā atvērtā pirmkoda būtība padara to pieejamu dažādu uzdevumu veikšanai, sākot no kodēšanas līdz satura ģenerēšanai, potenciāli demokratizējot piekļuvi uzlabotajiem AI rīkiem.
DeepSeek veiktspējas etalonos pārspēj OpenAI GPT-4o un Meta Llama 3.1
DeepSeek V3 ir noteicis jaunus standartus dažādiem rādītājiem. Kodēšanas izaicinājumos tas pārspēja Meta’s Llama 3.1, OpenAI GPT-4o un Alibaba Qwen 2.5. Ar savu spēju apstrādāt 60 marķierus sekundē — trīs reizes ātrāk nekā tā priekšgājējs — tas ir gatavs kļūt par vērtīgu rīku izstrādātājiem visā pasaulē.
Modeļa efektivitāte arī rada svarīgus jautājumus investoriem. Vai tad, kad sarūk pierobežas modeļu apmācības izmaksas, augstākās klases aparatūras sacensības zaudēs savu nozīmi? DeepSeek V3 panākumi liecina, ka inovācijas un stratēģiskā resursu izmantošana var apsteigt brutālu skaitļošanas jaudu.
Veiktā analīze liecina, ka, lai gan daudzi modeļi cīnās ar milzīgām GPU prasībām un strauji augošām izmaksām, DeepSeek-V3 ir izvēlējies gudrāku pieeju. Izmantojot novatoriskas arhitektūras un inženierijas metodes, tai ir izdevies nodrošināt izcilus rezultātus, nepārkāpjot banku.
V3 dokumentā ir norādīts, ka modeļa apmācībai NVIDIA H800 ierīcēs bija nepieciešami aptuveni 2,79 miljoni GPU stundu. Ar nomas likmi 2 USD par GPU stundu kopējās izmaksas bija tikai 5,58 miljoni USD. Salīdzinot ar vairāku miljardu dolāru budžetu, kas parasti ir saistīts ar liela mēroga AI projektiem, DeepSeek-V3 izceļas kā ievērojams rentablas inovācijas piemērs.
DeepSeek-V3 ir pierādījis savas spējas vairākos salīdzinošos testos, sadarbojoties ar vadošajiem modeļiem, piemēram, GPT-4o un Claude 3.5. Tādās jomās kā koda ģenerēšana un matemātiskā spriešana vairākos rādītājos ir pat pārspējis dažas lielāku modeļu atvasinātās versijas.
Andrejs Karpathy, plaši pazīstams mākslīgā intelekta darbinieks, sociālajos medijos uzsvēra sasniegumu, norādot, ka V3 parāda, cik nozīmīgi pētniecības un inženiertehniskie sasniegumi var tikt sasniegti stingri ierobežotos resursu apstākļos. Tas ir izraisījis plašāku sarunu par to, vai liela mēroga modeļu veidošanai patiešām ir vajadzīgas lielas GPU kopas. Ziņā par X Karpathy teica:
“DeepSeek (ķīniešu mākslīgā intelekta sadarbība), padarot to viegli šodien ar atvērtu atsvaru izlaidumu robežšķirtnes LLM, kas apmācīts, joks par budžetu (2048 GPU 2 mēnešiem, 6 miljoni USD).”
DeepSeek (ķīniešu mākslīgā intelekta sadarbība), padarot to viegli šodien, izmantojot atvērtu atsvaru izlaidumu robežšķirtnes LLM, kas apmācīts, joks par budžetu (2048 GPU 2 mēnešiem, 6 miljoni USD).
Atsauces nolūkā šim iespēju līmenim ir nepieciešamas kopas ar tuvāk 16 000 GPU, no kurām ir… https://t.co/EW7q2pQ94B
— Andrejs Karpathy (@karpathy) 2024. gada 26. decembris
Šis sasniegums izceļas, salīdzinot ar parastiem šādiem modeļiem, kuriem bieži ir nepieciešamas 16 000 GPU vai pat līdz 100 000 vismodernākajiem projektiem.
Piemēram, Meta’s Llama 3.1 405B apmācības laikā patērēja 30,8 miljonus GPU stundu, savukārt DeepSeek-V3 sasniedza salīdzināmus rezultātus tikai ar 2,8 miljoniem GPU stundu — 11 reizes samazināja aprēķinu. Agrīnās pārbaudes un klasifikācija liecina, ka modelis labi turas, padarot to iespaidīgu par to, kas ir iespējams ar mērķtiecīgu inženieriju un rūpīgu resursu sadali.
Tas rada jautājumu: vai pierobežas līmeņa modeļiem ir nepieciešami masīvi GPU klasteri? Lai gan atbilde nav vienkārša “nē”, DeepSeek panākumi uzsver, cik svarīgi ir izvairīties no izšķērdēšanas un optimizēt gan datus, gan algoritmus. Tas ir skaidrs atgādinājums, ka joprojām ir neizmantots potenciāls esošo metožu un resursu pilnveidošanā.
Atvērtā pirmkoda AI modeļu pieaugums
DeepSeek V3 atspoguļo izmaiņas AI ekosistēmā, pierādot, ka mazāki spēlētāji var konkurēt ar pazīstamiem līderiem. Tā veiktspēja, rentabilitāte un atvērtā pirmkoda pieeja padara to par modeli, kuru vērts skatīties, jo tas turpina apstrīdēt status quo. Neatkarīgi no tā, vai tas ir vienreizējs sasniegums vai zīme par gaidāmajām lietām, DeepSeek V3 pārveido to, kā mēs domājam par AI attīstību.
Tikmēr DeepSeek nav vienīgais Ķīnas AI modelis, kas rada viļņus. Tikai pirms divām nedēļām Alibaba Qwen 2.5 piesaistīja uzmanību, pārspējot labākos ASV slēgtā pirmkoda modeļus, tostarp Anthropic Claude 3.5 Sonnet un OpenAI GPT-4o kodēšanas etalonos. Šie notikumi izceļ Ķīnas mākslīgā intelekta iniciatīvu pieaugošo konkurenci veiktspējas un inovācijas robežu paplašināšanā.
Noskatieties tālāk esošo CNBC video, lai redzētu, kā Ķīnas starta uzņēmums DeepSeek satricina nozari un izaicina Amerikas mākslīgā intelekta dominējošo stāvokli.