DeepSeek palaiž flashmla: izrāvienu AI ātrumā un efektivitātē NVIDIA GPUS

Pēc tā R1 modeļa panākumiem, ķīniešu AI starta DeepSeek pirmdien atklāja Flashmla, atvērtā koda daudzpakāpju latento uzmanību (MLA) dekodējošo kodolu, kas optimizēts NVIDIA Hopper GPU. Padomājiet par FlashMLA kā gan super efektīvu tulku, gan ar turbo pastiprinājumu AI modeļiem, palīdzot viņiem ātrāk reaģēt sarunās un uzlabot visu, sākot no tērzēšanas robotiem līdz balss palīgiem un AI balstītiem meklēšanas rīkiem.

Šis izlaidums ir daļa no DeepSeek atvērtā pirmkoda nedēļas, izceļot centienus uzlabot AI veiktspēju un pieejamību, izmantojot sabiedrības virzītu inovāciju.

Deepseek teica amatā par X, sacīja

“Godāts dalīties ar FlashMLA-mūsu efektīvo MLA dekodējošo kodolu Hopper GPU, optimizēts mainīga garuma sekvencēm un tagad ražošanā.”

🚀 1. diena no #Opensourceweek: Flashmla

Pagodināts dalīties ar FlashMLA-mūsu efektīvo MLA dekodējošo kodolu Hopper GPU, optimizēts mainīga garuma sekvencēm un tagad ražošanā.

✅ BF16 atbalsts
✅ Paged KV kešatmiņa (bloka izmērs 64)
⚡ 3000 GB/s Atmiņas un 580 TFLOPS…

– DeepSeek (@deepseek_ai) 2025. gada 24. februāris

Kas padara flashmla par lielu darījumu

FlashMLA ir paredzēts, lai maksimāli palielinātu AI efektivitāti. Tas atbalsta BF16 precizitāti, izmanto lappuses KV kešatmiņu ar 64 bloku izmēru un nodrošina augstākā līmeņa veiktspēju ar 3000 GB/s atmiņas joslas platumu un 580 TFLOPS H800 GPU.

Īstā maģija ir tā, kā tā rīkojas ar mainīga garuma sekvencēm. Tas ievērojami samazina skaitļošanas slodzi, vienlaikus paātrinot AI veiktspēju – kaut ko tādu, kas ir piesaistījis AI izstrādātāju un pētnieku uzmanību.

Flashmla galvenās funkcijas:

Augstā veiktspēja: FlashMLA sasniedz līdz 3000 GB/s atmiņas joslas platumu un 580 TFLOPS aprēķina caurlaidspēju H800 SXM5 GPU, izmantojot CUDA 12.6.
Optimizēts mainīga garuma sekvencēm: Paredzēts, lai efektīvi apstrādātu mainīgā garuma sekvences, uzlabojot dekodēšanas procesus AI lietojumos.
BF16 atbalsts un lappuse KV kešatmiņa: Iekļauts BF16 precizitāte un lappuse atslēgas vērtības kešatmiņa ar bloka izmēru 64, samazinot atmiņas virs galvas liela mēroga modeļa secinājumu laikā.

Kā tas uzlabo AI veiktspēju

🚀 Ātrākas atbildes
AI modeļi parasti apstrādā informāciju pirms atbildes ģenerēšanas. FlashMLA padara šo procesu ievērojami ātrāku, uzlabojot reakcijas laiku, īpaši ilgākām sarunām.

🧠 Apstrādā pagarinātas sarunas bez kavēšanās
AI tērzēšanas roboti Glabājiet sarunu vēsturi atmiņā (KV kešatmiņa). Flashmla to optimizē, nodrošinot, ka AI seko diskusijām, nepalēninot vai pārslogojot aparatūru.

💻 Optimizēts augstākās klases AI sistēmām
FlashMLA, kas veidots NVIDIA Hopper sērijas GPU, darbojas ar progresējošas AI aparatūras maksimālo efektivitāti, padarot to par ideālu risinājumu liela mēroga lietojumprogrammām.

Kāpēc tas ir svarīgi

Tā kā FlashMLA ir atvērtā koda, AI izstrādātāji to var izmantot bez maksas, pilnveidojot un balstoties uz savām iespējām. Tas nozīmē ātrākus un gudrākus AI rīkus-neatkarīgi no tā, vai tulkošanas programmatūra vai AI ģenerēts saturs.

Reālās dzīves piemērs

Attēlojiet šo: Jūs tērzējat ar klientu apkalpošanas botu. Bez flashmla ir manāms pauze pirms katras atbildes. Izmantojot Flashmla, atbild uzreiz, liekot sarunai justies nemanāmi – gandrīz kā sarunāties ar reālu cilvēku.

Noslēgumā DeepSeek centienos pēc atvērtā avota AI inovācijas varētu pavērt ceļu vēl lielākiem sasniegumiem, dodot izstrādātājiem rīkus, lai virzītu AI veiktspēju jaunos augstumos.