Uzņēmumi iegulda miljardus mākslīgā intelekta infrastruktūrā, tomēr pārsteidzoši daudz šīs naudas atkal un atkal tiek sadedzināta vienā un tajā pašā aprēķinā.
Šī neefektivitāte atrodas Tensormeša laukuma centrā.
AI infrastruktūras starta uzņēmums trešdien paziņoja, ka ir piesaistījis jaunu finansējumu 20 miljonu ASV dolāru apmērā no AMD Ventures, CoreWeave, NVENtures, Valley Capital Partners un Laude Ventures. Jaunākais palielinājums paplašina Tensormesh sēklu kārtu, palielinot kopējo finansējumu līdz 24,5 miljoniem USD.
Tajā pašā laikā uzņēmums ievieš Tensormesh Inference, SaaS platformas vispārējo pieejamību, kas izstrādāta, lai risinātu vienu no uzņēmuma AI pieaugošajām problēmām: atkārtotu secinājumu aprēķināšana, kas palielina GPU izmaksas un palēnina lietojumprogrammas.
NVIDIA un AMD veic derības par jaunu AI infrastruktūras slāni
Katru reizi, kad AI modelis saņem pieprasījumu, sistēma bieži vien no jauna apstrādā to pašu informāciju. Sistēmas uzvednes, tērzēšanas vēsture, rīku definīcijas un atkārtots konteksts tiek atkārtoti pārrēķināti, katru reizi patērējot GPU ciklus. Tas kļūst dārgi mērogā, īpaši aģentu AI sistēmām, kas apstrādā daudzpakāpju darbplūsmas.
Tensormesh saka, ka tā platforma to labo, izmantojot KV kešatmiņu — metodi, kas saglabā iepriekš aprēķinātos rezultātus un izmanto tos atkārtoti, nevis veic tos pašus aprēķinus. Uzņēmums apgalvo, ka šī pieeja var samazināt latentumu un GPU izdevumus līdz pat 10 reizēm.
Laikam ir nozīme. AI uzņēmumi sacenšas, lai nodrošinātu vairāk GPU no NVIDIA un AMD, tomēr daudzi uzņēmumi atklāj, ka neapstrādāti aprēķini vien neatrisina ekonomikas problēmu, kas saistīta ar liela mēroga secinājumiem. Tas ir radījis pieaugošu interesi par programmatūras slāņiem, kas vērsti uz efektivitāti, nevis brutālu aparatūras paplašināšanu.
Investoru sastāvs atspoguļo šo maiņu.
“Uzņēmumiem mērogojot mākslīgā intelekta darba slodzi, katra GPU cikla maksimāla palielināšana ir ļoti svarīga. Programmatūras jauninājumi, piemēram, KV kešatmiņa, ir spēcīgs papildinājums neapstrādātai paātrinātāja veiktspējai. Savienojumā ar AMD Instinct™ GPU, Tensormesh platforma var palīdzēt klientiem iegūt vērtību no ieguldījumiem infrastruktūrā,” sacīja Ramine Roane, AMD korporatīvā MI viceprezidents.
CoreWeave ierāmēja iespēju līdzīgi.
“Tensormesh strādā, lai atrisinātu infrastruktūras problēmas, kas galu galā ietekmēs mākslīgā intelekta ekonomiku un mērogojamību. Viņu darbs, attīstot KV kešatmiņu, var palīdzēt izdarīt secinājumus ātrāk un efektīvāk, un tas precīzi atspoguļo pamata inovācijas veidu, kuru CoreWeave Ventures ir apņēmies atbalstīt,” sacīja Brannins Makbī, CoreWea līdzdibinātājs un attīstības vadītājs.
Ar 20 miljonu dolāru finansējumu AI starta uzņēmums Tensormesh vēlas tikt galā ar AI lielākajām slēptajām izmaksām: izšķērdētu GPU aprēķinu.
Tensormesh radās no atvērtā pirmkoda AI infrastruktūras kopienas. Uzsākumu dibināja pētnieki un absolventi no Čikāgas Universitātes, UC Berkeley, un Carnegie Mellon. Izpilddirektors Džunčens Dzjans ir Čikāgas Universitātes mācībspēks un līdzautors LMCache — atvērtā koda KV kešatmiņas projektam, kas ir guvis popularitāti visā AI izstrādātāju ekosistēmā.
Uzņēmums saka, ka LMCache tagad ir vairāk nekā 8000 GitHub zvaigžņu un integrācijas ar platformām, tostarp vLLM, TensorRT, AWS SageMaker, NVIDIA Dynamo, Oracle OCI Data Science un SGLang.
“Tas, kas sākās kā izpētes projekts saistībā ar KV kešatmiņu, kļūst par būtisku MI daļu. Tensormesh jau agri saprata, ka uzņēmumi maksā mākslīgā intelekta sistēmām, lai atkal un atkal pārrēķinātu vienu un to pašu darbu, un izveidoja pamata infrastruktūru, lai novērstu šo neefektivitāti un ievērojami uzlabotu cenu veiktspēju. Komanda ir apvienojusi dziļas sistēmas zināšanas ar reālu atvērtā koda uzticamību, lai izveidotu infrastruktūru,” teica Pesina partneri uzņēmumā Laude Ventures.
Tensormesh cenšas atdalīties no secinājumu sniedzējiem, kas aizkulisēs mierīgi saglabā marķieru kešatmiņu, neatklājot, kā šie ietaupījumi tiek aprēķināti. Startup saka, ka klienti reāllaikā, izmantojot informācijas paneli, var izsekot kešatmiņas trāpījumu biežumam, GPU izmantošanai, marķiera līmeņa izmaksām un ietaupījumiem.
Viens no uzņēmuma agresīvākajiem soļiem ir cenu noteikšana. Tensormesh saka, ka kešatmiņā saglabātie ievades marķieri, kas tiek pasniegti no KV krātuves, radīs pastāvīgu 0 ASV dolāru maksu par izvietošanu bez servera. Ideja ir vienkārša: ja GPU jau vienu reizi ir apstrādājis darbu, klientiem nevajadzētu maksāt par tā atkārtotu apstrādi.
Šis ziņojums varētu atsaukties uz uzņēmumiem, kuri cīnās, lai kontrolētu secinājumus, jo AI lietojumprogrammas pāriet no izmēģinājuma projektiem uz ražošanas sistēmām.
Platforma tiek palaista ar diviem izvietošanas modeļiem. Bezservera opcija sniedz izstrādātājiem ar OpenAI saderīgu API piekļuvi robežmodeļiem, nepārvaldot infrastruktūru. Rezervētās izvietošanas ir paredzētas uzņēmumiem, kuriem nepieciešama īpaša jauda un pielāgoti SLA lielākai darba slodzei.
Samsung Electronics jau sadarbojas ar uzņēmumu, lai optimizētu krātuvi, kas saistīta ar nākamās paaudzes AI infrastruktūru.
“Palielinoties AI darba slodzei, vieda kešatmiņas stāvokļa atkārtota izmantošana ir kļuvusi par vienu no jaudīgākajām veiktspējas un izmaksu efektivitātes svirām,” sacīja Leno Parks, Samsung Electronics Nand produktu plānošanas viceprezidents. “Tensormesh LMCache ir izveidots, lai pilnībā izmantotu nākamās paaudzes krātuves priekšrocības, un mēs ceram uz mūsu turpmāko sadarbību, lai paplašinātu iespējamās robežas visā AI kaudzē.”
Finansējums tiks novirzīts produktu izstrādei, dziļākai integrācijai ar AMD, CoreWeave un NVIDIA infrastruktūru, kā arī turpmākiem ieguldījumiem LMCache.
Tensormesh likme ir lielāka nekā pati kešatmiņa. Uzņēmums ir derējis, ka secinājumu efektivitāte kļūst par vienu no uzņēmuma AI noteicošajām cīņām, organizācijām apzinoties patiesās lielu modeļu darbības izmaksas.