Google samazina AI atmiņu no 31 GB uz 4 GB, izmantojot TurboVec, ātrumā pārspējot FAISS

AI ir atmiņas problēma.

Katrs tērzēšanas robots, AI aģents un izguves sistēma ir atkarīga no vektoru datu bāzēm, lai saglabātu un meklētu informāciju. Pieaugot šīm sistēmām, pieaug arī infrastruktūras izmaksas. Vektoru indekss, kas satur 10 miljonus dokumentu, var patērēt vairāk nekā 31 GB RAM, padarot lielapjoma AI lietojumprogrammu darbību dārgu un sarežģītu izvietošanu vietējā aparatūrā.

Google uzskata, ka tam ir risinājums.

Google TurboVec saspiež 10 miljonus AI vektoru tikai 4 GB RAM

Uzņēmums ir izlaidis TurboVec, atvērtā koda vektoru indeksēšanas bibliotēku, kas veidota, pamatojoties uz TurboQuant algoritmu, kas var saspiest vektoru datu kopu, kurai nepieciešama 31 GB atmiņa, līdz aptuveni 4 GB, nezaudējot meklēšanas kvalitāti. TurboVec, kas rakstīts Rust ar Python stiprinājumiem, risina vienu no AI mazāk pamanāmām problēmām: pieaugošās izmaksas par masveida iegultu kolekciju glabāšanu un meklēšanu.

“10 miljonu dokumentu korpuss aizņem 31 GB RAM kā float32. Turbovec iekļauj to 4 GB un meklē to ātrāk nekā FAISS.”

Projekts varētu padarīt AI sistēmas lētākas, vieglāk izvietojamas un spējīgas darboties ar aparatūru, kurai iepriekš trūka resursu liela mēroga vektoru meklēšanai.

Izlaidums tiek publicēts, jo AI uzņēmumi tērē simtiem miljardu dolāru, veidojot lielākus modeļus, lielākus datu centrus un infrastruktūru, kas nepieciešama to atbalstam. Nvidia, OpenAI, Meta, Amazon, Microsoft un Google turpina ieguldīt naudu mikroshēmās, tīkla iekārtās, enerģijas ražošanā un datu centros, lai apmierinātu pieaugošo AI pieprasījumu.

TurboVec izmanto citu pieeju. Tā vietā, lai pievienotu vairāk aparatūras, tā koncentrējas uz esošās AI infrastruktūras ievērojami efektīvāku uzlabošanu.

Kāpēc TurboVec ir svarīgs mākslīgajam intelektam?

Projekta centrā ir TurboQuant, saspiešanas tehnika, ko izstrādājis Google Research. Saskaņā ar Google datiem, TurboVec var saspiest augstas dimensijas iegulšanu līdz 2 līdz 4 bitiem katrā dimensijā, samazinot atmiņas izmantošanu līdz pat 92%. Praktiskā izteiksmē datu kopa, kurai parasti ir nepieciešama 31 GB RAM, var ietilpt aptuveni 4 GB, nemazinot izguves kvalitāti.

Tam ir nozīme, jo vektoru meklēšana ir kļuvusi par mūsdienu AI sistēmu pamatu. Retrieval-Augmented Generation, AI aģenti, ieteikumu dzinēji, semantiskā meklēšana, uzņēmuma zināšanu bāzes un ilgtermiņa AI atmiņas sistēmas paļaujas uz vektoru datu bāzēm, lai ātri atrastu atbilstošu informāciju.

Tā kā šīs sistēmas mērogojas, atmiņas prasības bieži kļūst par vienu no lielākajiem infrastruktūras izdevumiem. Mazāks atmiņas apjoms nozīmē, ka izstrādātāji var uzglabāt lielākas zināšanu bāzes, palaist AI darba slodzi ar lētāku aparatūru un izvietot lietojumprogrammas vidēs, kur atmiņas ierobežojumi citādi kļūtu par vājo vietu.

Organizācijām, kas veido privātas AI sistēmas, ietekme varētu būt nozīmīga. Vektoru korpuss, kuram kādreiz bija nepieciešama īpaša infrastruktūra, tagad var ietilpt darbstacijā, lokālajā serverī vai privātajā mākoņa vidē, samazinot izmaksas un paplašinot izvietošanas iespējas.

Google saka, ka TurboVec novērš vēl vienu sāpju punktu, kas izplatīts vektoru meklēšanas sistēmās. Tradicionālās produktu kvantēšanas metodes bieži prasa atsevišķu apmācības posmu, lai izveidotu kodu grāmatas, pirms datus var indeksēt. TurboVec pilnībā noņem šo soli.

Jaunus vektorus var pievienot nekavējoties bez apmācības, parametru regulēšanas vai indeksu atjaunošanas, kad datu kopas tiek paplašinātas.

Izstrādātājiem, kuri veido ražošanas mākslīgā intelekta sistēmas, kas varētu nozīmēt vienkāršāku izvietošanu un zemākas darbības izmaksas.

Veiktspēja ir vēl viena joma, kurā Google izvirza vērienīgus apgalvojumus.

Google TurboVec samazina AI atmiņas vajadzības no 31 GB uz 4 GB, vienlaikus pārspējot FAISS

Uzņēmums saka, ka TurboVec izmanto manuāli optimizētus SIMD kodolus gan ARM, gan x86 procesoriem, ļaujot tai par 12% līdz 20% pārspēt Meta FAISS IndexPQFastScan uz ARM balstītām sistēmām un saskaņot vai pārsniegt tā veiktspēju x86 aparatūrā.

FAISS jau sen tiek uzskatīts par vienu no nozarē visplašāk izmantotajām vektoru līdzības meklēšanas bibliotēkām, padarot jebkuru veiktspējas salīdzinājumu par ievērības cienīgu AI infrastruktūras komandām.

TurboVec ietver meklēšanas laika filtrēšanu, kas ļauj izstrādātājiem izguves laikā ierobežot rezultātus līdz apstiprinātiem ierakstiem. Tas ļauj izvairīties no pārmērīgas rezultātu iegūšanas un samazina kompromisus, kas parasti saistīti ar selektīvo filtrēšanu.

Privātumu apzinās organizācijas var atrast vēl vienu ieguvumu projekta arhitektūrā.

TurboVec pilnībā darbojas vietējā infrastruktūrā. Nav nepieciešams pārvaldīts pakalpojums, un datiem nekad nav jāatstāj uzņēmuma vide. Tas padara to pievilcīgu organizācijām, kas veido pašmitinātas izguves paplašinātās paaudzes sistēmas, gaisa spraugas AI izvietošanu vai lietojumprogrammas, kas apstrādā sensitīvu informāciju tādās nozarēs kā veselības aprūpe, finanses un valdība.

Izlaidums atspoguļo plašākas pārmaiņas, kas veidojas visā AI nozarē.

Daudzus pēdējos gadus progresu mēra ar lielākiem modeļiem un lielākiem infrastruktūras budžetiem. Arvien vairāk uzņēmumu tagad koncentrējas uz efektivitāti. Atmiņas prasību samazināšana, enerģijas patēriņa samazināšana, latentuma uzlabošana un esošās aparatūras lielākas vērtības iegūšana kļūst tikpat svarīga kā nākamās paaudzes modeļu apmācība.

TurboVec lieliski iekļaujas šajā tendencē.

Lielākie AI sasniegumi ne vienmēr rodas, veidojot lielākas sistēmas. Dažreiz tie rodas, meklējot veidus, kā padarīt šīs sistēmas ievērojami mazākas, lētākas un vieglāk darbināmas.

Ja Google etalona rezultāti saglabāsies ražošanas vidēs, TurboVec varētu kļūt par svarīgu pamatelementu AI izstrādātājiem, kuri vēlas darbināt lielākas sistēmas ar mazāku aparatūru, zemākām izmaksām un lielāku kontroli pār saviem datiem.