Meta jaunais modelis spēj saprast attēlus

OpenAI ir GPT, Google ir Gemini un xAI ir Grok. Visiem vadošajiem AI uzņēmumiem nozarē ir savi vadošie modeļi, un Meta ir Llama. Trešdien Meta paziņoja par savu jaunāko AI modeli ar nosaukumu Llama 3.2, un šis atjauninājums piešķir modelim acu kopumu.

Meta vakar savā pasākumā paziņoja par dažām diezgan aizraujošām lietām, piemēram, savām jaunajām Orion brillēm. Uzņēmuma fani noteikti būs satraukti, redzot, kā uzņēmums vēlas izgudrojuma veidos apvienot AI un AR (paplašināto realitāti). Mēs arī apskatījām jaunās Meta Quest 3s, kas ir lētākas uzņēmuma VR austiņas.

Meta paziņoja par jauno Llama 3.2 modeli, un tas var saprast attēlus

Viens no lielākajiem soļiem, kas jāveic AI uzņēmumam, ir padarīt savus modeļus multimodālus. Tas nozīmē, ka tas var saprast un izveidot dažāda veida medijus. Tātad modelis, kas var apstrādāt gan tekstu, gan video, tiek uzskatīts par multimodālu.

Spēja saprast attēlus dod modelim dažas būtiskas priekšrocības. Iesācējiem modelis varēs redzēt tiešraides video plūsmu un saprast, ko tas redz. Tas var ievērojami uzlabot AR pieredzi. Kā norādīja The Verge, izstrādātāji varēs izmantot modeli, izstrādājot AR lietotnes, kurām nepieciešama reāllaika izpratne par apkārtni.

Ar Llama 3.2 ir saistīti dažādi modeļi, un tiem būs dažādas lietojumprogrammas. Divi no tiem ir redzes modeļi, no kuriem vienam ir 11 miljardi parametru, bet otram – 90 miljardi. Papildus tiem ir divi tikai teksta modeļi, viens ar 1 miljardu parametru un viens ar 3 miljardiem. Līdzīgi kā Gemini, mazākie Llama modeļi ir paredzēti ieviešanai tālruņos.

Tas nozīmē, ka Dvīņiem varētu būt zināma konkurence, ja šie modeļi sāks tirgoties. Tikai laiks rādīs, vai Meta modelis būs atbilstošs tam, ko Google jau ir izveidojis.