LLAMA 4 skandāls: Meta LLAMA 4 atbrīvošana, ko aizēno krāpšanās apgalvojumi par AI etalonu

Meta pagājušajā nedēļas nogalē ieviesa savus daudz hipotētos LLAMA 4 modeļus, pārsniedzot lielus panākumus un jaunas multimodālas iespējas. Bet ieviešana nav gājusi, kā plānots. Tas, kas vajadzēja iezīmēt jaunu nodaļu Meta’s AI Playbook, tagad ir pieķērusies etalona krāpšanās apsūdzībām, izraisot skepses vilni visā tehnoloģiju sabiedrībā.

Llama 4 skar ainu – tad virsraksti

Meta iepazīstināja ar trim modeļiem ar LLAMA 4 vārdu: LLAMA 4 Scout, Llama 4 Maverick un joprojām apmācāmais Llama 4 Behemots. Pēc Meta teiktā, Scout un Maverick jau ir pieejami vietnē Hugging Face un Llama.com un integrēti Meta AI produktos visā Messenger, Instagram Direct, WhatsApp un Web.

Skauts ir kompakts 17B parametru modelis, kas veidots ar 16 ekspertiem un spēj pielāgoties vienam NVIDIA H100 GPU. Meta apgalvo, ka tas pārspēj Mistral 3.1, Gemini 2.0 zibspuldzi un Gemma 3 plaši ziņotajos etalonos. Maverick, vēl 17B parametra modelis, bet ar 128 ekspertiem, tiek apgalvots, ka tas pārspēj GPT-4O un Gemini 2.0 Flash-vienlaikus saskaņojot DeepSeek V3 argumentācijā un kodu ģenerēšanā, visiem ar daudz mazāk parametru.

Šie modeļi tika destilēti no Meta lielākajiem un vērienīgākajiem centieniem-Llama 4 Behemoth, 288B parametru modelis, kas joprojām mācījās. Meta saka, ka Behemots jau ir GPT-4.5, Claude Sonnet 3.7 un Gemini 2.0 Pro diapazonā no stumbra etaloniem.

Tas viss izklausās iespaidīgi. Bet drīz pēc atklāšanas sāka uzkrāties jautājumi.

Etalona problēma

“Mēs izstrādājām jaunu apmācības paņēmienu, kuru mēs dēvējam par METAP, kas ļauj mums ticami noteikt kritiskus modeļa hiper parametrus, piemēram, katra slāņa mācīšanās ātrumu un inicializācijas skalas. Mēs atklājām, ka izvēlētie hiper-parametri labi pāriet dažādās partijas lieluma vērtībās, modeļa platumu, dziļumu un apmācības marķierus. Llama 4, kas vairāk par 1 billiem ir vairāk nekā 1. Kopumā 10x vairāk daudzvalodu žetonu nekā Llama 3, ”emuāra ierakstā sacīja Meta.

Llama 4 Maverick, jaudīgākais no diviem atbrīvotajiem modeļiem, bija domstarpību centrā. Meta demonstrēja savu sniegumu LM arēnā, bet kritiķi pamanīja kaut ko dīvainu – pārbaudītā versija nebija tāda pati kā publiskā izlaišana. Izrādās, ka meta etalonuzdevumam izmantoja pielāgotu versiju, kā rezultātā rezultāti tika polsterēti.

Ahmads al-Dahle, Meta ģeneratīvā AI viceprezidents, noliedza jebkādu nedienīgu spēli. Viņš sacīja, ka uzņēmums neveic apmācību testa komplektos un ka visas neatbilstības ir tikai platformas specifiskas quirks. Tomēr joprojām tika nodarīts kaitējums. Sociālie mediji izcēlās, un plakāti apsūdz Meta par “etalonu uzlaušanu” un manipulējot ar testa apstākļiem, lai Lama 4 izskatās spēcīgāka nekā tas ir.

Apsūdzību iekšpusē

Anonīms lietotājs, kurš apgalvo, ka ir bijušais meta inženieris, kas ievietots ķīniešu forumā, apgalvojot, ka komanda aiz LLAMA 4 koriģētām pēc apmācības datu kopām, lai iegūtu labākus rādītājus. Šis amats izraisīja ugunsgrēku uz X un Reddit. Lietotāji sāka savienot punktus – mērogā par iekšējām testa neatbilstībām, iespējamo vadības spiedienu virzīties uz priekšu, neskatoties uz zināmajām problēmām, un vispārēju sajūtu, ka optikai ir prioritāte salīdzinājumā ar precizitāti.

Sāka cirkulēt termins “Maverick taktika”, kas bija saīsināts, lai spēlētu brīvu ar testēšanas protokoliem, lai pakaļdzenos virsrakstos.

Meta atbilde un to, kas pietrūkst

META pievērsās bažām 7. aprīļa intervijā ar TechCrunch, apsūdzības saucot par nepatiesu un stāvot pie etaloniem. Bet kritiķi saka, ka uzņēmums nav piedāvājis pietiekami daudz pierādījumu, lai atbalstītu tās prasības. Nav detalizētas metodikas vai baltā papīra un nav piekļuves neapstrādātiem testēšanas datiem. Nozarē, kurā pieaug pārbaude, šī klusēšana pasliktina situāciju.

Kāpēc tas ir svarīgi

Etaloni ir liels darījums AI. Viņi palīdz izstrādātājiem, pētniekiem un uzņēmumiem salīdzināt modeļus uz neitrāla pamata. Bet sistēma nav ložu necaurlaidīga – testu komplektus var pārklāt, un rezultātus var masēt. Tāpēc caurspīdīgumam ir nozīme. Bez tā uzticēšanās ātri grauj.

Meta saka, ka LLAMA 4 piedāvā “labāko klasē” sniegumu, bet šobrīd sabiedrības gabals to nepērk. Un uzņēmumam, kas ir lielas par AI kā savas nākotnes galveno pīlāru, šādas šaubas ir grūti satricināt.

Lielāks attēls

Tas nav tikai par meta. AI telpā arvien vairāk tiek bažas, ka etalona rezultāti arvien vairāk par mārketingu nekā zinātne. Lama 4 epizode ir tikai jaunākais piemērs tam, kā uzņēmumi var tikt izsaukti – caurspīdīgi -, kad skaitļi nesummējas.

Joprojām nav jānovērtē, vai šīs apsūdzības aiztur. Pagaidām Meta paziņojumi ir pretrunā ar spekulāciju plūdiem. Uzņēmumam ir vērienīgi plāni par LLAMA 4, un paši modeļi var būt stabili. Bet ieviešana ir radījusi vairāk jautājumu, nekā atbildēja, un šie jautājumi nepazūd, kamēr mēs neredzam lielāku caurspīdīgumu.

Llama 4 varētu kļūt par nozīmīgu uzvaru meta. Vai arī to varēja atcerēties kā atklāšanu, kas izraisīja vēl vienu uzticības problēmu apli AI.

https://www.youtube.com/watch?v=p4m9wfjh-yi

🚀 Vai vēlaties, lai jūsu stāsts būtu redzams?

Iegūstiet tūkstošiem dibinātāju, investoru, PE firmas, tehnoloģiju vadītāju, lēmumu pieņēmēju un tehnoloģiju lasītāju priekšā, iesniedzot savu stāstu Techstarts.comApvidū

Piedāvājiet