Apjukums AI apgalvojums, ka Sonar pārspēj GPT-4O-Mini un Claude 3.5 ir maldinoši-šeit ir kāpēc

Apjukums AI ir AI meklētājprogrammu startup, ko mēs šeit parādījām kopš tās darbības sākuma 2022. gadā. Janvārī apspiešana paziņoja par palaišanu Homerātsuzlabots ar AI darbināmu meklēšanas modeli, kas veidots uz Meta’s LLAMA 3.3 70B ietvara. Tas ir paredzēts, lai sniegtu ātras, precīzas atbildes, kas ir īpaši optimizētas apjukuma meklēšanas platformai. Viņi arī to var HomerātsĀtrums-apstrādājot līdz 1200 žetoniem sekundē-un tā spēja sniegt augstas kvalitātes reāllaika atbildes, izmantojot uzticamus tīmekļa avotus.

Tad otrdien apjukums devās sociālajos medijos, lai paaugstinātu Homerātssniegums. Paziņojumā par x, apjukums to apgalvoja Homerāts “Pārspēj GPT-4O-Mini un Claude 3.5 Haiku, vienlaikus saskaņojot vai pārspējot top modeļus, piemēram, GPT-4O un Claude 3.5 sonetu lietotāju apmierinātībā.” Tagad tas varētu izklausīties iespaidīgi uz virsmas, bet prasība nepasaka visu stāstu. Faktiski tas jūtas nedaudz maldinošs bez lielāka konteksta.

Mēs to iegūstam – tādi kā apjukumi vienmēr cenšas virzīt robežas. Bet treknrakstā apgalvojumi, piemēram, šī ir jāpārbauda, un tas rada dažus jautājumus.

Skatoties tuvāk Metlxity Sonar Performance pretenzijām

Pēc nominālvērtības apspiešanas paziņojums to liecina Homerāts Ne tikai ātrs, bet labāks par dažiem no vismodernākajiem pieejamajiem modeļiem, ieskaitot Openai GPT-4O un antropic Claude 3.5 sonetsApvidū Bet “lietotāju apmierinātība” ir diezgan neskaidra metrika. Vai viņi mēra ātrumu, precizitāti, atbilžu kvalitāti vai kaut ko citu? Bez sīkākas detaļas ir grūti zināt, ko viņi nozīmē ar “pārspēj”.

Un salīdzināt Homerāts līdz GPT-4O-Mini un Klods 3.5 Haiku jūtas kā klāja sakraušana. Abi šie modeļi ir “vieglākas” viņu jaudīgāko kolēģu versijas, kas optimizētas efektivitātei, salīdzinot ar maksimālo veiktspēju. Tātad, jā, Homerāts Varētu viņus pārspēt, bet tā nav īsti godīga cīņa.

Applaucēšanas hidrolokatori-būvēti LLAMA 3,3 70B-OUTPERNOPS GPT-4O-Mini un Claude 3.5 Haiku, vienlaikus saskaņojot vai pārsniedzot top modeļus, piemēram, GPT-4O un Claude 3.5 sonetu lietotāja apmierinātībā.

Pie 1200 žetoniem sekundē hidrolokatoru optimizē atbildes kvalitātei un ātrumam. pic.twitter.com/cnhb39pevv

– apjukums (@perplexity_ai) 2025. gada 11. februāris

Salīdzinot Porsche ar kravas automašīnu

Labāks veids, kā to aplūkot, ir vienkārša analoģija: lielas valodas modeļi (LLM), piemēram, GPT-4O un Klods 3.5 ir kā lieljaudas kravas automašīnas 🚛 – tās ir būvētas, lai apstrādātu milzīgu darba slodzi, sākot no radošās rakstīšanas līdz kodēšanai un progresīvai argumentācijai. Viņi nes daudz, bet pārvietojas vienmērīgā tempā. No otras puses, Homerāts ir vairāk kā a Porsche 🏎️-viegls, ātrs un optimizēts konkrētam mērķim, šajā gadījumā ātri iegūt reāllaika tīmekļa datus.

Apjukuma apgalvojums, ka Homerāts ir “ātrāks” nekā tādi modeļi kā tādi modeļi GPT-4O ir kā teikt, “Skatieties, šī Porsche ir ātrāka nekā kravas automašīna!” Protams, tā ir. Bet kravas automašīna netika būvēta ātrumam – tā tika uzbūvēta, lai vilktu daudz vairāk svara. Divu salīdzināšana, neminot viņu dažādos mērķus, ir maldinoša.

Vēl viens veids, kā domāt par to, ir salīdzināt mikroviļņu krāsns šefpavāramApvidū Mikroviļņu krāsns ātri karsē pārtiku, bet tas nenozīmē, ka tas ir labāk nekā apmācīts šefpavārs, kurš no nulles var radīt gardēžu trauku. Tāpat, Homerāts varētu ātrāk iegūt faktus, bet tas nenozīmē, ka tas var domāt, saprāt vai radīt saturu tādā pašā līmenī kā GPT-4O vai Klods 3.5Apvidū

Ātrums nav viss

Apjukuma pretenzijas Homerāts Var apstrādāt 1200 žetonus sekundē, kas ir ātri. Bet ātrums vien nepadara modeli labāku. Ātrās atbildes ir lieliskas, bet, ja tās upurē dziļumu, saskaņotību vai precizitāti, kāda jēga? Bez cietiem etaloniem, lai pierādītu Homerāts Uztur augstas kvalitātes rezultātus tādā ātrumā, tas vienkārši izklausās pēc mārketinga pūka.

Kāpēc caurspīdīgumam ir nozīme

Apjukuma AI apgalvojumi par Homerāts Varētu izklausīties iespaidīgi, bet viņiem trūkst caurspīdīguma, kas nepieciešams, lai tos pilnībā dublētu. Ja “lietotāju apmierinātība” ir viņu galvenā metrika, mums jāzina, kā viņi to mēra, un vai tas attiecas uz dažādiem uzdevumiem-ne tikai uz faktiem balstītiem jautājumiem.

Nozarē, kurā ir precizitāte un uzticēšanās, drosmīgi paziņojumi bez pamatotiem pierādījumiem var aizdegties. Homerāts Varētu spīdēt noteiktos apgabalos, bet joprojām nav skaidrs, vai tas tiešām “pārspēj” lielākos nosaukumus LLM telpā.

Galīgās domas

Konkurence AI ir laba – tā virza progresu. Bet uzņēmumiem ir jābūt iepriekšējiem par to, ko viņu modeļi faktiski var darīt. Ja apjukums vēlas konkurēt ar Openai un Antropic, skaidrākiem etaloniem un godīgākiem apgalvojumiem, daudz palīdzētu. Līdz tam lietotājiem ir jāizrok nedaudz dziļāk un redzēt caur hype.