Samsung jaunais TrueBench AI etalons Pārbauda reālās pasaules uzdevumus

Samsung nav uzņēmums, kas pilnībā koncentrējas uz AI, piemēram, apjukumu vai Openai. Tomēr tā pašreizējā un ilgtermiņa stratēģija ietver mākslīgā intelekta integrēšanu lielākajā daļā savu produktu visos iespējamos segmentos. Skaidrs piemērs ir Galaxy AI komplekta funkcijas uzņēmuma viedtālruņos un planšetdatoros. Ņemot vērā šo scenāriju, Samsung Research ir izstrādājis jaunu patentētu etalonu AI produktivitātes novērtēšanai ar nosaukumu TrueBench.

TrueBench: Samsung AI etalons reālās pasaules veiktspējai

Iepazīstieties ar Samsung jauno TrueBench (uzticams reālās pasaules izmantošanas novērtēšanas etalons). Uzņēmums paziņoja, ka tas ir izveidojis rīku, lai risinātu ierobežojumus, kas atrasti esošajos AI etalonos. Uzņēmums apgalvo, ka pašreizējie rīki pārāk daudz koncentrējas uz angļu valodu. Arī tas, ka viņi bieži paļaujas uz vienkāršām, vienreizēju jautājumu un atbilžu struktūrām. Tas ierobežoja viņu spēju precīzi atspoguļot to, kā AI tiek izmantots reālās pasaules darba vidē.

Lai pārvarētu šos ierobežojumus, TrueBench mērķis ir sniegt visaptverošāku un reālistiskāku novērtējumu par to, kā lielo valodu modeļi darbojas profesionālajā vidē. Etalons novērtē AI veiktspēju desmit parasti izmantoto uzņēmumu uzdevumos. Sarakstā ietilpst satura ģenerēšana, datu analīze, apkopojums un tulkošana. Šie uzdevumi ir daļa no masīvas 2485 testa komplektu kolekcijas, kas aptver desmit kategorijas un 46 apakškategorijas un ietver dažādus dialoga scenārijus divpadsmit valodās.

Pārbaudes iestatījums ir no tik īsas kā astoņas rakstzīmes līdz vairāk nekā 20 000 rakstzīmēm, lai atspoguļotu dažādus uzdevumus. Tie svārstās no vienkāršiem pieprasījumiem līdz garu dokumentu apkopošanai.

Novērtēšanas sistēma ietver arī cilvēkus

Lai nodrošinātu uzticamu un precīzu punktu skaitu, TrueBench izmanto unikālu sadarbības novērtēšanas sistēmu, kas ietver gan cilvēku, gan AI pārskatīšanu. Pirmkārt, cilvēku anotatori nosaka sākotnējos novērtēšanas kritērijus. Pēc tam AI pārskata kritērijus, lai pārbaudītu kļūdas, pretrunas vai nevajadzīgus ierobežojumus. Pēc tam cilvēku anotatori uzlabo kritērijus, pamatojoties uz AI atsauksmēm, atkārtojot šo procesu, lai izveidotu arvien precīzāku novērtēšanas standartu. Šīs savstarpējās pārbaudes sistēmas mērķis ir samazināt subjektīvo neobjektivitāti. Lai aizietu no šī testa, AI modelim ir jāatbilst visiem nepieciešamajiem nosacījumiem, kas ļauj veikt detalizētāku un precīzāku vērtēšanu dažādos uzdevumos.

Samsung ir padarījis TrueBench datu paraugus un līderu sarakstus pieejamus atvērtā koda platformā, apskaujot seju. Platforma ļauj izstrādātājiem un pētniekiem vienlaikus salīdzināt ne vairāk kā piecu dažādu AI modeļu veiktspēju un efektivitāti. Uzņēmums arī publicēs datus par modeļa atbilžu vidējo garumu. Tas nodrošinās gan veiktspējas, gan efektivitātes salīdzinājumu AT-A-Glance.

Pēc Samsung teiktā, TrueBench mērķis ir noteikt jaunus produktivitātes novērtēšanas standartus un pastiprināt uzņēmuma tehnoloģisko stāvokli. Būtībā tas sola reālistiskāku un uzticamāku AI metriku.