Patronus AI pētnieki atklāj, ka ChatGPT un citi AI modeļi nespēj analizēt SEC Fileing

Pēdējā gada laikā ChatGPT un citi lielie valodu modeļi (LLM), tostarp Google Bard un Anthropic, ir ieguvuši plašu uzmanību ar savām iespaidīgajām spējām, sākot no kodēšanas, dzejas un dziesmu rakstīšanas līdz pat veselu filmu sižetu izstrādei. Viņi pat ir parādījuši prasmes dažādu uzdevumu veikšanā, tostarp tiesību eksāmenu, Wharton MBA eksāmenu un medicīnas eksāmenu nokārtošanā.

Tomēr, ņemot vērā šos sasniegumus, problēmas joprojām pastāv. Nesenajā ziņojumā no startup Patronus AI tika sniegts ieskats par grūtībām, ar kurām saskaras lielie valodu modeļi, tostarp OpenAI GPT-4-Turbo, lai efektīvi analizētu Vērtspapīru un biržu komisijas (SEC) dokumentus. Saskaņā ar Patronus AI atklājumiem, šie modeļi bieži vien kavē precīzas atbildes uz jautājumiem, kas iegūti no SEC dokumentiem.

Intervijā ar CNBC Patronus dibinātāji piebilda, ka pat visefektīvākā pārbaudītā AI modeļa konfigurācija OpenAI GPT-4-Turbo ar iespēju nolasīt gandrīz visu failu līdzās jautājumam, sasniedza tikai 79% precizitātes līmeni Patronus AI jaunajā modelī. tests, ziņoja CNBC.

Pētnieki teica, ka daudzas reizes valodu modeļi vai nu atsakās reaģēt, vai arī ģenerē informāciju, kas nebija SEC dokumentos, un šo parādību bieži dēvē par “halucinācijām”. Patronus AI līdzdibinātājs Anands Kannapans pauda neapmierinātību ar sniegumu, norādot:

“Šāda veida veiktspējas līmenis ir absolūti nepieņemams. Tam ir jābūt daudz augstākam, lai tas patiešām darbotos automatizēti un būtu gatavs ražošanai.

Ziņojumā uzsvērtas grūtības, ar kurām saskaras AI modeļi, jo īpaši tādās regulētajās nozarēs kā finanses, jo lielākie uzņēmumi cenšas savās darbībās integrēt jaunākās tehnoloģijas klientu apkalpošanas vai pētniecības nolūkos.

Rezultāti uzsver šķēršļus, ar kuriem saskaras AI modeļi, jo tie ir integrēti reālās pasaules produktos, jo īpaši tādās nozarēs kā finanses. Svarīgu skaitļu ātra iegūšana un finanšu stāstījumu analīze tika uzskatīta par daudzsološu tērzēšanas robotu lietojumprogrammu, kas var nodrošināt konkurētspēju finanšu sektorā.

Šis atklājums atbilst arī citam pētījumam, kurā tika konstatēts, ka ChatGPT spēja atrisināt pamata matemātikas problēmas ir ievērojami samazinājusies. Dažu mēnešu laikā tā precizitāte strauji samazinājās no 98% līdz tikai 2%.

Lai gan ģeneratīvā AI potenciāls banku nozarē ir ievērojams, problēmas joprojām pastāv. LLM iekļaušana produktos rada grūtības, ņemot vērā to nedeterministisko raksturu, tāpēc ir nepieciešama stingra pārbaude, lai nodrošinātu konsekventus, aktuālus un uzticamus rezultātus.

Patronus AI, ko dibināja bijušie Meta darbinieki, mērķis ir risināt šo izaicinājumu, automatizējot LLM testēšanu, izmantojot programmatūru. Viņi izveidoja FinanceBench — datu kopu, kurā ir vairāk nekā 10 000 jautājumu un atbilžu, kas iegūti no SEC dokumentiem, nosakot “minimālo veiktspējas standartu” valodas AI finanšu sektorā.

Patronus AI līdzdibinātāji Anand Kannappan un Rebecca Qian (pateicība: Patronus AI)

Līdzdibinātāji uzsvēra stingrāku testēšanas procedūru nozīmi, kas pārsniedz manuālus novērtējumus. Izmantojot FinanceBench, Patronus AI cenšas nodrošināt uzņēmumiem pārliecību, ka viņu AI roboti nesniegs pārsteidzošas vai neprecīzas atbildes, galu galā uzlabojot valodu modeļu uzticamību praktiskos lietojumos.

Testa jautājumi

“Mēs noteikti domājam, ka rezultāti var būt diezgan daudzsološi,” sacīja Kannappan. Viņš arī piebilda: “Modeļi laika gaitā turpinās uzlaboties. Mēs ļoti ceram, ka ilgtermiņā lielu daļu no tā varēs automatizēt. Bet šodien jums noteikti būs jābūt vismaz vienam cilvēkam, kas palīdzētu atbalstīt un vadīt jebkuru jūsu darbplūsmu.