GPT-4 izaicina acu ārstus, pārvalda ļoti rūpīgu novērtējumu

Jaunajā ziņojumā teikts, ka OpenAI GPT-4 ir izdevies izcili labi pret acu ārstiem. LLM (Large Language Model) ģeneratīvā AI (mākslīgā intelekta) radītie novērtējumi spēja pārspēt nespeciālistus jaunākos ārstus un praktikantus. Microsoft finansētais Gen AI pat bija tuvu tam, lai atbilstu ekspertiem acu ārstiem.

GPT-4 atbild uz oftalmoloģijas novērtējuma MCQ

Pētījumā, kas publicēts PLOS digitālā veselība žurnāls, ir pierādījis, kā Gen AI LLM varētu palīdzēt medicīnas jomā. Runājot par rezultātiem, raksta galvenais autors Aruns Thirunavukarasu sacīja:

“Šis darbs parāda, ka šo lielo valodu modeļu zināšanas un spriešanas spējas acu veselības kontekstā tagad gandrīz neatšķiras no ekspertiem. Mēs redzam spēju atbildēt uz diezgan sarežģītiem jautājumiem.

Viņš atsaucās uz GPT-4 spēju atbildēt uz MCQ (vairākas izvēles jautājumiem) par oftalmoloģiju. Kopumā tika ziņots, ka pētījumā GPT-4 tika lūgti 87 MCQ. Pieci eksperti oftalmologi, trīs stažieri oftalmologi un divi nespecializēti jaunākie ārsti atbildēja uz tiem pašiem jautājumiem.

Pētījumā tika izstrādāta anketa no mācību grāmatas, lai pārbaudītu praktikantus par visu, sākot no gaismas jutības līdz bojājumiem. Interesanti atzīmēt, ka mācību grāmatas saturs nav pieejams publiskajā domēnā. Tāpēc pētnieki uzskata, ka OpenAI, iespējams, ir apmācījis savus LLM iekšējās apmācības laikā.

Pētījuma laikā pētnieki ChatGPT, kas aprīkots ar GPT-4 vai GPT-3.5, trīs reizes mēģināja atbildēt galīgi. Ja tas neizdevās, pētnieki atzīmēja atbildi kā “nulle”.

GPT-4 pārspēj dažus acu ārstus, bet vēl nevar saskaņot ekspertus

No 87 dažādiem pacientu scenārijiem, kā ziņots, GPT-4 pārspēja juniorus un sasniedza līdzīgus rezultātus kā lielākajai daļai speciālistu. Konkrētāk, GPT-4 60 no 87 jautājumiem atbildēja pareizi. Jaunākajiem ārstiem izdevās iegūt vidēji 37 pareizas atbildes.

Stažieri oftalmoloģijas jomā bija diezgan tuvu ar vidēji 59,7 pareizām atbildēm. Ja neskaita vienu ekspertu, kurš pareizi atbildēja uz 56 MCQ, pārējie speciālisti vidēji atbildēja ar 66,4 pareizām atbildēm.

Salīdzinoši, PaLM 2 izdevās iegūt 49 pareizas atbildes, GPT-3.5 ieguva tikai 42, un LLaMa atpalika kopā ar tikai 28 pareizi atbildētiem MCQ.

Ir svarīgi atzīmēt, ka pētījums tika veikts 2023. gada vidū. Citiem vārdiem sakot, LLM, iespējams, ir daudz labāk izprotot sarežģītus jautājumus un atbildēt uz tiem.

Veselības nozare neapšaubāmi gūtu labumu no ChatGPT, Gemini un citām Gen AI platformām. Tomēr daži medicīnas eksperti ir brīdinājuši nepaļauties uz Gen AI, lai diagnosticētu pacientu. Šādām platformām “trūkst nianšu”, viņi norādīja. Tādējādi daži pētnieki brīdināja, ka neprecizitātes iespējamība varētu būt ļoti liela.