Kāpēc AI diagnoze neizdodas: cilvēka kļūda ir aiz lauztiem rezultātiem

Jūs jūtat šo pazīstamo skrāpējumu kakla aizmugurē. Jūs paņemat malku ūdens. Tas sāp. Jūs mēģināt to notīrīt. Joprojām tur. Tātad, tāpat kā miljoniem citu, jūs izvelkat savu tālruni un sākat googling simptomus.

Tas, kas sākas kā vienkāršs “iekaisis kakls” meklējums, ātri spirāles. Tagad jūs lasāt par vēzi, imūno traucējumiem un retām infekcijām. Panika iestājas iekšā. Vai izklausāties pazīstams?

Tur varētu palīdzēt AI. Tādi rīki kā Chatgpt var sniegt pārdomātas, ātras atbildes, un lielākoties tas ir bez maksas. Faktiski nesenā Oksfordas pētījumā atklājās, ka lielie valodas modeļi pareizi diagnosticēja medicīniskos gadījumus 94,9% laika. Tas ir augstāks nekā daudzi ārsti.

Tomēr, kad cilvēki tos pašus instrumentus izmantoja vienādos gadījumos, to precizitāte samazinājās līdz 34,5%. Kā izrādās, AI šeit nav ierobežojošais faktors attiecībā uz sniegumu; Mēs, cilvēki, patiesībā, iespējams, kavē AI no tā pilnā potenciāla.

Pētījums

Oksfordas pētījums, kuru vadīja Dr. Adam Mahdi, ieveda gandrīz 1300 dalībniekus un deva viņiem vienkāršu uzdevumu: rīkoties kā pacienti. Katra persona saņēma detalizētu gadījuma scenāriju, komplektā ar simptomiem, slimības vēsturi un personīgo kontekstu. Tie ietvēra tādas lietas kā tikko pabeigt eksāmenus vai piedzīvot sāpes, skatoties uz leju. Ideja bija redzēt, cik labi ikdienā cilvēki varētu izmantot AI, lai izdomātu, kas ir nepareizi, un izlemt, kādu rūpību meklēt.

Viņiem lika izturēties pret AI kā pret īstu ārstu. Uzdodiet jautājumus, aprakstiet simptomus un saņemiet palīdzību. Katram dalībniekam vismaz vienu reizi bija jāsadarbojas ar modeli, taču viņi varēja brīvi uzdot papildu jautājumus vai mēģināt vēlreiz, ja viņiem vajadzēja vairāk informācijas. Pētnieki eksperimentam izmantoja trīs dažādus LLM: Chatgpt-4o, Llama 3 un Command R+.

Tikmēr ārstu grupa vienojās par pareizu katra gadījuma diagnozi kopā ar atbilstošo aprūpes līmeni. Pētnieki jau zināja, vai pareizais gājiens ir palikšana mājās vai izsauc ātro palīdzību. Pārbaude bija tā, vai cilvēki un AI varēja tur nokļūt kopā.

Smart AI, slikti rezultāti: cilvēku kļūda?

Padomājiet par AI kā perfektu darbinieku. Tas var apstrādāt milzīgu datu daudzumu, precīzi ievērot instrukcijas un sniegt atbildes dažu sekunžu laikā. Bet pārī to ar sliktu menedžeri, un viss sabrūk. Neskaidras instrukcijas, neskaidri mērķi un nepietiekami izmantotās iespējas var izraisīt neapmierinošus rezultātus. Tas ir tieši tas, kas notiek, kad daudzi cilvēki mēģina izmantot AI.

Iedomājieties, ka jūsu priekšnieks lūdz jūs paķert viņiem kafiju, bet nesakot, kāda veida. Jūs atgriezīsities ar karstu melnu kafiju, tikai lai viņi sūdzētos, ka viņi vēlas apledojuši auzu piena latte ar diviem vaniļas sūkņiem. Tehniski jūs paveicāt darbu. Bet bez atbilstošām instrukcijām jūs, iespējams, nevarētu piegādāt to, ko viņi patiešām vēlējās.

Pastāv kopīgs pieņēmums, ka šie rīki vienkārši “iegūst”, piemēram, draugu, kurš jūs tik labi pazīst, viņi var pabeigt jūsu teikumus. Bet AI nav jūsu labākais draugs. Tas nevar lasīt jūsu toni vai uzminēt, ko jūs domājāt. Ja jūs nedodat tieši to, kas tam nepieciešams, jūs nesaņemsit pareizo izvadi.

Šis atvienojums skaidri parādījās Oksfordas pētījumā. Pētnieki atklāja, ka dalībnieki, kas izmanto LLM, identificēja vismaz vienu attiecīgu stāvokli tikai 34,5 procentos gadījumu. Kontroles grupa, kas nemaz neizmantoja AI, bija labāka par 47 procentiem. Un, kad vajadzēja izvēlēties pareizo rīcību, LLM lietotāji to ieguva tikai 44,2 procentus laika. AI modeļi, kad paši izlemti, viņi to ieguva 56,3 procentus laika.

Tātad, kas nogāja greizi? Dalībnieki sniedza nepilnīgas vai neskaidras uzvednes. Daži aizmirsa pieminēt galvenos simptomus. Citi atstāja smagumu vai laiku. Tā rezultātā modeļi nepareizi interpretēja ieguldījumu vai nokavēja svarīgus norādījumus. Un pat tad, kad AI deva pareizo diagnozi, lietotāji ne vienmēr sekoja cauri. Šī daļa nav unikāla mašīnām. Cilvēki arī ignorē ārstus. Simptomi ir viegli, antibiotikas kļūst nepabeigtas, un instrukcijas tiek izlaistas.

Interesanti, ka daži AI rīki jau iegūst vilci faktiskajās medicīnas darbplūsmās. Piemēram, ārsti izmanto openevidenci, lai meklētu un apstiprinātu klīnisko literatūru. Tas nemēģina aizstāt ārstu, tas viņus papildina. Atšķirība slēpjas dizainā: tādi rīki kā šie atbalsta speciālisti, kuri jau zina, kā filtrēt, interpretēt un rīkoties pēc rezultātiem. Tas ļoti atšķiras no vienas un tās pašas sistēmas nodošanas neapmācītam pacientam un to pašu iznākumu.

Cilvēka-AI diagnozes sašaurinājums

Saskaņā ar Nathalie Volkheimer, lietotāju pieredzes speciāliste Renesansances skaitļošanas institūtā, viena problēma ar pacientiem, kas mijiedarbojas ar ārstiem, ir tā, ka daži apstākļi vai notikumi, kas to ved, var būt mulsinoši. Tāpēc cilvēki dažreiz atstāj svarīgu informāciju.

Bet, kad otra puse ir mašīna bez sprieduma vai emocijām, jūs domājat, ka cilvēki justos ērtāk daloties ar visu. Tas tā nebija.

Tas uzsver būtisku nepilnību, ko pētījums atklāja. Problēma nav tā, ka AI modeļi nav pietiekami gudri. Tas ir tas, ka cilvēki joprojām mācās, kā ar viņiem sazināties. Kā saka Volkheimers, problēma nav pati mašīna. Tā ir mijiedarbība starp cilvēkiem un tehnoloģijām.

Tas arī atklāj dziļāku trūkumu, kā mēs novērtējam AI. LLM var viegli nokārtot medicīniskos eksāmenus vai juridiskos testus. Tas nav pārsteidzoši. Viņi ir apmācīti plašās datu kopās, un viņiem ir pieeja pareizajai informācijai. Bet šie testi neatspoguļo to, kā īsti cilvēki runā, domā vai uzdod jautājumus.

Pat apmācības datiem ir savas robežas. Kā norāda viens medicīniskais pārskats, daudzi modeļi tiek apmācīti datu kopās, kas neatspoguļo reālās pasaules daudzveidību vai retas malas gadījumus. Medicīnā šo novirzes trūkstošai var nozīmēt dzīvībai bīstama stāvokļa trūkumu. Tāpēc mācību grāmatas eksāmena veiktspēja ne vienmēr nozīmē panākumus netīrā klīniskajā vidē.

Ja uzņēmums vēlas izveidot AI tērzētavu, lai aizstātu klientu apkalpošanas pārstāvi, tas nevar tikai pārbaudīt, vai robots zina pareizās atbildes. Tam nepieciešama apmācība par netīriem, nekonsekventiem veidiem, kā cilvēki patiesībā runā. Cilvēki var izrakstīt kaut ko tik vienkāršu kā prasīt produkta cenu duci dažādos veidos. Ja modelis tos visus neatzīst, tas nesniegs atbildi, kas klienta vajadzībām.

Gudrākam ai ir nepieciešami gudrāki cilvēki

Ja ir viena lieta, kas šajā pētījumā skaidri norāda, tas ir tas, ka neapstrādāts intelekts nav problēma. AI var saņemt pareizo atbildi. Tas bieži notiek. Sadalījums notiek, kad mēs sākam un kad mēs sniedzam sliktas uzvednes, atstājam galveno informāciju vai ignorējam atbildes, kuras mēs nevēlamies dzirdēt.

Tas nav unikāls veselības aprūpei. Neatkarīgi no tā, vai tas ir klientu apkalpošanas tērzēšanas robots, juridiskais asistents vai ar AI darbināmu pasniedzēju, tiek piemērots tāds pats modelis. Modelis neizdodas uzdevumā. Mums neizdodas saskarne.

Ir viegli aizrauties ar iespaidīgiem etalona rādītājiem un augstām precizitātes pakāpēm. Bet AI, kas vada eksāmenu, automātiski nezina, kā palīdzēt apjukušam, pārņemtajam vai neskaidram cilvēkam. Un līdz brīdim, kad mēs sākam projektēt un pārbaudīt šīs sistēmas, paturot prātā nekārtīgu cilvēka izturēšanos, mēs turpināsim pārvērtēt to reālās pasaules lietderību.

Šis kontrasts kļūst vēl skaidrāks, aplūkojot AI sistēmas, kas izdodas. Džona Hopkinsa pētnieki izvietoja AI rīku, kas sepsi atklāja gandrīz sešas stundas agrāk nekā tradicionālās metodes un samazināja pacienta nāves gadījumu par 20 procentiem. Atšķirība? Šī sistēma tika iestrādāta tieši slimnīcas darbplūsmās un paļāvās uz klīniskajiem datiem reāllaikā, nevis tikai pacienta pamudinājumos. Tas parāda, ka ar pareizo dizainu un kontekstu AI var darboties, bet tikai tad, kad tas attiecas uz cilvēkiem, kuri to izmanto.

Tāpēc nākamreiz, kad kakls sāp, un jums ir kārdinājums pajautāt tērzētavai, ko tas nozīmē, atcerieties, ka labas atbildes saņemšana ir atkarīga no laba jautājuma uzdošanas. Modeļi nav sašaurināšanās. Mēs esam. Un tā ir daļa, kas mums jānovērš.