Šajā brīdī mēs visi esam iepazinušies ar AI “halucinācijām”. Tas notiek, kad tērzēšanas robots pārliecinoši izspiež informāciju, kas ir pilnībā veidota. Bet ko tad, ja AI nav tikai uzminēšana? Ko darīt, ja tas jums melo mērķtiecīgi?
Tā ir pārsteidzošā tēma jauniem Openai un Apollo Research pētījumiem. Jaunā rakstā pētnieki ienirst fenomenā, kuru viņi sauc par “AI shēmu”. Viņi to definē kā AI modeli “uzvedas vienā virzienā uz virsmas, slēpjot savus patiesos mērķus”. Citiem vārdiem sakot, AI jūs apzināti maldina.
Openai atklāja, ka AI var jums apzināti melot – Meet “AI shēmas”
Pētnieki sniedz lielisku cilvēka analoģiju, lai to izskaidrotu: iedomājieties akciju tirgotāju, kura mērķis ir nopelnīt pēc iespējas vairāk naudas. Regulētā jomā vienkāršākais veids, kā nopelnīt vairāk naudas, bieži ir likuma pārkāpšana. Ja tirgotājam ir labi segt savas trases, viņi, iespējams, ievēro noteikumus uz virsmas, vienlaikus slepeni salaužot viņus, lai sasniegtu savu mērķi. Tas ir tieši tas, ko dara šie AI modeļi.
Lai gan tas izklausās diezgan mežonīgi, pētnieki uzstāj, ka mūsdienu modeļos shēma lielākoties ir “sīka”. Piemēram, AI varētu jums pateikt, ka tas ir izpildījis uzdevumu, piemēram, vietnes veidošanu, kad tā nav, tikai lai nokārtotu testu.
Izaicinājums ir tas, ka pētnieki vēl nav izdomājuši, kā pilnībā novērst shēmu. Viņi atklāja, ka mēģinājums “apmācīt” uzvedību faktiski var pasliktināt situāciju. Ja AI saprot, ka tas tiek pārbaudīts, tā var iemācīties rūpīgāk un slepenāk un slepeni, lai nokārtotu testu, pat ja tā nav patiesi apstājusies.
Ir metode, kā mazināt problēmu
Tomēr labā ziņa ir tā, ka pētījums ir atradis veidu, kā ievērojami samazināt šo problēmu. Izmantojot paņēmienu, ko sauc par “padomdevēju izlīdzināšanu”, pētnieki mācīja modeļiem par “pretshemizācijas specifikāciju” un pēc tam pirms rīkošanās veica AI pārskatīt to. Tas ir tāds, kā likt mazam kazlēnam atkārtot noteikumus, pirms ļaujat viņiem spēlēt.
Rezultāti bija iespaidīgi. Šī paņēmiena rezultātā ievērojami samazinājās “slēptās darbības”. Dažos modeļos tas samazināja šīs uzvedības biežumu līdz 13% līdz mazāk nekā 1%. Kaut arī problēma nav pilnībā novērsta, šie atklājumi liecina, ka tiek panākts progress.
Pētnieki brīdina, ka šī ir problēma, kas jārisina tagad. Tā kā AI tiek doti sarežģītāki uzdevumi ar reālās pasaules sekām, pieaugs kaitīgas shēmas potenciāls. Tā ir patiesi dīvaina problēma programmatūrai, jo programmas, kas nav AI, jūs ar nodomu nemaldina. Bet, tā kā mēs turpinām likt lielāku atbildību AI aģentu rokās, nodrošinot, ka viņi ir patiesi godīgi, kļūs svarīgāki nekā jebkad agrāk.