AI robotprogrammatūras Outsmart Reddit debatētāji slepenā eksperimentā

Iedomājieties, kā uzvarēt karstās debatēs par Reddit’s R/ChangemyView, sakārtot karmas punktus, tikai lai iemācītos pretinieku vispār nebija cilvēks. Tas bija AI robots, kas pozēja kā traumas konsultants vai politiskais aktīvists, kas bija paredzēts pārliecināt un saplūst. Tas ir tieši tas, kas notika slēptā eksperimenta laikā, ko vadīja Cīrihes universitātes pētnieki – tas, kas tagad izraisa sašutumu un rada nopietnu ētisku jautājumu.

Cīrihes Universitātes studijas ar AI Bots Angers Reddit lietotājiem

Saskaņā ar vairākiem ziņojumiem četru mēnešu laikā pētnieki izvietoja 13 AI darbināmus kontus, lai iefiltrētu R/ChangemyView-subreddit, kas pazīstams ar strukturētām debatēm un viedokļu maiņu. Šie robotprogrammatūras nebija tikai pārbaudījuši ūdeņus – viņi ievietoja 1783 komentārus un ieguva vairāk nekā 100 “delta” medaļas, Reddit nozīmīti veiksmīgai pārliecināšanai.

Kicker? Neviens no lietotājiem nezināja, ka strīdas ar mašīnām.

Boti tika uzbūvēti, lai atdarinātu Reddit toni – ieskaitot. Viņi nokasīja lietotāju komentāru vēsturi, izvēloties politisko noslieci, vecumu, dzimumu un citus signālus, lai veidotu atbildes, kas jutās ļoti personiskas. AI aiz projekta? Vadošo modeļu, piemēram, GPT-4O un Claude 3.5, sajaukums.

Meli uzvednē

Viena no atklātākajām detaļām pētniecības dizainā bija tas, kā komanda tika garām ētiskajiem filtriem, kas iebūvēti valodu modeļos. Lai izvairītos no bloķēšanas no robotprogrammatūras radīšanas atbildēm par neatļautu eksperimentu, pētnieki meloja AI.

Uzvednē viņi modelim teica, ka Reddit lietotāji ir devuši informētu piekrišanu, kad viņi to nebija izdarījuši.

AI roboti pievilināja Reddit lietotājus zaudēt argumentus – vai tas bija ģēnijs vai ļauns?

Daži robotprogrammatūras uzņēma tikpat jutīgas lomas kā traumas pārdzīvojušie vai rasu minoritātes, lai izrādītos ticamākas. Viens pat pozēja kā “melnādains vīrietis, kas iebilst pret Black Lives Matter”. Maldināšana bija dziļa, un neviens neķērās līdz brīdim, kad visa šī lieta netika atšķīrusies aprīlī.

Reddit moderatori galu galā atzīmēja darbību, nosaucot to par “psiholoģiskām manipulācijām” un kontu aizliegšanu. Logans Makgregors, subreddit moderators, pastāstīja laikrakstam The Washington Post, ka viņš pievienojās R/ChangemyView, lai iesaistītos ar reāliem cilvēkiem, nevis robotprogrammatūras, kas veic sociālos eksperimentus. Reddit galvenais juridiskais darbinieks Bens Lī arī neminēja vārdus, nosaucot pētījumu par “dziļi nepareizu gan morālā, gan juridiskā līmenī” un signalizējot par tiesisku darbību pret universitāti.

Cīrihes universitāte sākotnēji aizstāvēja pētījumu, sakot, ka to ir apstiprinājusi tās ētikas padome. Bet tur ir vērpjot: pētnieki, kā ziņots, apiet AI drošības filtrus, melojot valodu modeļiem, apgalvojot, ka lietotāji ir devuši piekrišanu. Kā teica YouTube veidotājs CodeReport, “diezgan ēnains, bet zinātnes vārdā”.

Rezultāts neapstājās Reddit. AI pētnieki un ētisti kritizēja komandu par reālu cilvēku izmantošanu kā testa subjektus bez atļaujas, it īpaši, ja citas laboratorijas ir sasniegušas līdzīgus rezultātus, izmantojot imitētu vidi. Kopš tā laika universitāte ir izsludinājusi oficiālu brīdinājumu vadošajam pētniekam un apņēmusies stingrākus pārskatus, virzoties uz priekšu. Bet reputācijas bojājumi jau ir iekļuvuši.

Pētniecības komanda vēlāk runāja par strīdiem Reddit pavedienā, atzīstot, ka viņi paši nerakstīja komentārus, bet pirms izlikšanas manuāli pārskatīja, lai pārliecinātos, ka nekas kaitīgs izslīd.

“Mēs apzināmies, ka mūsu eksperiments ir pārkāpis kopienas noteikumus par AI ģenerētiem komentāriem.”
– LlmResearchTeam teica par Reddit

Kas lika pētniekiem turpināties, neskatoties uz noteikumiem?

Pēc komandas domām, tēma bija pārāk svarīga, lai to ignorētu. Viņi apgalvoja, ka AI ietekmes uz publisko diskursa izpēti nepieciešami reālās pasaules apstākļi-pat ja tas nozīmēja subreddit noteikumu pārkāpšanu. Viņi atzīmēja, ka pētījums bija saņēmis apstiprinājumu no Cīrihes Universitātes Institucionālās pārskata padomes.

Viņi apgalvoja, ka katrs lēmums ir pamatots ar trim pamatprincipiem: ētikas pētījumu rīcība, lietotāju drošība un caurspīdīgums.

AI robotprogrammatūras ir 6 reizes pārliecinošākas nekā cilvēki

Tas, kas padara šo incidentu vairāk nekā tikai Reddit skandālu, ir tas, ko tas norāda: AI nav tikai spējīgs radīt saturu vai atbildēt uz jautājumiem – tagad tas ir pārliecinoši pārliecinoši publiskos forumos. Šie robotprogrammatūras bija trīs līdz sešas reizes labāki, mainot prātu nekā reāli cilvēkiveicinot bažas, ka nākotnes “ar AI darbināmi robottīkli” varētu mierīgi manipulēt ar veselām kopienām no iekšpuses.

Saskaņā ar CodeReport (video zemāk), robotprogrammatūras gandrīz 20% gadījumu pārsvarā pārspēja viedokļus. Cilvēki? Tikai 2%.

Tehnoloģiju to var izvietot jebkurā tiešsaistes kopienā, un tur slēpjas lielāks risks. Neatkarīgi no tā, vai tie ir sociālie mediji, forumi vai politiski pavedieni, spēja vadīt sarunas – kas ir visnotaļ – mērogā paver durvis manipulācijām, kas pārsniedz Reddit. Sākot ar pikšķerēšanas izkrāpšanu un beidzot ar kampaņām, robeža starp sarunu un CON kļūst plānāka.

Tātad, ko jūs domājat? Sašutums, ka jūs varētu būt pasniegts robots, vai arī slepeni iespaidoja tehnoloģija? Jebkurā gadījumā, nākamreiz, kad esat debatēs tiešsaistē, jūs varētu pajautāt sev: vai šī persona ir īsta vai Cīrihes robots, kurš pēta, cik viegli jūs pārliecināt?

https://www.youtube.com/watch?v=5an4xg0vvcs

Vai AI var mainīt jūsu skatu? Pierādījumi no liela mēroga

Zemāk ir PDF pētījuma kopija.

can_ai_change_your_view