Jūsu Bluesky ziņas šobrīd varētu apmācīt AI modeļus

Bluesky popularitāte pēdējo nedēļu laikā ir strauji pieaugusi. X/Twitter lietotāju “izceļošanas” vidū miljoniem Bluesky atrada ideālu alternatīvu. Tā kā platforma ir izstrādāta kā Twitter konkurente, tā ir diezgan līdzīga pamata funkcionalitātes ziņā. Tomēr šķiet, ka BlueSky nosacījumi attiecībā uz AI un ziņu privātumu nav tik labi, kā daudzi gaidīja.

Viena no X izmaiņām, kas izraisīja lietotāju migrācijas kampaņu, ir saistīta ar mākslīgo intelektu. Jaunie lietošanas noteikumi ļauj Elona Muska platformai apmācīt uz AI balstītas izstrādes ar lietotāju ziņām. Lai gan daudziem tas varētu būt vienaldzīgs, ir arī citi, piemēram, mākslinieki, kuri ar bažām uzlūkoja jauno politiku.

Tomēr šķiet, ka jūsu ziņas vietnē Bluesky nav tik drošas, lai tās izmantotu AI apmācībai. Jāatzīmē, ka sociālā platforma ir apņēmusies to nedarīt. Šis paziņojums nomierināja cilvēkus, kuri pameta X tieši šī iemesla dēļ. Bet, lai gan Bluesky neapmācīs AI jūsu saturu, nekas neliedz trešajām pusēm to darīt.

Strīdu izcelsme: miljoniem Bluesky ziņu, kas ir pieejamas AI apmācībai

Pagājušajā nedēļā Daniels van Striens, Hugging Face mašīnmācīšanās bibliotekārs, kopīgoja datu kopu, kas sastāv no miljons Bluesky ziņu, izraisot domstarpības. Ja nezināt, Hugging Face ir atvērtā pirmkoda mašīnmācīšanās bibliotēkas platforma. Tas nozīmē, ka datu kopas ir pieejamas bezmaksas lietošanai, tostarp AI apmācībai.

Protams, šīs ziņas neuztvēra labi lietotāji, kuri pārcēlās uz Bluesky, lai izvairītos no pieļaujamajām politikām attiecībā uz AI apmācību. Dažas stundas pēc atbildes reakcijas Daniels van Striens noņēma datu kopu un publiski atvainojās. “Lai gan es vēlējos atbalstīt platformas rīku izstrādi, es atzīstu, ka šī pieeja ir pārkāpusi datu vākšanas pārredzamības un piekrišanas principus. Es atvainojos par šo kļūdu,” viņš teica.

Viena no iezīmēm, kas Bluesky atšķir no citām platformām, ir tās decentralizētais raksturs. Tam ir priekšrocības, piemēram, lielāka indivīdu kontrole pār savu saturu. Tomēr tas nozīmē arī to, ka ziņas ir pieejamas publiskajā plūsmā. Tādējādi trešajām pusēm ir pilna piekļuve tiem, tostarp to lietotāju profiliem, kuri tos ievietojuši.

Ja trešās puses ir profesionāļi, piemēram, pētnieki, tās parasti ievēro ētikas vadlīnijas datu kopu apstrādē. Piemēram, viņi anonimizē katru ziņu, lai to nevarētu saistīt ne ar vienu. Tie piedāvā arī lietotājiem iespējas pieprasīt sava satura noņemšanu no datu kopas. Tomēr, kā daudzi zinās, internets ir pilns ar troļļiem.

Parādījās vairāk datu kopu ar miljoniem BlueSky ziņu

Redzot Bluesky lietotāju reakciju uz Daniela van Striena sākotnējo ziņu, ātri sāka parādīties jaunas datu kopas, kas satur miljoniem ziņu no sociālās platformas. Hugging Face datu kopu aprakstos bieži vien ir skaidri norādīts, ka tās var izmantot AI apmācībai. Galu galā tas tikai vēl vairāk kairinās tos, kurus satraukts par pirmo kopīgo datu kopu, vai ne?

Trešo pušu datu vākšanā netika ievērotas nekādas profesionālās vadlīnijas. Tas nozīmē, ka publiski pieejamās datu kopās ir ne tikai ziņas, bet arī to personu segvārdi, kuras tās izveidoja. Situācija saasinājās tiktāl, ka līdz šim lielākajā datu kopā ir gandrīz 300 miljoni ziņu no X konkurenta lietotājiem.

PygmalionAI saistītais uzņēmums Alpine Dale atklāja, ka viņš ir apkopojis datu kopu ar diviem miljoniem ziņu. PygmalionAI ir LLM, kas ir īpaši populāra uz lomu spēlēm vērstu tērzēšanas robotu lietotāju vidū. Šī datu kopa vēl nav kopīgota, taču vietnes aprakstā teikts, ka “var izmantot: Apmācībai un valodu modeļu testēšanai sociālo mediju saturā; Sociālo mediju publicēšanas modeļu analīze; Sarunu struktūru un atbilžu tīklu izpēte; Pētījumi par sociālo mediju satura moderēšanu; Dabiskās valodas apstrādes uzdevumi, izmantojot sociālo mediju datus”

Ir arī Alims Maasoglu, indivīdsveltīts visaptverošu produktu izstrādei mākslīgā intelekta telpā”. Viņa datu kopas aprakstā Hugging Face, kas sastāv no aptuveni astoņiem miljoniem Bluesky ierakstu, teikts, ka “mērķis ir nodrošināt pētniekiem un izstrādātājiem visaptverošu reālās pasaules sociālo mediju datu paraugu analīzei un eksperimentēšanai”. Aprakstā arī minēts, ka datu kopa ir “augošs”, tāpēc laika gaitā tas kļūs lielāks.

Lielākajā ir gandrīz 300 miljoni ziņu

Tas nozīmē, ka neviens no iepriekš minētajiem nav tuvu Hugging Face lietotājam, kurš saucas GAYSEX, ar acīmredzamiem nodomiem troļļot. Viņu datu kopā ir nekas vairāk un ne mazāk kā 298 miljoni Bluesky lietotāju ziņu.

GAYSEX datu kopas apraksts ironiskā veidā parāda viņu nodomus. “NĒ, tu to nevari darīt!’ Tad nepublicējiet. Ja nevēlaties tikt ierakstīts, tad nepublicējiet to. ‘Bet es darīju XYZ!’ Tad nevajag. Paskaties. Gandrīz viss, kas atrodams internetā, mūsdienās paliek internetā. Īpaši lielas sociālo tīklu vietnes. Jūs varētu apsvērt iespēju izveidot emuāru. Viņiem ir mazākas iespējas tikt piesaistītiem AI apmācībai, un ir papildu veidi, kā aizsargāt emuārus, kas tiek agresīvi nokasīti”, tā skan.

Ironiski, lai gan šajā datu kopā ir visvairāk Bluesky ziņu, tā ir arī vismazāk noderīga AI modeļu apmācībai. Lietotājs nokasīja datus bez īpašas rūpes, kārtības vai organizatoriskās struktūras. Būtībā viņu mērķis bija vienkārši savākt pēc iespējas vairāk amatu. Viņi vienkārši vēlējās ievērojami pārspēt iepriekšējās kopīgotās datu kopas un radīt lielāku kairinājumu starp Bluesky ļaudīm. Šī datu kopa ir “pārāk nefiltrēts, tāpēc būs daudz darāmā”, lai tas būtu piemērots AI apmācībai.

Pašreizējie datu aizsardzības likumi neko nevar darīt lietas labā

Saskaņā ar Samantas Koulas ziņojumu par 404 Media, vietnē Hugging Face ir publiski pieejamas vismaz sešas datu kopas, kurās ir miljoniem Bluesky lietotāju ziņu. Turklāt šķiet, ka pašreizējie datu aizsardzības likumi ir bezspēcīgi, lai to apturētu. Kols apspriedās par situāciju ar Nilu Braunu, juristu, kurš specializējas Vispārīgajā datu aizsardzības regulā (VDAR). “Apstrādājot tikai cilvēku personas datus ES, persona, kas veic šo apstrādi, nepakļauj ES GDPR“Brauns paziņoja.

To, vai uz līdzīgām darbībām attiecas GDPR, nosaka tas, ko konkrēta organizācija vai fiziska persona dara ar datiem. Datu kopas publicēšana vien nepadara to piemērotu uz GDPR balstīta juridiska procesa uzsākšanai. Datu apstrāde “būtu jāiekļauj tās (VDAR) materiālās un teritoriālās darbības jomā“par to,” piebilst Kols. Autors “materiālās un teritoriālās darbības jomas” viņa atsaucas ne tikai uz to, ko kāds dara ar datu kopu, bet arī uz reģionu, kurā viņi to dara.