Reddit iesūdz tiesā Perplexity par, iespējams, miljoniem lietotāju ziņu nokasīšanu, lai apmācītu savu AI modeli

Reddit ir veicis juridisku triecienu pieaugošajā cīņā starp tehnoloģiju platformām un AI uzņēmumiem par to, kam pieder dati, kas veicina mašīnmācīšanos. Uzņēmums iesniedza prasību pret AI starta uzņēmumu Perplexity, apsūdzot to miljoniem lietotāju ziņu nokasīšanā, lai bez atļaujas apmācītu savus AI modeļus.

Sūdzībā, kas trešdien tika iesniegta Ņujorkas federālajā tiesā, tiek apgalvots, ka Perplexity un trīs datu nokopšanas partneri — Oxylabs, AWMProxy un SerpApi — maskējās kā parastie lietotāji, lai plašā mērogā iegūtu Reddit saturu, ziņoja CNBC.

Reddit juridiskā komanda saka, ka šīs vienības slēpa savas atrašanās vietas un maskēja savu identitāti, lai apietu drošības pasākumus. Uzņēmums apgalvo, ka tā lietotāju radītās diskusijas ir kļuvušas par vienu no vērtīgākajiem apmācības datiem tiešsaistē, nodrošinot AI modeļus, kas ir atkarīgi no autentiskas cilvēku sarunas.

Šī nav Perplexity pirmā juridiskā problēma. Tikai pirms diviem mēnešiem Japānas Nikkei un The Asahi Shimbun iesūdzēja tiesā Sanfrancisko jaunuzņēmumu, apgalvojot, ka tas bez atļaujas kopējis un pārveidojis viņu žurnālistiku. Šajā lietā tiek prasīta aptuveni 30 miljonu dolāru atlīdzība par zaudējumiem un tiesas rīkojums par datu nokasīšanas apturēšanu.

Savā jaunajā sūdzībā Reddit saka, ka Perplexity ignorēja pārtraukšanas un pārtraukšanas vēstuli un tā vietā pastiprināja Reddit satura izmantošanu, atsaucoties uz platformu “četrdesmitkārtīgi” ģenerētajās atbildēs. Prasībā šī uzvedība ir aprakstīta kā daļa no plašākas “industriāla mēroga datu atmazgāšanas” ekonomikas, ko virza AI sacīkstes par labāku cilvēku saturu.

Apjukums noliedz jebkādu pārkāpumu. Reddit publicētajā paziņojumā uzņēmums apgalvoja, ka tas neapmāca modeļus Reddit ziņās, bet gan apkopo un citē tos. “Pirms gada pēc tam, kad tas tika izskaidrots, Reddit uzstāja, ka mēs tik un tā maksājam, neskatoties uz to, ka esam likumīgi piekļuvuši Reddit datiem. Mēs vienkārši nevaram pakļauties spēcīgas rokas taktikai,” sacīja Perplexity. Tas raksturoja tiesas prāvu kā iebiedēšanas darbību, kas saistīta ar Reddit licencēšanas sarunām ar OpenAI un Google.

“Perplexity uzskata, ka šis ir skumjš piemērs tam, kas notiek, kad publiskie dati kļūst par lielu daļu no valsts uzņēmuma biznesa modeļa,” piebilda Perplexity, norādot, ka datu licencēšana ir kļuvusi par arvien nozīmīgāku Reddit ieņēmumu avotu.

Reddit šī juridiskā cīņa pārsniedz vienu uzņēmumu. Tas ir izmēģinājuma piemērs tam, kā platformas var aizsargāt savu kopienu datus, vienlaikus piedaloties AI ekosistēmā. Uzņēmums jau ir parakstījis vairāku miljonu dolāru licencēšanas līgumus ar OpenAI un Alphabet Google, kas kopā veido gandrīz 10% no Reddit ieņēmumiem, norāda COO Jen Wong.

Uzņēmums Perplexity, ko 2022. gadā dibināja bijušie Google un OpenAI inženieri, sevi pozicionē kā “atbilžu dzinēju”, kas piedāvā ātras, citētas atbildes uz jautājumiem. Uzņēmums, kura vērtība ir miljardos, nesen tika uzsākta Komēta Plus5 ASV dolāru abonēšanas programma, kas sola 80% no 42,5 miljonu dolāru kopfonda koplietot ar izdevējiem. Tomēr kritiķi saka, ka tas neizdzēš kaitējumu, ko radījusi iepriekšējā skrāpēšanas prakse.

Perplexity pieeju jau ir pārbaudījuši plašsaziņas līdzekļi, tostarp ziņojumi 2024. gadā, ka tā ir viltojusi pārlūkprogrammas un cikliski mainījusi IP adreses, lai apietu ierobežojumus tādās vietnēs kā Forbes un Wired. Uzņēmums vēl nav izteicis publisku komentāru par Reddit tiesas prāvu, taču iznākumam varētu būt ilgstoša ietekme uz to, kā AI uzņēmumi piekļūst publiski pieejamiem datiem un gūst peļņu, jo īpaši, ja šie dati nāk no interneta viscilvēcīgākajām sarunām.