Encyclopaedia Britannica iesūdz OpenAI tiesā, apgalvo, ka ChatGPT ir nokopējis gandrīz 100 000 rakstu, lai apmācītu savus AI modeļus

Ilgā cīņa par AI apmācības datiem tikko ievilka vienu no atpazīstamākajiem nosaukumiem publicēšanas jomā. Encyclopaedia Britannica un tās vārdnīcas nodaļa Merriam-Webster Manhetenas federālajā tiesā iesniedza prasību pret OpenAI, apsūdzot uzņēmumu par viņu uzziņu darbu izmantošanu, lai bez atļaujas apmācītu ChatGPT.

Sūdzībā, kas iesniegta piektdien, tiek apgalvots, ka OpenAI ir nokopējis lielus Britannica materiālu apjomus, tostarp enciklopēdijas rakstus un vārdnīcu ierakstus, lai apmācītu savus lielos valodu modeļus. Britannica saka, ka šī prakse ir ļāvusi ChatGPT ģenerēt atbildes, kas cieši atspoguļo tās atsauces saturu.

“Encyclopedia Britannica un tās Merriam-Webster meitasuzņēmums ir iesūdzējis OpenAI Manhetenas federālajā tiesā par to, ka tie, iespējams, ļaunprātīgi izmantojuši savus atsauces materiālus, lai apmācītu tās mākslīgā intelekta modeļus,” ziņo Reuters.

Lietas centrā ir apgalvojums, ka OpenAI AI sistēmu izstrādes laikā nokopēja gandrīz 100 000 Britannica rakstu.

Britannica apgalvo, ka rezultāti tagad parādās ChatGPT atbildēs, dažkārt atkārtojot tās materiālu gandrīz vārds vārdā. Saskaņā ar iesniegumu šie AI izveidotie kopsavilkumi novirza lasītājus prom no pašas Britannica vietnēm un vājina uzņēmuma trafiku un ieņēmumus.

“OpenAI izmantoja savus tiešsaistes rakstus un enciklopēdijas un vārdnīcu ierakstus, lai iemācītu savam vadošajam tērzēšanas robotam ChatGPT reaģēt uz cilvēku pamudinājumiem un “kanibalizētu” Britannica tīmekļa trafiku ar mākslīgā intelekta veidotiem satura kopsavilkumiem,” teikts sūdzībā.

OpenAI atteicās pret apsūdzībām.

“Mūsu modeļi veicina inovāciju, un tie ir apmācīti, pamatojoties uz publiski pieejamiem datiem un ir balstīti uz godīgu izmantošanu,” pirmdien sacīja OpenAI pārstāvis, atbildot uz tiesas prāvu.

AI autortiesību cīņa pieaug, jo Britannica iesūdz OpenAI tiesā par ChatGPT apmācības datiem

Britannikas juristu komanda vēl nav publiski komentējusi tālāk par pašu iesniegšanu. Uzņēmuma pārstāvji un advokāti pirmdien uz komentāru pieprasījumiem neatbildēja.

Tiesvedība nonāk pa vidu pieaugošai juridiskai cīņai starp izdevējiem un mākslīgā intelekta izstrādātājiem. Autori, ziņu organizācijas un mediju uzņēmumi ir iesnieguši līdzīgas prasības visā ASV, apgalvojot, ka viņu ar autortiesībām aizsargātie darbi tika kopēti bez piekrišanas, lai apmācītu ģeneratīvas AI sistēmas.

OpenAI un citi AI uzņēmumi apgalvo, ka apmācības modeļi lielām datu kopām ir uzskatāmi par godīgu izmantošanu saskaņā ar ASV autortiesību likumu. Viņu arguments balstās uz domu, ka AI modeļi pārveido izejmateriālu statistikas modeļos, nevis reproducē oriģinālos darbus.

Britannica apstrīd šo interpretāciju. Sūdzībā apgalvots, ka ChatGPT var izveidot “gandrīz burtiski” fragmentus, kas līdzinās tās enciklopēdijas ierakstiem un vārdnīcas definīcijām. Britannica saka, ka šie rezultāti samazina lasītāju stimulu apmeklēt tās platformas.

Prasība rada arī preču zīmju problēmas. Britannica apsūdz OpenAI apgalvojumā, ka tai ir atļauja izmantot tā materiālu, un Britannica citēšanā AI atbildēs, kurās ir kļūdas — gadījumus, ko uzņēmums raksturo kā viltus “halucinācijas”.

Britannica pieprasa tiesai atlīdzināt naudas zaudējumus un izpildrakstu, kas bloķē tās materiālu turpmāku izmantošanu OpenAI sistēmās.

Pieteikumā ir vēl viens pagrieziens. Britannicā jau ir uzsākta saistīta lieta pret AI startup Perplexity AI. Šī tiesas prāva, kas tika iesniegta pagājušajā gadā, izvirza līdzīgas prasības par AI rīkiem, kas apkopo atsauces materiālu un novirza lasītājus prom no sākotnējā avota.

OpenAI gadījumā šī lieta pievieno vēl vienu juridisku fronti nozares mēroga debatēm par AI apmācības datu robežām. Tiesām vēl ir jāatrisina galvenais jautājums: vai liela apjoma ar autortiesībām aizsargāta materiāla izmantošana ģeneratīvu modeļu apmācīšanai pārkāpj autortiesību likuma robežu.

Britannicai šis jautājums ir dziļāks nekā tiesību teorija. Uzņēmums gadsimtiem ilgi ir veidojis savu reputāciju kā uzticams uzziņu avots. Prasība liecina, ka tā pati zināšanu bāze, kas nodrošināja šo reputāciju, tagad var būt ģeneratīvā AI uzplaukuma pamatā.

Tiesas tagad izlems, kur atrodas robeža starp apmācību datiem un intelektuālo īpašumu. Rezultāts varētu ietekmēt to, kā turpmākās AI sistēmas mācās un kas saņem samaksu, kad tās mācās.

Juridiskā sadursme notiek, kad mediju uzņēmumi arvien vairāk atturas pret to satura izmantošanu AI apmācībā. 2024. gada jūnijā Izmeklēšanas ziņošanas centrs (CIR), valsts vecākā bezpeļņas ziņu telpa, federālajā tiesā iesniedza prasību pret OpenAI un tā galveno atbalstītāju Microsoft. Lieta pievienojās pieaugošajam prasību sarakstam, ko ierosinājuši lielākie izdevēji, tostarp The New York Times, Chicago Tribune un New York Daily News.