Vairākas desmitgades vietnes sazinājās ar tīmekļa rāpuļprogrammām, izmantojot vienkāršu failu robots.txt. Šis fails darbojas kā vārtsargs, norādot, kurš saturs ir godīga spēle un kurš ir aizliegts. Tomēr tas lielākoties ir pieklājības, nevis izpildāms noteikums. Eksperti atzīmē, ka fails robots.txt nenodrošina reālu izpildes mehānismu, tas darbojas tikai kā pieklājīgs pieprasījums. Lielākie spēlētāji, piemēram, Google, ievēro šo standartu, pateicoties sabiedrības kontrolei. Tomēr mazāki, speciāli izgatavoti skrāpji bieži to pilnībā ignorē. Izstrādātājiem, kas veido vienkāršus skrāpjus, ir vieglāk un mazāk strādāt, lai apietu failu, nevis veiktu koda pārbaudes, lai to ievērotu.
Šis izpildes trūkums ir veicinājis jaunu problēmu: trešo pušu skrāpjus. Kad izdevēji nepārprotami mēģina bloķēt AI uzņēmumus, viņi vienkārši izveido tirgu trešo pušu pakalpojumiem, kas lepojas ar satura zagšanu, bieži apejot maksas sienas. Tas ļauj lieliem AI modeļiem atbildēt uz “tiešraides” ziņu vaicājumiem, izmantojot informāciju, kas faktiski iegūta no publikācijām, kuras nekad nav saņēmušas piekrišanu. Šī prakse kļūst arvien izplatītāka, kā rezultātā pieaug sarunas starp lielākajiem laikrakstu izdevējiem par pieaugošajiem draudiem.
Jaunais autortiesību karš: izdevēji cīnās ar mākslīgā intelekta tīmekļa skrāpjiem, izmantojot tentus un kodu
Nodeva, ko pastāvīga, neatļauta AI nokasīšana no izdevējiem rada, ir gan ievērojama, gan izmērāma. Daudziem rezultāts ir milzīgs tiešās tīmekļa trafika samazinājums. Galu galā AI modeļi sintezē saturu un samazina vajadzību lietotājiem noklikšķināt uz avotu. Turklāt izdevēji saskaras ar augošām darbības izmaksām.
Piemēram, Wikipedia ziņoja par joslas platuma patēriņa pieaugumu par 50% īsā laika periodā. Wikimedia Foundation to tieši attiecināja uz automatizētām programmām, kas izkopj savu plašo atklāti licencēto attēlu katalogu. Šis sasprindzinājums liek tehniskajām komandām iesaistīties pastāvīgā cīņā, lai pārvaldītu milzīgo skrāpju satiksmes pieplūdumu.
Atbildot uz to, nozare redz koordinētus centienus izveidot jaunus noteikumus. Interneta inženierijas darba grupa (IETF) ir izveidojusi AI preferenču darba grupu (AIPREF). Šīs grupas mērķis ir izveidot kopīgu vārdu krājumu, lai izdevēji skaidri norādītu savas preferences attiecībā uz satura izmantošanu mākslīgā intelekta apmācībā. Galīgais mērķis ir pārveidot robots.txt mīksto “lūdzu nedariet” par tehnisku stingru līniju “tas ir aizliegts”.
Jauni ieroči pretkasīšanas arsenālā
Tā kā skaidra regulējuma joprojām nav, daži izdevēji izmanto aktīvus pretpasākumus:
AI Tarpits: šī kiberdrošības taktika notver MI rāpuļprogrammas, nosūtot tos statisku failu “bezgalīgā labirintā” bez izejas saitēm. Rāpuļprogrammas iestrēgst un tērē savus resursus, mēģinot orientēties bezgalīgajā lokā. Daži izstrādātāji pat izmanto veiksmīgus brezentus, lai “saindētu” iesprostotos mākslīgā intelekta skrāpjus, ievadot tiem muļķības vai “nevārdīgus datus”, kas paredzēti AI modeļu sabojāšanai.
Darba apliecinājums: Citi aizsardzības līdzekļi, piemēram, Anubis izaicinājums, darbojas kā apgrieztā CAPTCHA. Tā vietā, lai pārbaudītu, vai apmeklētājs ir cilvēks, viņi piespiež apmeklētāja iekārtu izpildīt kriptogrāfisku darba pierādījumu izaicinājumu. AI uzņēmumiem, kas pārvalda lielas robotu fermas, šiem aprēķiniem ir nepieciešama ievērojama apstrādes jauda, padarot vietnes skenēšanas izmaksas pārmērīgi dārgas.
Cloudflare pievienojas cīņai
Veicot vērienīgu virzību nozarē, Cloudflare, nozīmīgs interneta infrastruktūras nodrošinātājs, nesen mainīja savu politiku, kas tagad pēc noklusējuma automātiski bloķē AI robotus. Iepriekš uzņēmums piedāvāja izvēles “atteikšanās” modeli. Šo lēmumu atbalstīja vairāk nekā ducis lielāko plašsaziņas līdzekļu izdevēju. Sarakstā ir The Associated Press, The Atlantic un Condé Nast. Cloudflare piedāvā arī agresīvāku rīku, ko sauc par AI Labyrinth, kas atklāj sliktu robotu uzvedību un ievilina nevēlamus rāpuļprogrammas AI ģenerētu mānekļu lapu slazdā, lai izšķērdētu savus resursus.