Premium izdevēju dati tika notīrīti vairāk, nekā mēs domājām

Galvenais AI tēma ir tas, kā AI uzņēmumi apkopo datus, lai apmācītu savus modeļus. Uzņēmumi, piemēram, The New York Times, iesūdz OpenAI un Microsoft par tā satura nokasīšanu, lai apmācītu ChatGPT. Lai gan šie uzņēmumi lielāko daļu datu iegūst no publiski pieejamiem avotiem, šķiet, ka tie apkopo datus no vairāk izcilu izdevēju, nekā mēs domājam.

AI uzņēmumi, kas izmanto maksas saturu, lai apmācītu savus modeļus, joprojām atrodas likumīgā pelēkajā zonā. Tiek apspriests, vai tas ir tehniski autortiesību pārkāpums. Ja attiecīgais tērzēšanas robots reproducē veselas maksas satura sadaļas, tas varētu būt iemesls tiesas prāvai. Tas ir viens no New York Times tiesas prāvas iemesliem. Tas ir arī iemesls, kāpēc AI uzņēmumi vēlas pārtraukt darījumus ar tik daudziem izdevējiem. Tas ir paredzēts, lai izvairītos no juridiskām problēmām, cita starpā. Vienīgā problēma ir tāda, ka šie AI uzņēmumi, visticamāk, skrāpēja datus, kas saistīti ar samaksu, ilgi pirms publikācijas par to uzzināja.

AI uzņēmumi no augstākās kvalitātes izdevējiem iegūst vairāk datu, nekā daudzi domā

Jauns ziņojums no Ziff Davis (izmantojot Axios) ir tikko atklājis, cik daudz augstākās kvalitātes satura AI uzņēmumi ir ieguvuši. Ziņojumam līdzautori Džordžs Vukosons un Džoijs Fortuna analizēja vairākus LLM un to apmācīšanai izmantoto saturu. Viņi atklāja, ka liela daļa datu, kas tika izmantoti, lai apmācītu dažus no lielākajiem modeļiem, tika iegūti no 15 augstākās kvalitātes publikācijām.

Viens no galvenajiem piemēriem bija GPT-2, ko apmācīja OpenAI. Pētnieki izmantoja OpenWebText datu kopas atvērtā pirmkoda kopiju, ko OpenAI izmantoja modeļa apmācīšanai. Viņi atklāja, ka aptuveni 10% informācijas šajā datu kopā nāk no augstākās kvalitātes vietnēm. Citas datu kopās, ko izmantoja vecāku modeļu apmācīšanai, arī izmantoja daudz datu no augstākās kvalitātes vietnēm.

Tas nozīmē, ka daži no vecākajiem LLM (iespējams, modeļi, kas nekad nedarbināja lietotājiem paredzētus tērzēšanas robotus) sastāvēja no ievērojama apjoma informācijas no augstākās kvalitātes vietnēm. Lai gan tas tā ir, ziņojumā konstatēts, ka dažas no šīm vecākajām datu kopām joprojām tiek izmantotas jaunāku modeļu apmācīšanai. Tas nozīmē, ka modeļos joprojām var tikt izmantoti materiāli ar maksas sienām.

Tātad, lai gan vairākas publikācijas ir noslēgušas darījumus ar AI uzņēmumiem, AI modeļi, kas darbina daudzus jaudīgākos tērzēšanas robotus tirgū, joprojām izmanto informāciju, kas iegūta no maksas satura.