Tiek ziņots, ka AI uzņēmumi apmācībās izmantoja YouTube video atšifrējumus

Ģeneratīvā mākslīgā intelekta (Gen AI) uzņēmumi nokasīja YouTube video atšifrējumus, lai apmācītu savus dzinējus, teikts jaunajā ziņojumā. Vairāki populāri YouTube lietotāji, piemēram, MrBeast un Marques Brownlee, ir izteikuši bažas, apgalvojot, ka viņu saturs ir daļa no masveida datu kopām.

Izmeklēšana atklāj subtitrus no vairāk nekā 170 000 YouTube videoklipu

Saskaņā ar an izmeklēšana autors Pierādīšanas ziņas, vairāki lieli uzņēmumi iztīrīja YouTube videoklipus, lai apmācītu savus AI dzinējus. Novērojumi un apgalvojumi tika publicēti kopā ar Wired.

Izmeklēšanā apgalvots, ka Apple, Anthropic, Nvidia un Salesforce bija starp vairākiem tehnoloģiju uzņēmumiem, kas izmantoja “YouTube subtitrus”. Konkrēti, šie uzņēmumi kopīgi izvilka subtitrus no 173 536 YouTube videoklipiem.

Kopumā šie uzņēmumi izmantoja vairāk nekā 48 000 YouTube kanālu, lai izveidotu AI datu kopas un apmācītu AI dzinējus, teikts ziņojumā. YouTube lietotāju, tostarp MrBeast (289 miljoni abonentu), MKBHD (19 miljoni abonentu), PewDiePie (111 miljoni abonentu) un citu lietotāju saturs ir iekļauts datu kopās.

Apple ir ieguvis datus par savu AI no vairākiem uzņēmumiem

Viens no tiem nokasīja tonnas datu/transkriptu no YouTube videoklipiem, tostarp manējiem

Apple tehniski izvairās no “vainas”, jo viņi nav tie, kas skrāpē

Bet tā būs problēma, kas attīstās ilgu laiku https://t.co/U93riaeSlY

— Markess Braunlijs (@MKBHD) 2024. gada 16. jūlijs

Neskaitot YouTube lietotājus, video no ziņu avotiem, piemēram ABC ziņas, BBCun The New York Times ir daļa no datu kopas. Vienkārši sakot, vairāki tehnoloģiju giganti pievienoja YouTube subtitrus saviem AI dzinējiem.

Rīks, lai apstiprinātu, ka AI uzņēmumi izmantoja tiešsaistē publicētos YouTube datus

Saskaņā ar The Verge, YouTube videoklipu subtitru datu kopa ir daļa no lielākas materiālu kolekcijas. Tehniski runājot, lielākā daļa uzņēmumu, kas izmanto YouTube datus, paļāvās uz bezpeļņas EleutherAI datu kopu ar nosaukumu The Pile. Paredzams, ka šī ir atvērtā pirmkoda kolekcija, kurā ir arī grāmatu datu kopas, Vikipēdijas raksti un publiskajā domēnā pieejams saturs.

Lai pierādītu, ka AI uzņēmumi izmanto YouTube, lai izveidotu datu kopas un apmācītu savus dzinējus, Pierādīšanas ziņas izlaida arī interaktīvu meklēšanas rīku. Jebkurš YouTube lietotājs vai pat plaša sabiedrība var pārbaudīt datus.

“Tā ir zādzība,” sacīja Deivs Viskuss, straumēšanas pakalpojuma Nebula izpilddirektors, kas daļēji pieder tā veidotājiem, no kuriem daži ir izmantojuši pakalpojumu YouTube, lai apmācītu AI.”https://t.co/X34e3LuODW

— Distributed AI Research Institute atrodas Mastodon (@DAIRInstitute) 2024. gada 16. jūlijs

Papildus acīmredzamajam jautājumam par YouTube lietotāju atlīdzināšanu vai kompensāciju par viņu saturu, šie uzņēmumi saskaras arī ar juridiskām problēmām. YouTube norāda, ka, izmantojot tā video saturu, lai apmācītu AI, tostarp atšifrējumus, tiktu pārkāpti platformas noteikumi.

Tiek ziņots, ka YouTube ir atturējies atbildēt uz ziņojumu. Tomēr ir diezgan iespējams, ka tā mātes uzņēmums Google veiks dažus pasākumus, lai aizsargātu video koplietošanas platformu un tās satura veidotājus.

Līdz šim datu kopās, šķiet, ir teksta dati. Citiem vārdiem sakot, AI uzņēmumi savu dzinēju apmācībai varētu izmantot tikai video atšifrējumus vai subtitrus, nevis video. Starp citu, vienkārša teksta datos ir ietverti arī tiešraides videoklipu tulkojumi japāņu, vācu un arābu valodā.

Google iepriekš ir atzinis, ka ir iztīrījis dažus YouTube videoklipus, lai apmācītu savus AI dzinējus. Tomēr meklēšanas gigants ir nodrošinājis, ka tam ir atbilstoši līgumi ar YouTube lietotājiem. Lieki piebilst, ka EleutherAI var nebūt šāda līguma ar katru no YouTube lietotājiem, kuru videoklipi tagad ir daļa no datu kopām, ko tehnoloģiju giganti izmanto, lai apmācītu savu AI.