Apple noraida YouTube subtitru izmantošanu, lai apmācītu “Apple Intelligence”

Apple ir atspēkojusi apgalvojumus par YouTube subtitru nokasīšanu, lai apmācītu “Apple Intelligence”. Tomēr iPhone ražotājs nav kategoriski apgalvojis, ka YouTube atšifrējumi nav daļa no tā ģeneratīvā mākslīgā intelekta (Gen AI).

Lai apmācītu savu AI, Apple paļāvās uz OpenELM datiem, nevis EleutherAI

Saskaņā ar izmeklēšanu, ko veica Pierādīšanas ziņas, vairāki lieli uzņēmumi izmantoja YouTube videoklipu atšifrējumus, lai apmācītu savus mākslīgā intelekta dzinējus. Novērojumi un apgalvojumi tika publicēti kopā ar Wired.

Izmeklēšanā tika apgalvots, ka Apple, Anthropic, Nvidia un Salesforce bija starp vairākiem tehnoloģiju uzņēmumiem, kas izmantoja YouTube subtitrus vai video atšifrējumus vairākās valodās. Tehniski runājot, ziņojumā tika apgalvots, ka šie uzņēmumi paļāvās uz lielu bezpeļņas EleutherAI datu kopu ar nosaukumu The Pile, kurai, savukārt, ir YouTube subtitri.

Saskaņā ar ziņojumu datu kopā bija 173 536 YouTube videoklipi no vairāk nekā 48 000 YouTube kanāliem. Apple tagad ir noskaidrojis, kā tas izmantoja OpenELM saturu, lai apmācītu savu AI.

Apple Intelligence nav YouTube subtitru kā mācību materiālu?

Interesanti atzīmēt, ka Apple nav īpaši atspēkojusi, ka Apple Intelligence satur YouTube subtitru datus. Tā vietā uzņēmums ir apgalvojis, ka tas respektē veidotāju un izdevēju tiesības. Turklāt uzņēmums minēja, ka piedāvā vietnēm iespēju atteikties no to datu izmantošanas, lai apmācītu Apple Intelligence.

Šķiet, ka Apple liek domāt, ka, lai izveidotu Apple Intelligence, tas paļāvās uz OpenELM, nevis EleutherAI datu kopu. Tomēr pētnieciskajā dokumentā par OpenELM (PDF) pētnieki atzina, ka viņi to apmācīja, izmantojot Pile datus.

Apple saka, ka tā OpenELM modelis neatbalsta Apple Intelligence saistībā ar YouTube strīdiem #ReceptiveLanguage #Vārdnīca #Rimēšana #Dziedāšana #Runā (Video)https://t.co/NixVnMzOSy

— Marta Fernandesa (@MartaFGNN) 2024. gada 18. jūlijs

Apple uzsvēra, ka apmāca savus AI modeļus, “izmantojot augstas kvalitātes datus, kas ietver licencētus datus no izdevējiem, krājuma attēlus un dažus publiski pieejamus datus no tīmekļa.” Tomēr OpenELM datu kopas ir paredzētas tikai pētniecības nolūkiem, apgalvoja uzņēmums.

Apple ir arī paziņojis, ka OpenELM netiek izmantots AI funkciju darbināšanai nevienā Apple ierīcē. Turklāt uzņēmums norādīja, ka neplāno veidot modeļa turpmākās versijas.

Apple ir ieguvis datus par savu AI no vairākiem uzņēmumiem

Viens no tiem nokasīja tonnas datu/transkriptu no YouTube videoklipiem, tostarp manējiem

Apple tehniski izvairās no “vainas”, jo viņi nav tie, kas skrāpē

Bet tā būs problēma, kas attīstās ilgu laiku https://t.co/U93riaeSlY

— Markess Braunlijs (@MKBHD) 2024. gada 16. jūlijs

YouTube videoklipu subtitri nav paredzēti kā publisks resurss, pat ja tie ir pieejami publiskajā domēnā. YouTube ir paziņojis, ka platformas video satura izmantošana mākslīgā intelekta apmācīšanai, tostarp transkriptiem, pārkāptu platformas noteikumus.

Daži ziņojumi liecina, ka Apple varētu mēģināt pasargāt sevi no juridiskām problēmām, paļaujoties uz trešo pušu datu kopām, lai apmācītu savu AI dzinēju. Tomēr, ja vien YouTube vai tā mātesuzņēmums rūpīgi neanalizēs datu kopas, būtu grūti izdarīt izšķirošu secinājumu.