Mēs esam izsmēluši pieejamos datus AI apmācībai, saka Īlons Masks

Nav pagājis pārāk ilgs laiks, kopš mākslīgais intelekts pārņēma tehnoloģiju nozari. ChatGPT izraisīja revolūciju, kas tikai dažu gadu laikā ir nesusi milzīgu progresu. Šajā laikā uz AI orientēti uzņēmumi ir izmantojuši publiski pieejamus datus, lai apmācītu savus modeļus. Tomēr daži prominenti darbinieki šajā jomā, piemēram, Elons Masks, uzskata, ka nozare ir izsmēlusi visus pieejamos datus AI apmācībai.

Elons Masks un citi eksperti saka, ka nozare ir izsmēlusi AI apmācības datus

Sarežģītu AI modeļu apmācībai ir nepieciešams milzīgs datu apjoms. Daudzi varētu domāt, ka uzņēmumiem būtu nepieciešams ilgs laiks, lai izmantotu visus pasaulē pieejamos datus. Tomēr eksperti apgalvo, ka brīdis ir tuvu. Iļja Sutskevers, bijušais OpenAI galvenais zinātnieks, decembrī piedalījās uz mašīnmācību vērstajā NeurIPS konferencē. Pasākuma laikā Sutskevers norādīja, ka AI industrija jau ir sasniegusi t.s.pīķa dati”.

Tas nozīmē, ka, pēc zinātnieka domām, mēs praktiski esam sasnieguši maksimumu attiecībā uz datu izmantošanu AI apmācīšanai. Ir palicis ļoti maz neizmantotu datu, kas liks mainīt paradigmas maiņu AI modeļu izstrādē. Saskaņā ar to tiešraides sarunā ar Stagwell priekšsēdētāju Marku Pennu Elons Masks sacīja, ka “mēs tagad esam izsmēluši būtībā kumulatīvo cilvēku zināšanu summu … AI apmācībā”.

Muskam pieder xAI, X nodaļa (FKA Twitter), kas koncentrējas uz AI attīstību. Grok, ar AI darbināms tērzēšanas robots un attēlu ģenerators, kas iebūvēts X, ir uzņēmuma populārākais produkts. Musks apgalvo, ka, pamatojoties uz viņa pieredzi AI jomā, nozare sasniedzapīķa dati” pieminēja Sutskever”būtībā pagājušajā gadā”.

Sintētisko datu izmantošana varētu būt risinājums, taču ar niansēm

Tas nozīmē, ka ir veids, kā iegūt jaunus datus AI apmācībai. Jau kādu laiku daži lielie AI uzņēmumi ir izmantojuši sintētiskos datus, lai apmācītu savus modeļus. Sintētiskie dati pamatā ir dati, ko ģenerē citi AI modeļi. “Vienīgais veids, kā papildināt (reālās pasaules datus), ir ar sintētiskiem datiem, kur AI rada (apmācības dati) Masks teica. “Ar sintētiskiem datiem… (AI) pati sevi novērtēs un iziet cauri šim pašmācības procesam,” viņš piebilda.

Pētniecības un konsultāciju uzņēmums Gartner lēš, ka līdz 2024. gadam 60% datu, kas tika izmantoti AI izstrādei, bija sintētiski. Sarakstā ir tādi projekti kā Microsoft Phi-4, Google Gemma, Sonnet Claude 3.5 un pat Meta’s Llama.

Tomēr izstrādātājiem vajadzētu būt uzmanīgiem, izmantojot šāda veida datus lielā mērogā. Sintētisko datu pārmērīga izvietošana var palielināt neobjektivitāti, kas samazina modeļa radošumu. Tas var ietekmēt AI platformas izvades kvalitāti. No otras puses, izmantojot sintētiskos datus, tiek panākts milzīgs izmaksu ietaupījums.