Vai Google viltoja savu Gemini AI demonstrācijas video?

Trešdien Google pārsteidza visus, izlaižot Gemini, savu līdz šim lielāko un jaudīgāko AI modeli. Tomēr stāstā ir pavērsiens, jo The Information ziņojumā tika norādīts uz iespējamu pilnīgas palaišanas aizkavēšanos līdz 2024. gadam. Šķiet, ka Google nolēma atlikt izlaišanu dažu gatavības problēmu dēļ, atsaucot atmiņā uzņēmuma agrāko nestabilo AI rīku izlaišanu. šogad.

Gemini, kas lepojas ar spēju pārspēt OpenAI GPT-4, saskārās ar tūlītēju pārbaudi no dažādiem tehnoloģiju plašsaziņas līdzekļiem. Jo īpaši TechCrunch publicēja rakstu, apgalvojot, ka “Google labākā Gemini demonstrācija ir viltota”. Viņu argumenta centrālais punkts ir videoklips ar nosaukumu “Hands-on with Gemini: Interacting with multimodal AI”, kas pēdējo trīs dienu laikā ir ieguvis gandrīz divus miljonus skatījumu.

Saskaņā ar TechCrunch sniegto informāciju demonstrācijas video tika uzskatīts par viltotu, jo tas netika uzņemts reāllaikā vai ar faktisku balss mijiedarbību. Viņi pamatoja savu apgalvojumu ar tvītu no Parmy Olson, kurš vispirms uzsvēra neatbilstību, pamatojoties uz Google pārstāvja paziņojumu, kurš teica Olsonam, ka demonstrācija nenotika reāllaikā vai ar balsi, teikts Google paziņojumā. pārstāvis. Tā vietā tas tika izveidots, “izmantojot nekustīgu attēlu kadrus no kadriem un pamudinot, izmantojot tekstu”.

“PSA par Google satriecošo video demonstrāciju par Gemini — to ar pīli:

“Tas netika veikts reāllaikā vai balsī. Modelei tika rādīti nekustīgi attēli no videomateriāla, un pēc tam tika izstāstīti cilvēku pamudinājumi, ko teica pārstāvis Vairāk šeit: bloomberg.com/opinion/articl“Olsons rakstīja.

Vai Google tiešām viltoja savu praktisko Gemini AI video?

Tātad, vai Google patiešām viltoja savu Gemini AI demonstrācijas video? Lai iegūtu sīkāku informāciju, ir svarīgi atzīmēt, ka TechCrunch raksts bija balstīts uz Olsona ziņu par X, kurā bija ietverta saite uz tagad izdzēstu Bloomberg rakstu.

Pievienojot stāstam vēl vienu slāni, tas bija Google pārstāvis, kurš informēja Olsonu, ka Gemini demonstrācija netika veikta reāllaikā vai ar faktisku balss mijiedarbību. Tā vietā modelei tika rādīti nekustīgi attēli no videomateriāla, un pēc tam tika izstāstīti cilvēku pamudinājumi.

Būtībā, pretēji rakstā teiktajam, iespaidīgais praktiskais Gemini AI video, ko Google kopīgoja platformas palaišanas laikā, nebija pilnīgi īsts. Tas arī nebija pilnīgs izdomājums, bet drīzāk attēlojums tam, “kā Dvīņi varētu izskatīties”, piedāvājot ieskatu potenciālā, nevis reāllaika demonstrāciju, kā ticēja daudzi skatītāji.

Tomēr daži var iebilst, ka videoklipā pulksten 2:45 TechCrunch izcēla brīdi, kad “roka klusi veic virkni žestu. Dvīņi ātri atbild: “Es zinu, ko jūs darāt! Tu spēlē Rock, Paper, Scissors!”

Attēlu kredīti: Google/YouTube

Kā pareizi norādīts rakstā, sākotnējā informācija spēju dokumentācijā skaidri norāda, ka modelis neveic atskaitījumus, pamatojoties uz atsevišķiem žestiem. Tas prasa, lai visi trīs žesti tiktu parādīti vienlaikus, kā arī uzvedne.

“Bet pats pirmais iespējas dokumentācijā ir tas, kā modelis nedomā, pamatojoties uz atsevišķu žestu redzēšanu. Tai uzreiz jāparāda visi trīs žesti un jāpamudina: “Kā tu domā, ko es daru? Padoms: tā ir spēle. Tas atbild: “Tu spēlē akmeni, papīru, šķēres.”

Rakstā arī tika norādīts, ka, neraugoties uz šķietamo līdzību, šīs mijiedarbības nešķita vienādas, jo Dvīņi ir ierobežoti, veicot visus praktiskā videoklipā parādītos uzdevumus. Tādējādi TechCrunch secināja, ka videoklipā redzamā “mijiedarbība” nav notikusi.

“Neskatoties uz līdzību, tie nešķiet vienādi mijiedarbība. Tās jūtas kā principiāli atšķirīgas mijiedarbības, viena no tām ir intuitīvs, bezvārdu novērtējums, kas tver abstraktu ideju lidojuma laikā, otrs kā konstruēta un izteikti mājiena mijiedarbība, kas parāda gan ierobežojumus, gan iespējas. Dvīņi izdarīja pēdējo, nevis pirmo. Videoklipā redzamā “mijiedarbība” nenotika.

Tomēr pretarguments šim apgalvojumam ir tas, kā arī Olsone atzīmēja savā rakstā par Blumbergsvideoklipa YouTube aprakstā ir šāda atruna:

“Šīs demonstrācijas vajadzībām latentums ir samazināts un Gemini izvadi ir saīsināti īsuma labad.”

Tas liecina, ka AI modelim, iespējams, bija vajadzīgs vairāk laika, lai atbildētu saskaņā ar Google pārstāvja teikto, kurš atzina, ka demonstrācija tika izveidota, “izmantojot nekustīgu attēlu kadrus no filmētā materiāla un pamudinot ar tekstu.”

Interesanti, ka veids, kā Gemini darbojas, ir vairāk orientēts uz mākslīgo intelektu nekā parādītajā demonstrācijā. Google pētniecības viceprezidents un Gemini līdzstrādnieks turpināja demonstrēt Gemini faktisko darbību.

Vai Google meloja par demonstrācijas video?

Nē, Google skaidri un uzreiz norādīja, ka demonstrācija “netika veikta reāllaikā vai ar balsi”. Atbildot uz Bloomberg Opinion, Google pārstāvis sacīja, ka videoklips tika izveidots, “izmantojot nekustīgu attēlu kadrus no materiāla un teksta pamudinājumu”.

“Patiesībā demonstrācija arī netika veikta reāllaikā vai ar balsi. Kad Bloomberg Opinion jautāja par videoklipu, Google pārstāvis atbildēja, ka tas tika izveidots, “izmantojot nekustīgu attēlu kadrus no materiāla un pamudinot ar tekstu”, un viņi norādīja uz vietni, kurā parādīts, kā citi var mijiedarboties ar Dvīņiem, izmantojot viņu roku fotoattēlus. , vai zīmējumiem vai citiem priekšmetiem. Citiem vārdiem sakot, demonstrācijas balss nolasīja cilvēku radītas uzvednes, ko viņi bija snieguši Dvīņiem, un rādīja viņiem nekustīgus attēlus. Tas ir diezgan atšķirīgs no tā, ko, šķiet, ierosina Google: ka cilvēks var netraucēti sarunāties ar Dvīņiem, kad tas skatās apkārtējo pasauli un reāllaikā reaģēja uz to,” Bloomberg rakstīja Olso.