Mīts nopludināts: Anthropic “pārāk bīstamais” AI nonāk Discord grupā dažas dienas pēc ierobežotas izlaišanas

Anthropic savu visjutīgāko AI sistēmu turēja aiz slēgtām durvīm, brīdinot, ka tā ir pārāk riskanta publiskai izlaišanai. Dažas dienas vēlāk tika ziņots, ka tas darbojās privātā Discord grupā.

Tas ir apgalvojums jaunā Bloomberg ziņojuma centrā, kurā teikts, ka nelielai pētnieku grupai, kas izseko neizlaistiem modeļiem, izdevās piekļūt Anthropic “Mythos” sistēmai gandrīz uzreiz pēc tās palaišanas. Modelis, uz kiberdrošību vērsts AI, kas tika izlaists saskaņā ar ierobežotu programmu Project Glasswing, bija paredzēts stingri kontrolētam partneru kopumam. Tā vietā tas, iespējams, ir nokļuvis daudz mazāk kontrolētā vidē.

Saskaņā ar ziņojumu grupa neielauzās ar dramatisku varoņdarbu. Viņi strādāja pie nosaukšanas principiem, kas atklāti nesenā pārkāpumā, kas saistīts ar Mercor, un apvienoja to ar piekļuvi, kas bija saistīta ar līgumslēdzēja kontu. No turienes viņi varēja atrast to, kas, šķiet, ir Anthropic iekšējās izvietošanas galapunkts, un sākt lietot sistēmu.

“Neliela grupa neautorizētu lietotāju ir piekļuvusi Anthropic PBC jaunajam Mythos AI modelim, tehnoloģijai, kas, pēc uzņēmuma domām, ir tik spēcīga, ka tā var nodrošināt bīstamus kiberuzbrukumus,” ziņo Blumbergs, atsaucoties uz personu, kas ir pazīstama ar šo lietu, un dokumentāciju, ko apskatījis ziņu izlaidums.

Rezultāts ir scenārijs, no kura AI laboratorijām kļūst arvien grūtāk izvairīties: pats modelis var būt uzlabots, taču vājākais punkts bieži ir slānis ap to.

Anthropic bija pozicionējis Mythos kā sistēmu, kuru nevarēja plaši izlaist bez riska. Tas tika ieviests 10. aprīlī, lai atlasītu partnerus, un uzņēmums, kā ziņots, bija noraizējies par to, kā to varētu izmantot, ja tas izplatīsies ārpus kontrolētas vides. Tomēr pirmo ziņoto par neatļautu lietošanu nenāca konkurējoša valdība vai sarežģīta kiberoperācija. Tas nāca no Discord grupas.

Kā Discord grupa piekļuva Anthropic visvairāk ierobežotajām AI dienām pēc palaišanas

Šīs grupas dalībnieki Bloomberg paziņoja, ka neizmanto sistēmu uzbrukumiem vai kaitīgām darbībām. Viņi saka, ka viņu uzmanības centrā ir pētniecība un izpēte, un viņi apgalvo, ka ir piekļuvuši arī citiem neizlaistiem modeļiem. Šie apgalvojumi nav neatkarīgi pārbaudīti, taču plašāka problēma pastāv: piekļuves kontrole izrādās trausla tieši tajā brīdī, kad tehnoloģija kļūst jutīgāka.

“Saujiņa lietotāju privātā tiešsaistes forumā ieguva piekļuvi Mythos tajā pašā dienā, kad Anthropic pirmo reizi paziņoja par plānu izlaist modeli ierobežotam uzņēmumu skaitam testēšanas nolūkos,” sacīja persona, kura lūdza netikt nosaukta, baidoties no represijām. Kopš tā laika grupa Mythos ir izmantojusi regulāri, lai gan ne kiberdrošības nolūkos,” sacīja persona, kas apstiprināja B modeli un kontu tiešraidē.

Atsevišķs ziņojums no The Wall Street Journal pievieno vēl vienu slāni. Žurnāls ziņo, ka Anthropic izmeklē iespējamu nesankcionētu piekļuvi, kas saistīta ar trešās puses darbuzņēmēju. Tas norāda uz pazīstamu riska modeli mūsdienu AI izvietošanā. Modelis nesēž tikai viena uzņēmuma sienās. Tas tiek atklāts, izmantojot partnerus, piegādātājus, API un iekšējos rīkus, kas aptver vairākas organizācijas.

Katrs slānis palielina virsmas laukumu.

Anthropic tas notiek saspringtā brīdī. Uzņēmums jau ir apspriedis ar ASV aizsardzības aģentūrām par to, kā tās sistēmas būtu jākontrolē un kam ir piekļuve. Iespējama iedarbība, kas saistīta ar kiberorientētu modeli, palielina likmes. Tas pārceļ sarunu no teorētiskas ļaunprātīgas izmantošanas uz operatīvo realitāti.

Ja šis incidents tiek pilnībā apstiprināts, tas izceļ plašāku patiesību, ar kuru šobrīd saskaras katra lielākā AI laboratorija. Jaudīgu modeļu veidošana ir tikai daļa no izaicinājuma. Tikpat svarīgi kļūst kontrolēt, kā tiem tiek piekļūts, izplatīts un uzraudzīts.

Pierobežas modeļa drošība vairs nav nākotnes problēma. Tas jau tiek pārbaudīts reāllaikā.