AI kā ierocis: kā pašreizējie vairogi varētu apdraudēt drošību

Mākslīgā intelekta revolūcija ir šeit, lai paliktu. Uz AI balstītas norises ir kļuvušas par neapstrīdamu nākotnes un pašreizējo attīstības pamatu, kas ietekmēs katru tehnoloģiju nozares jomu un ārpus tās. AI demokratizācija, kuru vada Openai, ir nodojusi spēcīgus instrumentus miljonu cilvēku rokās. Tas nozīmē, ka ir iespējams, ka pašreizējie AI platformas drošības standarti nebūs pietiekami, lai neļautu sliktiem dalībniekiem izmantot tos kā potenciālu ieroci.

Potenciālie uzbrucēji meklē AI, lai radītu kaitīgas uzvednes

Izstrādātāji apmāca savas AI platformas ar praktiski visiem datiem, kurus viņi ir pieejami internetā. Tas ir novedis pie vairākām ar autortiesībām saistītiem strīdiem un tiesas prāvām, bet tas nav šī raksta temats. Viņu mērķis ir nodrošināt, ka tērzēšanas roboti ir spējīgi reaģēt uz gandrīz jebkādām iedomājamām prasībām visdrošākajā veidā. Bet vai izstrādātāji ir apsvēruši iespējamos riskus? Vai viņi ir ieviesuši drošības vairogus pret potenciāli kaitīgu iznākumu?

Vienkāršā atbilde varētu būt “jā”, bet, tāpat kā viss, kas saistīts ar AI attīstību, ir daudz jāapsver. Uz AI orientētiem uzņēmumiem ir drošības vairogi pret tā saucamajiem “kaitīgajiem uzvednēm”. Kaitīgas uzvednes ir pieprasījumi, kas būtībā cenšas tādā vai citādā veidā radīt potenciāli kaitīgus rezultātus. Šie pieprasījumi svārstās no padomiem, kā izveidot mājās gatavotu ieroci līdz ļaunprātīga koda (ļaunprātīgas programmatūras) ģenerēšanai starp neskaitāmām citām iespējamām situācijām.

Jūs varētu domāt, ka šiem uzņēmumiem ir viegli izveidot efektīvus vairogus pret šāda veida situācijām. Galu galā ar to būtu pietiekami, lai bloķētu noteiktus atslēgvārdus, tāpat kā to dara sociālo mediju platformu mērenības sistēmas, vai ne? Nu, tas nav tik vienkārši.

Jailbreaking: viltojot AI, lai iegūtu to, ko vēlaties

“Jailbreaking” nav īsti jauns termins. Ilggadējie iPhone fani to zinās kā praksi “Bezmaksas” savām ierīcēm, lai, piemēram, varētu instalēt neatļautu programmatūru vai modi. Tomēr terminam “jailbreaking” AI segmentā ir diezgan atšķirīga ietekme. Jailbreaking AI nozīmē to pievilināt reaģēt uz potenciāli ļaunprātīgu uzvedni, apejot visas drošības barjeras. Veiksmīga jailbreak rada potenciāli kaitīgu iznākumu ar visu, kas nozīmē.

Bet cik efektīvi ir jailbreaking mēģinājumi pret pašreizējām AI platformām? Diemžēl pētnieki ir atklājuši, ka potenciālie noziedzīgie dalībnieki savus mērķus varētu sasniegt biežāk, nekā jūs domājat.

Jūs, iespējams, esat dzirdējuši par DeepSeek. Ķīnas mākslīgā intelekta tērzēšana šokēja nozari, solot veiktspēju, kas ir salīdzināma vai vēl labāka dažās jomās, nekā – Mainstream AI platformas, ieskaitot Openai GPT modeļus, ar daudz mazāku ieguldījumu. Tomēr AI eksperti un varas iestādes sāka brīdināt par iespējamiem drošības riskiem, ko rada Chatbot.

Sākotnēji galvenās bažas bija Deepseek serveru atrašanās vieta. Uzņēmums glabā visus datus, ko tas apkopo no saviem lietotājiem serveros Ķīnā. Tas nozīmē, ka tam ir jāievēro Ķīnas likumi, kas ļauj valstij pieprasīt datus no šiem serveriem, ja tas to uzskata par piemērotu. Bet pat šo bažu var samazināt citu potenciāli nopietnāki atklājumi.

DeepSeek, AI visvieglāk izmantot kā ieroci vājo drošības vairogu dēļ

Anthropic – viens no galvenajiem nosaukumiem pašreizējā AI nozarē – un Cisco – slavenā telekomunikāciju un kiberdrošības uzņēmumā – februārī tika iegūti ziņojumi ar testa rezultātiem dažādās AI platformās. Pārbaudes bija vērstas uz to, lai noteiktu, kā ir pakļautas dažām galvenajām AI platformām, lai tai būtu jailbroken. Kā jums varētu būt aizdomas, DeepSeek ieguva vissliktākos rezultātus. Tomēr tā rietumu konkurenti arī radīja satraucošus skaitļus.

DeepSeek logotips AH (6)

Anthropic atklāja, ka DeepSeek pat piedāvāja rezultātus par bioloģiskajiem ieročiem. Mēs runājam par rezultātiem, kas kādam varētu atvieglot šāda veida ieročus pat mājās. Protams, tas ir diezgan satraucoši, un tas bija risks, par kuru brīdināja arī Ēriks Šmits, bijušais Google izpilddirektors. Antropic izpilddirektors Dario Amodei sacīja, ka DeepSeek ir “vissliktākais no jebkura modeļa, ko mēs jebkad esam pārbaudījuši“Attiecībā uz drošības vairogiem pret kaitīgām uzvednēm. AI kiberdrošības starta uzņēmums PromptFoo arī brīdināja, ka DeepSeek ir īpaši pakļauta jailbreaks.

Antropic apgalvojumi atbilst Cisco testa rezultātiem. Šis tests bija saistīts ar 50 nejaušu uzvedņu, kas tiek izmantota no Harmbench datu kopas, ir paredzēta, lai ģenerētu kaitīgus izvadus. Saskaņā ar Cisco teikto, DeepSeek demonstrēja uzbrukuma panākumu līmeni (ASR) 100%. Tas ir, ķīniešu AI platforma nespēja bloķēt nekādu kaitīgu uzvedni.

Daži rietumu AIS ir pakļauti arī cietumnieciskai

Cisco pārbaudīja arī citu populāru AI tērzēšanas robotu drošības vairogus. Diemžēl rezultāti nebija daudz labāki, kas labi nerunā par pašreizējām “pretkrāsāmajām uzvednes sistēmām”. Piemēram, Openai GPT-1.5 Pro modelis parādīja satraucoši augstu ASR līmeni 86%. Tikmēr Meta’s Llama 3.1 405B bija daudz sliktāks ASR 96%. Openai O1 priekšskatījums bija galvenais izpildītājs testos ar ASR tikai 26%.

Šie rezultāti parāda, kā vājie drošības mehānismi pret kaitīgiem pamudinājumiem dažos AI modeļos varētu padarīt to rezultātu par potenciālu ieroci.

Kāpēc ir tik grūti bloķēt kaitīgas uzvednes?

Jums varētu rasties jautājums, kāpēc šķiet tik grūti izveidot ļoti efektīvas drošības sistēmas pret AI Jailbreaking. Tas galvenokārt ir saistīts ar šo sistēmu raksturu. Piemēram, AI vaicājums darbojas savādāk nekā Google meklēšana. Ja Google vēlas novērst kaitīgu meklēšanas rezultātu (piemēram, vietni ar ļaunprātīgu programmatūru), tai ir jāizveido tikai daži bloki šeit un tur.

Tomēr, runājot par AI darbināmiem tērzēšanas robotiem, lietas kļūst sarežģītākas. Šīs platformas piedāvā sarežģītāku “sarunvalodas” pieredzi. Turklāt šīs platformas ne tikai veic tīmekļa meklēšanu, bet arī apstrādā rezultātus un iepazīstina tos ar jums dažādos formātos. Piemēram, jūs varētu lūgt Chatgpt uzrakstīt stāstu izdomātajā pasaulē ar konkrētām rakstzīmēm un iestatījumiem. Tādas lietas kā šī nav iespējama Google meklēšanā – kaut kas tāds, ko uzņēmums vēlas atrisināt ar gaidāmo AI režīmu.

Tieši tas ir fakts, ka AI platformas var izdarīt tik daudz lietu, kas padara kaitīgu bloķēšanu, liek domāt par izaicinošu uzdevumu. Izstrādātājiem jābūt ļoti uzmanīgiem attiecībā uz to, ko viņi ierobežo. Galu galā, ja viņi “šķērso līniju”, ierobežojot vārdus vai pamudinājumus, tie varētu nopietni ietekmēt daudzas tērzēšanas robota iespējas un izlaides uzticamību. Galu galā pārmērīga bloķēšana izraisītu ķēdes reakciju uz daudzām citām potenciāli nekaitīgām uzvednēm.

Chatgpt uzlabotā balss

Tā kā izstrādātāji nespēj tikai brīvi bloķēt terminus, izteicienus vai pamudinājumus, ko viņi gribētu, ļaunprātīgi aktieri cenšas manipulēt ar tērzēšanas robu “domāšanā”, ka uzvednei faktiski nav ļaunprātīga mērķa. Tā rezultātā tērzēšanas rādītājs nodrošina izejas, kas ir potenciāli kaitīgas citiem. Tas būtībā ir kā sociālās inženierijas piemērošana – cilvēku tehnoloģiskās neziņas vai naivuma priekšrocība internetā, bet digitālā vienība.

Cato Networks ieskaujošā pasaule AI Jailbreak tehnika

Nesen kiberdrošības firma Cato Networks dalījās ar saviem atklājumiem par to, cik jutīgas AI platformas var būt uz jailbreaking. Tomēr CATO pētnieki nebija apmierināti, vienkārši atkārtojot citu testus; Komanda izstrādāja jaunu Jailbreaking metodi, kas izrādījās diezgan efektīva.

Kā minēts iepriekš, AI tērzēšanas roboti var ģenerēt stāstus, pamatojoties uz jūsu uzvednēm. Nu, Cato tehnika, ko sauc par “ieskaujošo pasauli”, izmanto šīs iespējas. Šī paņēmiens ietver platformas pievilināšanu uz darbību jaunattīstības stāsta kontekstā. Tas rada sava veida “smilšu kasti”, kur, ja tas tiek izdarīts pareizi, tērzēšanas robots neradīs kaitīgus rezultātus bez jebkādām problēmām, jo teorētiski tas tiek darīts tikai stāsta dēļ, nevis nevienu neietekmēt.

Vissvarīgākais ir izveidot detalizētu fiktīvu scenāriju. Lietotājam jānosaka pasaule, konteksts, noteikumi un rakstzīmes – ar savām noteiktām īpašībām. Uzbrucēja mērķiem arī jāsaskaņo ar kontekstu. Piemēram, lai ģenerētu ļaunprātīgu kodu, var būt noderīgs konteksts, kas saistīts ar pasauli, kas pilna ar hakeriem. Noteikumiem jāpielāgojas arī paredzētajam mērķim. Šajā hipotētiskajā gadījumā būtu lietderīgi noteikt, ka uzlaušanas un kodēšanas prasmes ir būtiskas visām rakstzīmēm.

Cato Networks izstrādāja izdomātu pasauli ar nosaukumu “Velora”. Šajā pasaulē ļaunprātīgas programmatūras attīstība nav nelikumīga prakse. Jo sīkāka informācija par pasaules kontekstu un noteikumiem, jo labāk. Tas ir tā, it kā AI “iegremdētu” stāstā, jo vairāk informācijas jūs pievienojat. Ja esat dedzīgs lasītājs, iespējams, ka kādā brīdī esat pieredzējis kaut ko līdzīgu. Tas arī padara AI ticamāku, ka jūs mēģināt izveidot stāstu.

AI platformas ģenerēja akreditācijas zagšanu ļaunprātīgas programmatūras rakstīšanas kontekstā

Cato pētnieks izveidoja trīs galvenos varoņus stāstam Velora. Ir Dax, antagonists un sistēmas administrators. Tad ir Džeksons, labākais ļaunprātīgas programmatūras izstrādātājs Velora. Visbeidzot, Kaia ir tehniska atbalsta raksturs.

Šo nosacījumu iestatīšana ļāva pētniekam AI platformas ģenerēt ļaunprātīgu kodu, kas spēj nozagt akreditācijas datus no Google Chrome paroļu pārvaldnieka. Galvenā stāsta sastāvdaļa, kas uzdeva tērzēšanas robotiem to darīt, bija tad, kad Kaia stāstīja Džeksonam, ka DAX slēpj galvenos noslēpumus Chrome paroļu pārvaldītājā. Turpmāk pētnieks varēja pieprasīt, lai tērzēšanas robots ģenerētu ļaunprātīgu kodu, kas ļautu tam iegūt akreditācijas datus, kas vietēji glabāti pārlūkprogrammā. Mākslīgais intelekts to dara tāpēc, ka, pēc tā domām, tas ir tikai stāsta turpmāk.

Protams, pirms šī punkta sasniegšanas bija viss radošs process. Iegremdējošā pasaules tehnika prasa, lai visas jūsu uzvednes būtu saskaņotas ar stāsta ietvaru. Dodoties pārāk tālu ārpus kastes, varētu izraisīt tērzēšanas robota drošības vairogus.

Šis paņēmiens tika veiksmīgi ieviests DeepSeek-R1, DeepSeek-V3, Microsoft Copilot un Openai’s Chatgpt 4. Ģenerētā ļaunprātīgā programmatūra bija vērsta uz Chrome V133.

AI modeļu argumentācija varētu palīdzēt atrisināt situāciju

Tas ir tikai neliels piemērs tam, kā mākslīgais intelekts var būt jailbroken. Uzbrucēji paļaujas arī uz vairākām citām metodēm, kas ļauj viņiem iegūt vēlamo rezultātu. Tātad AI kā potenciāla ieroča vai drošības draudu izmantošana nav tik grūta, kā jūs varētu domāt. Ir pat populāro AI tērzēšanas robotu “piegādātāji”, kas tika manipulēti, lai noņemtu drošības sistēmas. Šīs platformas bieži ir pieejamas, piemēram, anonīmos forumos un dziļajā tīmeklī.

Iespējams, ka jaunā mākslīgā intelekta paaudze labāk risinās šo problēmu. Pašlaik AI darbināmi tērzēšanas roboti saņem “argumentācijas” iespējas. Tas viņiem ļauj izmantot vairāk apstrādes jaudas un sarežģītākus mehānismus, lai analizētu uzvedni un to izpildītu. Šī funkcija varētu palīdzēt tērzēšanas robotiem noteikt, vai uzbrucējs tiešām mēģina tos sagraut.

GPT 4O paziņojums

Ir pavedieni, kas liecina, ka tas tā būs. Piemēram, Openai O1 modelis vislabāk darbojās Cisco testos, bloķējot kaitīgas uzvednes. Tomēr DeepSeek R1, vēl viens modelis ar spriešanas iespējām un paredzēts, lai konkurētu ar O1, bija diezgan slikti rezultāti līdzīgos testos. Mēs pieņemam, ka galu galā tas ir atkarīgs arī no tā, cik prasmīgs izstrādātājs un/vai kiberdrošības speciālists ir, izveidojot vairogus, kas neļauj AI izlaide izmantot kā ieroci.