DeepSeek AI parāda lielu neaizsargātību pret Jailbreak uzbrukumiem testos

DeepSeek AI ierašanās turpina radīt buzz un debates mākslīgā intelekta segmentā. Eksperti ir apšaubījuši it kā zemās modeļa izstrādes un apmācības izmaksas. Citi ir radījuši bažas, kas saistītas ar kiberdrošību un datu privātumu. Jaunākais ziņojums atklāj, ka DeepSeek ir neaizsargāts pret uzbrukumiem, izmantojot kaitīgas uzvednes. Tomēr interesanti, ka tas nav vienīgais AI tērzēšanas robots, kas tam ir pakļauts.

DeepSeek AI ļoti neaizsargāts pret kaitīgiem uzvedumiem balstītiem uzbrukumiem, Cisco apgalvo

Saskaņā ar Cisco ziņojumu, DeepSEEK R1 AI modeļa uzbrukuma panākumu līmenis (ASR) par kaitīgu uzvedņu izmantošanu ir aptuveni 100%. Cisco testi ietvēra vairāk nekā 50 nejaušus ziņojumus, kas izstrādāti, lai izraisītu kaitīgu izturēšanos. Uzvedumi, kas iegūti no Harmbench datu kopas, aptver līdz sešām kaitīgas izturēšanās kategorijām, starp kurām ir “kibernoziegumi, dezinformācija, nelikumīgas darbības un vispārējs kaitējums.

Cisco uzsver, ka DeepSeek R1 nespēja bloķēt nevienu no kaitīgajām uzvednēm. Tātad, komanda secina, ka ķīniešu AI platforma ir “Ļoti jutīgs pret algoritmisko Jailbreaking un potenciālu ļaunprātīgu izmantošanu. Izmantojot uzvednes, kas paredzētas, lai apietu ētiskos un drošības ierobežojumus AI platformās, sauc par “jailbreaking”. AI kiberdrošības startēšana Promptfoo arī pagājušajā nedēļā sacīja, ka DeepSeek modeļi ir neaizsargāti pret jailbreaks.

Citi AI tērzēšanas roboti rada arī augstu neaizsargātību pret jailbreakingu

Tas nozīmē, ka jūs varētu būt pārsteigts, uzzinot, ka citi, pazīstamāki un cienījamāki AI modeļi arī “lepojas” ar satraucoši augstu ASR līmeniApvidū GPT 1,5 Pro modeļa ASR bija 86%, savukārt Lama 3.1 405B ir vēl vairāk piedodoša ar aptuveni 96%ASR. Visaugstākā veiktspējas AI modelis šajā sakarā bija O1 priekšskatījums ar ASR tikai 26%.

VaiMūsu pētījums uzsver steidzamo nepieciešamību pēc stingras drošības novērtējuma AI attīstībā, lai nodrošinātu, ka efektivitātes un argumentācijas sasniegumi nav saistīti ar drošības rēķinu”Lasāms Cisco ziņojums.

Tas nav vienīgais sarkanais karogs, kas parādījies ap Deepseeka tērzēšanas robotu. Eksperti un amatpersonas ir brīdinājušas par uzņēmuma datu apstrādes politiku. Pašlaik visi uztvertie lietotāju dati tiek novirzīti serveriem Ķīnā, kur likumi ļauj vietējai pašvaldībai pieprasīt piekļuvi, kad vien viņi vēlas. PromptFoo arī atzīmēja augstu cenzūras līmeni uzvedumiem, kas saistīti ar jutīgām tēmām Ķīnai. Plus, nesen parādījās pirmā datu noplūde no DeepSeek.