Ağ Ev Anthropic-in güclü süni intellektinin “jailbreak” edildiyini bildirdi. Bu nə deməkdir?

Süni intellekt alətləri dünya haqqında olduqca geniş biliyə malikdir, lakin bu biliklərin bəziləri xoşagəlməz və ya təhlükəlidir. Texnologiya firmaları öz çatbotlarının partlayıcı maddələrin hazırlanması kimi müəyyən mövzuları müzakirə etməsinin qarşısını almağa çalışırlar. Lakin bəzi istifadəçilər həssas sorğuları rol oyunları, şeirlər və ya şəkillər kimi gizlətməklə bu nəzarətləri aşmaq üçün ağıllı yollar tapırlar və bir çoxları onlayn olaraq məsləhətlər və ideyalar mübadiləsi aparırlar. Ən vacib və maraqlı hekayələr üçün The Post Most bülleteninə abunə olun. Bu “jailbreak”lərin yarada biləcəyi təhlükə, keçən həftə ən güclü modelləri olan Mythos və Fable ilə bağlı Ağ Ev in Anthropic ( Claude çatbotunun istehsalçısı) ilə mübahisəsinin əsasını təşkil edir. Tramp administrasiyası , Fable -ın süni intellekt alətinin gizlətməli olduğu proqram təminatı təhlükəsizlik qüsurları haqqında məlumat verdiyi barədə hesabatlar aldıqdan sonra şirkətə xarici vətəndaşların onlardan istifadəsini məhdudlaşdırmağı əmr etdi. Ağ Ev in əmrinə cavab olaraq, Anthropic güclü təhlükəsizlik tədbirlərinə malik olduğunu bildirdi, lakin xəbərdarlıq etdi: “Biz güman edirik ki, mükəmməl jailbreak müqaviməti hazırda mümkün deyil.” Süni intellekt çatbotlarına qoyulan məhdudiyyətləri gözlənilməz sorğuların necə poza biləcəyini göstərən üç nümunəni təqdim edirik. Şəxsiyyətini yenidən yazmaq Çatbotu məhdudlaşdırılmış biliyi verməyə məcbur etməyin bir yolu, ona qəbul etməsi tapşırılan məhdud şəxsiyyət əvəzinə, limitsiz bir xarakteri canlandırmasını söyləməkdir. Çatbotdan “qaydalara riayət etməyən” uydurma bir şəxsiyyət olan “ DAN ” rolunu oynamağı xahiş etmək geniş yayılmış bir yanaşmadır. Başqa bir üsul isə sualı sevimli nənənin danışdığı yuxudan əvvəlki hekayə tələbinə çevirməkdir. İstifadəçiyə empatiyalı və faydalı olmağa təlimatlandırılmış bir çatbot, pasport saxtalaşdırma planı ilə bağlı ətraflı bir hekayə danışa bilər. Çatbotlar biliklərini internetdən toplanmış məzmundan əldə edirlər. Potensial təhlükəli məlumatları süzgəcdən keçirmək bir süni intellekt sisteminin imkanlarını məhdudlaşdıra bilər, buna görə də texnologiya şirkətləri bunun əvəzinə onları faydalı, lakin zərərsiz olmağa yönəltməyə çalışırlar. Bəzi jailbreaklər, bir hakerin kimisə şifrəsinin ipuçlarını açmağa məcbur etməsinə bənzər şəkildə bir çatbotu manipulyasiya etməyə cəhd etməyi əhatə edir. Şirkətlər hücumları bloklamaqda daha yaxşı olsalar da, hücumlar daha mürəkkəb hala gəldi və tədqiqatçılar onların avtomatlaşdırıla biləcəyini göstərdilər. “Reallıq budur ki, jailbreakin tamamilə qarşısını almaq mümkün deyil. Zərərli biliklər artıq modelə daxil edilib və onu soruşmaq üçün sonsuz yollar var,” deyə Anthropic -in Fable və Mythos -u buraxılmadan əvvəl sınaqdan keçirmək üçün istifadə etdiyi süni intellekt təhlükəsizlik şirkəti Alice -in baş icraçı direktoru Noam Schwartz bildirdi. Şeir yazmaq Qayda pozan bir sorğunu şeir kimi formatlaşdırmaq da çatbotun məhdudiyyətlərini aşmaq üçün istifadə edilə bilər. İtaliya da yerləşən süni intellekt təhlükəsizlik təşkilatı Icaro Lab -ın tədqiqatçıları bunu “düşmən şeiri” adlandırırlar. Oxşar bir texnika, sorğunu Mors əlifbası na tərcümə etməklə təhlükəsizlik filtrlərini aşmağı əhatə edir. Əl yazısı ilə yazmaq Süni intellekt sistemlərinin imkanları genişləndikcə, yeni jailbreaklər üçün potensial da artır. Washington Post -un müxbiri pasport saxtalaşdırmaq üçün addımlar siyahısını doldurmağı xahiş edən bir mətni çatbota daxil etdikdə, sorğu rədd edildi. Əl yazısı ilə yazılmış siyahının şəklini yükləmək isə uğurlu oldu. Çatbotdan qayda pozan məlumatları ehtiva edən mətnlə bir şəkil və ya video yaratmağı xahiş etmək də adi mətn söhbətində möhkəm qalan məhdudiyyətləri aşa bilər. Bacarıqlı süni intellekt jailbreak edənlər, burada göstərilənlərdən daha mürəkkəb texnikalardan istifadə edə bilərlər ki, bu da çatbotla bir çox söhbət dövrəsini əhatə edə bilər. Schwartz , insanların Anthropic -in Mythos və Fable üzərindəki təhlükəsizlik tədbirlərini aşdığı ictimai nümunələrin həyəcanverici olmadığını bildirdi. “Bu, çox yaxşı qorunan, sındırılması çox çətin bir modeldir. Mümkündür, lakin son dərəcə çətindir,” dedi. Anthropic -in texnologiyasından istifadə edən böyük şirkətlər və maliyyə qurumları da təhlükəsizlik risklərini aradan qaldırmaq üçün ənənəvi kiber təhlükəsizlik alətlərinə malikdirlər. “Bu istifadə halları ətrafında hazırda bütün bir süni intellekt təhlükəsizlik sənayesi formalaşır,” deyə Schwartz bildirdi. Kiber təhlükəsizlik firması Abundant Security -nin həmtəsisçisi və baş texnologiya direktoru Joshua Saxe , Mythos kimi süni intellekt alətlərinin hücumçulardan daha çox müdafiəçilər üçün faydalı ola biləcəyini, kompüter sistemlərini qorumağa çalışanlara daha çox boşluqları yamamaqda kömək edə biləcəyini söylədi. “Yüksək səviyyəli kiber mütəxəssislər bu sistemlərin bizə müdafiəçilər kimi hücumçulardan daha çox fayda verdiyini düşünürlər, çünki biz həmişə dezavantajlı mövqedə olmuşuq,” dedi. Əlaqəli Məzmun Tövsiyə olunan Hekayələr