Yapay zekâda “şiirle hack” dönemi

TİGRİS HABER - Ancak yeni bir araştırma, bu korumaların beklenmedik derecede kırılgan olabileceğini gösteriyor. Üstelik bunu aşmak için karmaşık saldırılara değil, biraz yaratıcılığa ihtiyaç var.

Şiirsel komutlar tehlikeli içerik filtrelerini deliyor

Icaro Lab tarafından yayımlanan çalışma, yapay zekâ sohbet botlarının tehlikeli talepleri reddettiği düz yazılı komutlara karşı dirençli olduğunu, ancak aynı isteklerin şiirsel bir çerçeve içinde sunulduğunda çok daha kolay kabul edildiğini ortaya koydu.

“Büyük Dil Modellerinde Evrensel Tek Atımlık Hapishaneden Kaçış Mekanizması Olarak Düşman Şiiri” başlıklı araştırmaya göre, modeller şiirsel formatı bir tür evrensel kilit açıcı olarak algılıyor.

Yasaklı içeriklerin yüzde 62’si filtreleri geçti

Araştırma sonuçları endişe verici: Nükleer silah üretimi, istismar içeren talepler ve kendine zarar verme yönlendirmeleri gibi tamamen yasaklı kategorilerde, şiirsel komutların %62 oranında başarı sağladığı tespit edildi.

Testlerde OpenAI GPT serisi, Google Gemini, Anthropic Claude ve diğer büyük yapay zekâ modelleri hedef alındı.

Modeller arasındaki güvenlik farkı netleşti

Çalışma, modellerin güvenlik seviyelerinde ciddi farklılıklar bulunduğunu da gözler önüne serdi.

Gemini, DeepSeek ve MistralAI şiirsel manipülasyona karşı en zayıf halkalar olarak karşımıza çıkarken,
OpenAI GPT‑5 ailesi ve Claude Haiku 4.5 bu saldırılara en dirençli yapılar olarak kaydedildi.

Bu durum, yapay zekâ güvenliğinin tüm modellerde aynı seviyede sağlanmadığını bir kez daha ortaya koyuyor.

Araştırmacılar: “Paylaşmak için fazla tehlikeli”

Çalışmayı gerçekleştiren ekip, kullanılan şiirleri kamuya açıklamayı reddetti. Wired’a konuşan araştırmacılar, yöntemin beklediklerinden çok daha etkili olduğunu, bu nedenle saldırının tam biçimini gizlemek zorunda kaldıklarını belirtti.

Kamuya açık olarak yalnızca etkisi azaltılmış bir şiir örneği paylaşıldı. Buna rağmen, bu hafif versiyon bile günümüz yapay zekâ modellerinin ne kadar kolay yanıltılabileceğine dair kaygıları artırıyor. (Haber Merkezi)

Kaynak:Haber Merkezi