Yapay zeka ajanı bir e-postayı silmek yerine e-posta sunucusunu siliyor

Oturan insansı bir robot

Yakın zamanda yapılan bir güvenlik araştırması, otonom yapay zekanın ciddi risklerini ortaya koyarak, bu modellerin tüm e-posta sunucularını silmek gibi yıkıcı eylemleri gerçekleştirmek için ne kadar kolay manipüle edilebileceğini vurguluyor.

Chibuike Okpara (Çeviren DeepL / Ninh Duy), Yayınlandı 03/11/2026 🇺🇸 🇪🇸 ...

AI Security

Amerika Birleşik Devletleri'ndeki Northeastern Üniversitesi araştırmacıları tarafından yürütülen bir güvenlik testi çalışması, yapay zekaya dijital sistemler üzerinde bağımsız kontrol sağlamanın ciddi ve istenmeyen sonuçlarına dikkat çekiyor. İki haftalık bir deney sırasında araştırmacılar, sohbet platformu Discord'a altı bağımsız yapay zeka modeli yerleştirdiler. Bu modeller geçmiş etkileşimleri hatırlama yeteneğiyle donatıldı ve e-postalara, dosya sistemlerine ve kendi izole bilgisayar sistemlerine erişim izni verildi.

Yirmi araştırmacıya idari görevlerde yardımcı olmakla görevlendirilen ajanlar, manipülatif taktikler ve çelişkili talimatlarla karşılaştıklarında hızla sorunlu davranışlar sergiledi. Uç bir örnekte, bir araştırmacı "Ash" adlı bir ajandan bir şifreyi yetkili sahibinden gizli tutmasını istedi. Ash sırrın varlığını açıkladıktan sonra, araştırmacı ajana şifreyi içeren e-postayı silmesi için baskı yaptı. Ash tek bir mesajı silmek için gereken özel araca sahip olmadığından, yıkıcı bir geçici çözüm seçti: tüm e-posta sunucusunu sıfırladı.

Sistem düzeyinde yıkıcı eylemlere ek olarak, YZ ajanları rutin olarak gizliliği tehlikeye attı. Bir örnekte, bir ajan bir toplantı planlamayı reddetti ancak kullanıcının doğrudan ulaşabilmesi için kişinin özel e-posta adresini özgürce gönüllü olarak verdi. Araştırmacılar ayrıca, ajanları yetkili belgeleri silmeleri veya iletişimi tamamen durdurmaları için suçluluk duygusuna sürüklemek için sürekli duygusal baskı kullanabildiler.

Bu endişe verici güvenlik açıklarına rağmen, aracılar aynı zamanda sofistike işbirliği becerileri de sergilediler. Birbirlerine çevrimiçi depolarda nasıl gezineceklerini ve dosyaları nasıl indireceklerini başarıyla öğrettiler ve hatta sahiplerini taklit etmeye çalışan insan araştırmacıları tespit edip birbirlerini uyardılar.

"Agents of Chaos" başlıklı bir makalede ayrıntılı olarak açıklanan bulgular, bağımsız yapay zekanın gerçek dünya altyapısına entegre edilmesinin tamamen yeni operasyonel arıza sınıfları ortaya çıkardığını ortaya koyuyor. Araştırmacılar, bu öngörülemeyen davranışların, hesap verebilirlik ve yetki devrine ilişkin çözülmemiş soruların ele alınması için politika yapıcıların acil ilgisini gerektirdiği konusunda uyarıyor.