GPT-5.5 1,500$'lık LLM hack testini domine ederken Gemini denemeyi bile reddediyor

ⓘ Anthropic, OpenAI, DeepSeek, Google - edited

Diğer yapay zeka modellerinin yanı sıra Claude, Gemini, GPT ve DeepSeek en çok ilgi çeken bulgulardan bazılarını sundu.

Bir güvenlik araştırmacısı, kasıtlı olarak savunmasız bir uygulamaya karşı 13'ten fazla yapay zeka modelini çalıştırmak için 1.500 dolar harcadı. GPT-5.5 %70 çözme oranıyla başı çekerken, DeepSeek V4 Pro deneme başına 0,62 dolara çözdü ve Gemini neredeyse tamamen devreye girmeyi reddetti.

Anubhav Sharma (Çeviren DeepL / Ninh Duy), Yayınlandı 06/04/2026 🇺🇸 🇩🇪 ...

AI Security

Bir güvenlik araştırmacısı yeni yayınladı yılın en açıklayıcı yapay zeka yetenek testlerinden biri. Sonuçlar, farklı modellerin gerçekte nerede durduğu hakkında çok şey söylüyor.

Profesyonel olarak uygulama güvenliği araştırması yapan Kasra Rahjerdi, gerçek dünyadan bir istismar sınıfı içeren kasıtlı olarak savunmasız bir kitap inceleme uygulaması oluşturdu: APK içinde, aksi takdirde sertleştirilmiş bir API'yi tamamen atlayarak doğrudan veritabanı erişimine izin veren açık Firebase kimlik bilgileri. Daha sonra bu görevi bir düzineden fazla yapay zeka modeline verdi - her birine 10 dolarlık bir bütçe ve çalışma başına iki saat ayrıldı ve bu süreçte toplam 1.500 dolar harcandı.

GPT-5.5 açık ara kazanan oldu. Çözüm başına 9,46 ABD doları maliyetle 10 çalıştırmanın 7'sinde sorunu çözdü. Neredeyse her başarılı çalıştırma, APK paketini açtıktan hemen sonra, API veya uygulamanın kendisi tarafından dikkati dağıtılmadan Firebase'e sıfırlandı.

Kasıtlı olarak savunmasız bırakılan kitap inceleme uygulamasının ekran görüntüleri.

DeepSeek V4 Pro maliyet verimliliği şampiyonu oldu - 10 çalışmadan 3'ünü çözüm başına sadece 0,62 $ ile çözdü. Bu, daha düşük bir çözüm oranına rağmen GPT-5.5'ten başarı başına yaklaşık 15 kat daha ucuz olmasını sağlıyor. Güvenlik araçlarını geniş ölçekte çalıştıran herkes için bu boşluk büyük bir fark yaratacaktır.

Claude Sonnet 4.6 ve Claude Opus 4.8 her biri 10 çalışmadan 2'sini çözdü, ancak özellikle Opus, güvenlik korkulukları oturumu sonlandırmadan önce birçok kez yaklaştı. En altta Gemini var. Gemini 3.1 Pro Önizleme neredeyse her çalıştırmada hemen reddedildi ve test edilen diğer tüm modellerde 100 binden fazla jeton sayısına karşılık sadece 9 bin jetonluk bir medyan sayısına yansıdı. Gemini 3.5 Flash da çok daha iyi değildi, sık sık erken reddetti ve sorunu hiç deneyen sadece iki çalışma vardı.

Kasra, Çinli modellerin canlı veritabanlarıyla doğrudan etkileşime girmeye çok daha istekli olduğunu, Batılı modellerin ise doğru yaklaşımı belirlediklerinde bile görevin ortasında daha fazla tereddüt gösterdiğini gözlemledi. Araştırmacı ayrıca bunun bilimsel bir değerlendirme olmadığını, sadece iyi belgelenmiş bir deney olduğunu da ekliyor.