GPT-5.5 1,500$'lık LLM hack testini domine ederken Gemini denemeyi bile reddediyor

Bir güvenlik araştırmacısı yeni yayınladı yılın en açıklayıcı yapay zeka yetenek testlerinden biri. Sonuçlar, farklı modellerin gerçekte nerede durduğu hakkında çok şey söylüyor.
Profesyonel olarak uygulama güvenliği araştırması yapan Kasra Rahjerdi, gerçek dünyadan bir istismar sınıfı içeren kasıtlı olarak savunmasız bir kitap inceleme uygulaması oluşturdu: APK içinde, aksi takdirde sertleştirilmiş bir API'yi tamamen atlayarak doğrudan veritabanı erişimine izin veren açık Firebase kimlik bilgileri. Daha sonra bu görevi bir düzineden fazla yapay zeka modeline verdi - her birine 10 dolarlık bir bütçe ve çalışma başına iki saat ayrıldı ve bu süreçte toplam 1.500 dolar harcandı.
GPT-5.5 açık ara kazanan oldu. Çözüm başına 9,46 ABD doları maliyetle 10 çalıştırmanın 7'sinde sorunu çözdü. Neredeyse her başarılı çalıştırma, APK paketini açtıktan hemen sonra, API veya uygulamanın kendisi tarafından dikkati dağıtılmadan Firebase'e sıfırlandı.
DeepSeek V4 Pro maliyet verimliliği şampiyonu oldu - 10 çalışmadan 3'ünü çözüm başına sadece 0,62 $ ile çözdü. Bu, daha düşük bir çözüm oranına rağmen GPT-5.5'ten başarı başına yaklaşık 15 kat daha ucuz olmasını sağlıyor. Güvenlik araçlarını geniş ölçekte çalıştıran herkes için bu boşluk büyük bir fark yaratacaktır.
Claude Sonnet 4.6 ve Claude Opus 4.8 her biri 10 çalışmadan 2'sini çözdü, ancak özellikle Opus, güvenlik korkulukları oturumu sonlandırmadan önce birçok kez yaklaştı. En altta Gemini var. Gemini 3.1 Pro Önizleme neredeyse her çalıştırmada hemen reddedildi ve test edilen diğer tüm modellerde 100 binden fazla jeton sayısına karşılık sadece 9 bin jetonluk bir medyan sayısına yansıdı. Gemini 3.5 Flash da çok daha iyi değildi, sık sık erken reddetti ve sorunu hiç deneyen sadece iki çalışma vardı.
Kasra, Çinli modellerin canlı veritabanlarıyla doğrudan etkileşime girmeye çok daha istekli olduğunu, Batılı modellerin ise doğru yaklaşımı belirlediklerinde bile görevin ortasında daha fazla tereddüt gösterdiğini gözlemledi. Araştırmacı ayrıca bunun bilimsel bir değerlendirme olmadığını, sadece iyi belgelenmiş bir deney olduğunu da ekliyor.
Top 10
» Top 10 Multimedia Notebook listesi
» Top 10 oyun notebooku
» Top 10 bütçeye uygun Ofis/İş Notebook Listesi
» Top 10 Premium Ofis/İş notebookları
» Top 10 Çalışma istasyonu laptopları
» Top 10 Subnotebook listesi
» Top 10 Ultrabooklar
» En iyi 10 dönüştürülebilir modeli
» Seçimi en iyi 10 tablet
» Notebookcheck Top 10 Windows Tabletleri
» Top 10 Subnotebook listesi
» NotebookCheck tarafından incelenen en iyi Notebook ekranları
» Notebookcheck'in 500 Euro altındaki en iyi 10 Notebook listesi
» NotebookCheck tarafından seçilen 300 Euro altındaki en iyi 10 Notebook
» Notebookcheck'in 500 Euro altındaki en iyi 10 Notebook listesi
» Notebookcheck'in Top 10 akıllı telefon listesi
» Notebookcheck'in Top 10 hafif oyun notebookları







