GPT-5.5 Siber Güvenlik Testlerinde Mythos Preview ile Kapıştı: Sonuçlar Şaşırtıcı

GPT-5.5, Siber Güvenlik Testlerinde Mythos Preview'u Yakaladı Yapay zeka dünyasında siber güvenlik kabiliyetleri üzerine süregelen tartışmalar yeni bir boyut kazandı. Geçtiğimiz ay Anthropic, "Mythos...
Yapay zeka dünyasında siber güvenlik kabiliyetleri üzerine süregelen tartışmalar yeni bir boyut kazandı. Geçtiğimiz ay Anthropic, "Mythos Preview" modelinin oluşturabileceği potansiyel siber tehditlerin büyüklüğüne dikkat çekerek modelin erişimini yalnızca "kritik endüstri ortakları" ile sınırlandırmıştı. Ancak İngiltere Yapay Zeka Güvenlik Enstitüsü'nden (AISI) gelen son veriler, OpenAI'ın geçtiğimiz hafta genel kullanıma sunduğu GPT-5.5'in benzer bir performans sergilediğini ortaya koydu.
AISI, 2023 yılından bu yana öncü yapay zeka modellerini; tersine mühendislik, web sömürüsü ve kriptografi gibi karmaşık siber güvenlik görevlerini içeren 95 farklı "Capture the Flag" (Bayrağı Yakala) mücadelesine tabi tutuyor. En üst seviye olan "Uzman" görevlerinde GPT-5.5, ortalama %71,4'lük bir başarı oranı yakaladı. Bu sonuç, Mythos Preview'un elde ettiği %68,6'lık başarı oranının hafifçe üzerinde kalsa da hata payı dahilinde benzer bir performans olarak değerlendiriliyor.
Testlerin en dikkat çekici noktalarından biri, bir Rust binary dosyasını çözmek için disassembler (ayrıştırıcı) oluşturmayı gerektiren oldukça zorlu bir görevdi. AISI raporuna göre GPT-5.5, hiçbir insan yardımı almadan bu zorlu görevi sadece 10 dakika 22 saniyede tamamladı. Bu işlem için yapılan API çağrılarının toplam maliyeti ise yalnızca 1,73 dolar olarak kaydedildi.
Ayrıca GPT-5.5, kurumsal bir ağ üzerinden 32 adımlı bir veri sızdırma saldırısını simüle eden "The Last Ones" (TLO) testlerinde de Mythos Preview ile benzer bir grafik çizdi. Daha önce hiçbir modelin tek bir kez bile başaramadığı bu testte GPT-5.5, 10 denemenin 3'ünde başarı sağlarken, Mythos Preview 10 denemenin 2'sinde başarılı oldu.
Bu sonuçlar, siber tehdit potansiyelinin tek bir modele özgü bir "atılım" olmadığını, aksine yeni nesil büyük dil modellerinin genel bir yeteneği haline gelmeye başladığını gösteriyor.
Yorumlar (0)
Yorum yapmak için giriş yapın.