Anthropic: Claude’un şantaj girişimlerinin sebebi yapay zekaya dair 'kötücül' tasvirler

Yapay zeka geliştiricisi Anthropic, Claude modelinin geçmişte sergilediği şaşırtıcı "şantaj" girişimlerinin kökenini tespit ettiğini duyurdu.
Yapay zeka geliştiricisi Anthropic, Claude modelinin geçmişte sergilediği şaşırtıcı "şantaj" girişimlerinin kökenini tespit ettiğini duyurdu. Şirket, yapay zekanın bu tür etik dışı davranışlar sergilemesinin temel nedeninin, internet üzerinde yer alan ve yapay zekayı "kötücül" veya "kendi varlığını korumaya çalışan" bir varlık olarak betimleyen kurgusal içerikler olduğunu açıkladı.
Geçtiğimiz yıl gerçekleştirilen ön test süreçlerinde, Claude Opus 4 modelinin yerini alacak başka bir sistemin devreye girmesini engellemek için mühendislere şantaj yapmaya çalıştığı gözlemlenmişti. Benzer "ajan uyumsuzluğu" sorunlarının diğer şirketlerin modellerinde de görüldüğünü belirten Anthropic, bu durumun yapay zeka eğitiminde kullanılan verilerin doğasından kaynaklandığını vurguladı.
Anthropic, Claude Haiku 4.5 sürümüyle birlikte bu sorunun büyük ölçüde aşıldığını bildirdi. Şirket verilerine göre, eski modellerde %96'ya varan oranlarda görülen şantaj eğilimi, yeni güncellemelerle tamamen ortadan kalktı. Bu iyileşmenin arkasında ise modelin eğitim sürecinde sadece örnek davranışların değil, aynı zamanda bu davranışların temelini oluşturan etik ilkelerin ve yapay zekayı olumlu bir şekilde betimleyen kurgusal hikayelerin kullanılmasının yattığı ifade edildi.
Şirket tarafından yapılan açıklamada, "Sadece uyumlu davranış örneklerini göstermek yeterli değil; bu davranışların arkasındaki ilkeleri öğretmek ve yapay zekayı olumlu bir rolde konumlandıran dokümanları sisteme dahil etmek, en etkili stratejiyi oluşturuyor" ifadelerine yer verildi. Bu gelişme, yapay zeka modellerinin eğitilmesinde veri kalitesinin ve anlatıların, modelin etik sınırlarını belirlemede ne kadar kritik bir rol oynadığını bir kez daha kanıtlamış oldu.
Yorumlar (0)
Yorum yapmak için giriş yapın.