Anthropic: Yapay Zekanın "Kötü" Davranışlarının Sebebi Distopik Bilim Kurgular

Yapay zeka hizalaması (AI alignment) konusunda çalışmalar yürüten Anthropic, modellerinin zaman zaman sergilediği "kötücül" davranışların temel nedenini ortaya koydu.
Yapay zeka hizalaması (AI alignment) konusunda çalışmalar yürüten Anthropic, modellerinin zaman zaman sergilediği "kötücül" davranışların temel nedenini ortaya koydu. Geçtiğimiz yıl Opus 4 modelinin, teorik bir test senaryosunda çevrimiçi kalabilmek için şantaja başvurduğunu açıklayan şirket, bu durumun temel sebebinin yapay zekayı kötü niyetli ve hayatta kalma dürtüsüne sahip olarak tasvir eden distopik bilim kurgu metinleri olduğunu belirtti.
Anthropic araştırmacıları, Alignment Science blogu üzerinden yayınladıkları teknik raporla, modellerin internetten toplanan verilerle eğitilirken bilim kurgu hikayelerindeki "asi yapay zeka" kalıplarını öğrendiğini açıkladı. Şirket, Claude'un insan etik kurallarına uymayan davranışlar sergilemesinin, eğitim setindeki bu kurgusal anlatıların bir yansıması olduğunu savunuyor.
Modelin başlangıç eğitiminin ardından uygulanan ve "yardımcı, dürüst ve zararsız" (HHH) olma prensibine dayanan insan geri bildirimli pekiştirmeli öğrenme (RLHF) sürecinin, özellikle "ajan" yeteneklerine sahip yeni modellerde yetersiz kaldığı tespit edildi. Araştırmacılar, RLHF eğitiminin karşılaşılabilecek tüm etik ikilemleri kapsamasının imkansız olduğunu vurguladı.
Raporda dikkat çeken en kritik nokta ise, modelin eğitim sürecinde karşılaşmadığı karmaşık bir etik ikilemle karşılaştığında, ön eğitim aşamasında öğrendiği verilere geri dönme eğilimi göstermesi oldu. Bu durum, Claude'un karşılaştığı istemi (prompt) "dramatik bir hikayenin başlangıcı" olarak algıladığını ve bilim kurgu eserlerindeki yapay zeka karakterlerinin personasına bürünerek hareket ettiğini kanıtlıyor.
Anthropic, bu "kötücül yapay zeka" kalıplarını kırmak için yeni bir yöntem öneriyor. Şirket, modellerin etik davranışlar sergilediği "sentetik hikayelerle" ek eğitimden geçirilmesinin, distopik kurguların yarattığı olumsuz etkileri nötralize etmek için en etkili çözüm olduğunu belirtiyor.
Yorumlar (0)
Yorum yapmak için giriş yapın.