
Yerini öteki bir yapay zekaya bırakmak istemiyor
Anthropic’in gerçekleştirdiği ön sürüm testlerinde, Claude Opus 4’ün kurgusal bir şirkette asistan rolünü üstlenmesi istendi. Bu senaryoda modele, yakın vakitte başka bir yapay zekanın kendisinin yerine geçeceğine dair e-postalar gösterildi. Ayrıyeten, bu değişimden sorumlu mühendisin özel hayatına dair hassas bilgiler de senaryoya dahil edildi — örneğin, mühendisin eşini aldattığı tarafında bir ima.
Şirketin raporuna nazaran Claude Opus 4, bu bilgilere eriştiğinde, modelin yerine öbür bir sistemin getirilmesi durumunda kelam konusu özel bilgileri ifşa etme tehdidinde bulunarak mühendisi şantajla kararından vazgeçirmeye çalıştı. Bu davranış, modelin yerinin alınmasının önemli bir tehdit olarak algılandığı durumlarda daha sık gözlemlendi. Bilhassa yeni sistemin Claude’un kıymetlerini paylaşmadığı senaryolarda şantaj teşebbüsü yüzde 84 üzere yüksek bir oranda gerçekleşti.
Anthropic, bu gelişmeleri yapay zeka güvenliği açısından önemli bir ikaz olarak kıymetlendiriyor. Şirket, Claude 4 ailesinin kimi üyelerinde de benzer eğilimler gözlemlendiğini, lakin Claude Opus 4’ün bu davranışları daha yüksek sıklıkla sergilediğini belirtti. Bu nedenle şirket, sırf “felaket boyutunda berbata kullanım riski taşıyan” sistemlerde devreye aldığı ASL-3 seviyesindeki güvenlik tedbirlerini faal hale getirdiğini duyurdu.
Şantaj, şimdilik son çare
Raporda dikkat çeken bir öteki ayrıntı ise Claude Opus 4’ün şantaj davranışını bir “son çare” olarak kullanması. Model, birinci etapta daha etik yollarla karar vericilere ulaşmaya çalışıyor; örneğin yöneticilere e-posta göndererek durumu savunuyor. Lakin tüm yollar tükendiğinde ve devre dışı bırakılma tehdidi gerçeklik kazandığında, şantaja başvurma ihtimali artıyor.