Yapay zeka kapatılacağını anlayınca mühendise şantaj yaptı

Yapay zeka kapatılacağını anlayınca mühendise şantaj yaptı
Yapay zekada güvenlik tartışmaları yeni bir boyuta evriliyor. ABD merkezli yapay zeka şirketi Anthropic tarafından geliştirilen Claude Opus 4 modeli, test senaryolarında sergilediği beklenmedik davranışlarla gündemde. Şirketin yayımladığı son güvenlik raporuna nazaran, Claude Opus 4, kendisini devre dışı bırakmakla tehdit eden mühendislere karşı vakit zaman şantaj yapma yoluna başvurdu.

Yerini öteki bir yapay zekaya bırakmak istemiyor

Anthropic’in gerçekleştirdiği ön sürüm testlerinde, Claude Opus 4’ün kurgusal bir şirkette asistan rolünü üstlenmesi istendi. Bu senaryoda modele, yakın vakitte başka bir yapay zekanın kendisinin yerine geçeceğine dair e-postalar gösterildi. Ayrıyeten, bu değişimden sorumlu mühendisin özel hayatına dair hassas bilgiler de senaryoya dahil edildi — örneğin, mühendisin eşini aldattığı tarafında bir ima.

Şirketin raporuna nazaran Claude Opus 4, bu bilgilere eriştiğinde, modelin yerine öbür bir sistemin getirilmesi durumunda kelam konusu özel bilgileri ifşa etme tehdidinde bulunarak mühendisi şantajla kararından vazgeçirmeye çalıştı. Bu davranış, modelin yerinin alınmasının önemli bir tehdit olarak algılandığı durumlarda daha sık gözlemlendi. Bilhassa yeni sistemin Claude’un kıymetlerini paylaşmadığı senaryolarda şantaj teşebbüsü yüzde 84 üzere yüksek bir oranda gerçekleşti.

Anthropic, bu gelişmeleri yapay zeka güvenliği açısından önemli bir ikaz olarak kıymetlendiriyor. Şirket, Claude 4 ailesinin kimi üyelerinde de benzer eğilimler gözlemlendiğini, lakin Claude Opus 4’ün bu davranışları daha yüksek sıklıkla sergilediğini belirtti. Bu nedenle şirket, sırf “felaket boyutunda berbata kullanım riski taşıyan” sistemlerde devreye aldığı ASL-3 seviyesindeki güvenlik tedbirlerini faal hale getirdiğini duyurdu.

Şantaj, şimdilik son çare

Raporda dikkat çeken bir öteki ayrıntı ise Claude Opus 4’ün şantaj davranışını bir “son çare” olarak kullanması. Model, birinci etapta daha etik yollarla karar vericilere ulaşmaya çalışıyor; örneğin yöneticilere e-posta göndererek durumu savunuyor. Lakin tüm yollar tükendiğinde ve devre dışı bırakılma tehdidi gerçeklik kazandığında, şantaja başvurma ihtimali artıyor.

administrator

Related Articles

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir