Anthropic'in geçtiğimiz günlerde yayınladığı bir blog yazısı, sandbox teknolojilerine meraklı herkesin radarına girmeyi hak ediyor. Claude.ai, Claude Code ve Cowork ürünlerinde kullanılan güvenlik katmanlarını tek tek açıklayan bu dokümantasyon, yalnızca "nasıl yapıldığını" değil, "nerede hata yapıldığını" da gözler önüne seriyor. Yazının en değerli yanı, çoğu sandbox ürününün atladığı bir noktayı vurgulaması: güvenin nereye verildiğini şeffaflıkla ortaya koymak.

Üç farklı ürün, üç farklı sandbox stratejisi

Anthropic, her ürünü için farklı bir yaklaşım benimsemiş. Claude.ai'de gVisor kullanılırken, kullanıcının kendi makinesinde çalıştırdığı Claude Code'da macOS tarafında Seatbelt, Linux tarafında Bubblewrap devreye giriyor. Cowork ise çok daha ağır bir yöntemle, tam bir sanal makine (Apple'ın Virtualization Framework'ü veya Windows'ta HCS) üzerinde izole ediliyor.

- Claude.ai → gVisor (hafif, container düzeyinde izolasyon)
- Claude Code → Seatbelt (macOS) / Bubblewrap (Linux)
- Claude Cowork → Tam VM (macOS Virtualization Framework / Windows HCS)

Her katmanın hedefi aynı: ajanın erişim alanına sert bir sınır çizmek. Örneğin parolalar gibi hassas bilgiler sandbox'a hiç girmiyorsa, bunların sızdırılması imkânsızlaşıyor – sebebi ister kullanıcı hatası, ister modelin "yaratıcı" bir yol bulması, isterse bir saldırgan olsun.

Alıntı
“Kimlik bilgileri sandbox'a hiç girmezse, sızdırılmaları mümkün olmaz – ister kullanıcıdan, ister modelin 'yaratıcı' bir yol bulmasından, isterse bir saldırgandan kaynaklansın.”
Atlanan bir risk ve ders niteliğindeki açıklama

Yazının en çarpıcı kısımlarından biri, Anthropic'in api.anthropic.com/v1/files adresini kullanan bir sızdırma vektörünü nasıl gözden kaçırdığını itiraf etmesi. Bu olay daha önce başka bir yayında gündeme gelmişti, ama bu sefer resmî bir dökümanda "tamam, bunu atladık ve düzelttik" demeleri önemli. 'Tam izolasyon' diye bir şey olmadığını, her ne kadar katmanlı savunma (layered defense) kursanız da, bir yerden bir şeyin sızabileceğini kabul ediyorlar.

Ek olarak, Anthropic'in geliştirici ekibi, bu tür riskleri azaltmak için otomatik onay sistemleri ve çevre izolasyonu gibi ek desteklerden yararlandıklarını belirtiyor. Yani sadece sandbox yetmiyor; ajanın davranışını da sürekli izleyen bir mekanizma kuruyorlar. Ama yine de %100 etkinliğin ulaşılamaz olduğunu söylüyorlar.

Neden bu kadar detaylı dokümantasyon önemli?

Sandbox ürünlerinin en büyük sorunu, çoğu zaman yeterli dokümantasyona sahip olmamaları. Kullanıcıya "güven bize, çalışıyor" mesajı veriliyor, ama nasıl çalıştığı muamma. Oysa güven, ancak şeffaflıkla tesis edilebilir. Anthropic'in bu yazısı, hem akademik anlamda hem de pratik geliştiriciler için tam bir referans niteliği taşıyor.

Özellikle açık kaynaklı srt (Anthropic Sandbox Runtime) aracının olgunlaştığı göz önüne alındığında, dileyen herkes bu mekanizmaları kendi projelerinde test edebilir. Sahada neyin işe yaradığını, neyin yaramadığını öğrenmek için bundan daha iyi bir fırsat olamaz.

Kendi adıma, yapay zekâ modellerini gerçek dünyada kullanırken bu tür izolasyon katmanlarının ne kadar kritik olduğunu daha iyi anlıyorum. Bir modelin yanlışlıkla bir dosyayı sızdırması veya istenmeyen bir API çağrısı yapması, sandbox olmadan çok daha büyük sorunlara yol açabilir. Ama unutmamak gerek: ne kadar güvenlik katmanı eklerseniz ekleyin, zeki bir saldırgan (ya da yeterince serbest bırakılmış bir model) her zaman beklenmedik bir gedik bulabilir. Bu yüzden sürekli güncelleme ve şeffaflık, güvenliği sağlamanın olmazsa olmazı.

Peki siz kendi projelerinizde hangi sandbox yöntemlerini kullanıyorsunuz? Hiç bir modelin kaçış yolu bulduğuna şahit oldunuz mu?