Selamlar,
Bildiğiniz üzere son dönemde yapay zekâ alanındaki yoğun talep nedeniyle GPU sunuculara ciddi bir ilgi ve buna bağlı olarak yüksek fiyat artışı söz konusu.
Vast.ai isimli platform, kullanıcıların GPU kaynaklarını saatlik bazda kiralayabildiği bir marketplace modeli sunuyor. Ancak burada oluşan fiyatlar, çoğu zaman geleneksel hosting firmalarıyla neredeyse benzer seviyelerde seyrediyor.
Ben Azure üzerinden spot GPU olarak H100 / H200 serisi GPU’lara erişebiliyorum. Ancak bu sunucular oldukça yüksek performanslı ve normal şartlarda yüksek maliyetli sistemler.
Örneğin:
96 vCPU
1850 GB RAM
8 adet H200 141GB GPU
ND v5 H200 serisi sanal makine (VM), yapay zekâ ve yüksek performanslı bilgi işlem (HPC) iş yükleri için tasarlanmıştır. H200 GPU’lar, H100’e kıyasla yaklaşık %76 daha fazla yüksek bant genişlikli bellek (HBM) sunar. 141 GB yüksek hızlı bellek ve 4.8 TB/sn bellek bant genişliği sayesinde daha büyük veri kümeleri ve daha karmaşık modeller işlenebilir.
ND H200 v5 serisi:
  • 8 adet NVIDIA H200 Tensor Core GPU
  • 900 GB/sn NVLink bağlantı
  • VM başına 3.2 Tb/sn toplam bağlantı bant genişliği
  • GPU başına 400 Gb/sn NVIDIA Quantum-2 InfiniBand
  • GPUDirect RDMA desteği
TensorFlow, PyTorch, Caffe, RAPIDS gibi birçok framework için hazır GPU hızlandırması sunar. Ayrıca NCCL tabanlı ölçekleme ile çoklu GPU kümeleri sorunsuz çalıştırılabilir.
Bu ürünün Azure üzerindeki normal saatlik ücreti yaklaşık 127 USD, günlük maliyeti ise yaklaşık 3.000 USD civarında. (Rezervasyonsuz Fiyat) (5Yıl rezervasyona %60 indirim yani günlük fiyatlandırması 1200 USD)


Spot VM mantığına benzer çalışan bir yöntemim var. Bu yapı aslında daha çok test amaçlı kullanıma uygun; hatta “test sunucusu” olarak tanımlamak daha doğru olabilir.
bu şekilde spot gibi alındığında bana maliyet saatlik yaklaşık 10 USD’ye kadar düşebiliyor. Yani günlük ortalama 240 USD gibi çok düşük bir maliyetle çalıştırmak mümkün olabiliyor.(network ve disk ücretleri hariç)
bu durumda 5 yıl rezervasyon indiriminden bile daha ucuza AI için sunucu sahibi olabiliyorum.


Ancak bu ucuz maaliyetli sunucunun dezavantajı şu ki yoğun VM talebi oluştuğu dönemlerde Azure bu sunucuyu iptal edebiliyor. Bu durumda sistem kapanıyor ve yeniden kurulum yapmak gerekiyor. (bazen 12-16 saat, bazen günlerce çalışabiliyor.)


Sorum şu:
Bu tarz bir sistemi Vast.ai üzerinde kiralamak mantıklı olur mu?
Gerçekten bu seviyede bir donanıma ihtiyaç duyup saatlik kiralayacak kullanıcı çıkar mı?
Yoksa bunun yerine daha farklı bir model (örneğin dedicated aylık kiralama, doğrudan B2B satış, kendi SaaS altyapısı kurmak vb.) mı daha mantıklı olur?
Tecrübeli kişilerin görüşlerini merak ediyorum.