Sayın R10 Kullanıcıları;
18.10.2010 11:30 tarihinde İngiltere lokasyon sunucu ve vps hizmetlerini sağladığımız sunucuların bağlı olduğu, Rapidswitch RSH North Network'unda oluşan network problemi ile alakalı Datacenter'dan alınan son detaylı bilgi aşağıdaki gibidir. Herhangi bir oynama yapılmadan tercüme yapılmıştır.
RapidSwitch Emaili; [zaman dilimi -2 saat geridir]
İlgili sorundan dolayı Maidenhead Data Centerı Kuzey bölümündeki serverlar etkilemiştir (RSH-North). Datacenter bünyesindeki serverların yaklaşık %50'si bu sorundan etkilenmiştir. Problem esnasında monitoring sunucularımızda sorun olmasından dolayı maalesef net rakamı söyleyememekteyiz. Monitoring hizmetleri yeniden düzeltilmiştir.
08:55, Maidenhead Data Centerı Kuzey bölümündeki serverlarda network hatalarının oluşmaya başladığını farkettik. Bu bölümdeki serverların yarısı paket kayıpları ve erişim problemi gibi problemler yaşıyorlardı. Geriye kalan sunucular ise hatasız çalışıyordu.
Sorun VSS-1440 clusterına bağlı birincil ve ikincil Cisco 6500 network sistemini etkiliyordu. Sorunu tespit etmek adına acil durum prosedörlerini yerine getirmeye başladık fakat raporlar her şeyin düzgün çalıştığı yönündeydi.
Acil durum prosedörlerini bitirdikten sonra, spesifik bir problemle karşılamadığımız için saat 10:10 civarında Cisco'ya konuyla ilgili destek talebimizi ilettik. Cisco tarafından atanan bir mühendis routera giriş yaparak problemi belirlemeye çalıştı. 3 saatlik çalışma sonrasında Cisco mühendisi maalesef bir çözüm sunamadı. Sorunun yazılım kaynaklı bir hata veya hardware hatası olabileceğini anladık.
13:20'de kontrolu tekrar ele alarak iki routerıda yeniden başlatma kararı aldık. Yeniden başlama süresince RSH-North data katındaki tüm sunucular 15-20 dakikalık kesintiye uğradılar. Yeniden başlatma sürecinde birincil router normal bir şekilde başlayamadı. İkincil router normal bir şekilde başladığı için monitoring sunucularımız hatanın giderildiği yönünde raporlar iletmeye başladı.
Sonuç olarak bizim fikrimiz Cisco 6500'ün yeniden başlatma sırasında hata vermesi hardware kaynaklı bir problem olduğu yönündedir. Oluşan sorundan dolayı tüm sorumluluğu üstümüze alıyoruz ve Cisco'ya cevap vermesi için aşağıdaki soruları yöneltiyoruz:
1) Neden Cisco 3 saat içerisinde bir hardware problemi olduğunu belirleyemedi?
2) Sistemin yapısı gereği neden trafik ikincil 6500'e otomatik olarak geçiş yapmadı?
Cisco sorunun teknik bir hatadan dolayı olup olmadığı konusunda emin olmadıklarını belirttiler, bu sebepten dolayı bu iki soruya henüz bizde net bir cevap veremiyoruz. Açıkcası bu sorular cevaplanması gereken önemli sorular ve konuyla ilgili net bir bilgi vermek adına Cisco ile çalışmalarımız devam etmekte.
RapidSwitch
Bilgilerinize sunulur.
Saygılarımızla;
iDeal Hosting Managed Servers
Web :
http://www.idealhosting.net.tr
Panel :
https://panel.idealhosting.net.tr
Blog :
http://www.idealhosting.org