The Largest Real-Time Engagement Event yani En Büyük Gerçek Zamanlı Katılım Etkinliği demektir.
Neden AI OPS'ye ihtiyacınız var?
Talep genellikle üretimdeki acı noktasından başlar ve her yeni teknoloji, talebin kuluçka sürecinden doğar. Şu anda, geleneksel OPS'nin temel olarak üç ana sorun noktası vardır: 7D × 24H kesintisiz çalışma ve bakım garantisi, operasyon ve bakım yürütme kalitesi ve yürütme verimliliği.
1. 7 D × 24 H
Hizmetlerin yüksek kullanılabilirliği, 7D × 24H kesintisiz çalışma ve bakım garantisine dayanır.7D × 24H ekibi oluşturmak zor ve maliyetlidir. Ve iş ölçeğinin büyümesi ve endüstrinin küreselleşmesi ile yukarıdaki sorunların zorluğu doğrusal olarak artacaktır.
2. Kalite
İşletme işletimi ve bakımı, nispeten "deneyim-yoğun" bir iştir; bu nedenle, geleneksel işletme ve bakıma yeni başlayanlar, genellikle uzun bir başlangıç eğitimine ve iş sürecine aşinalığa sahiptir. Deneyimdeki farklılıklar, motor çalıştırma ve bakım işlemlerinde tutarsız kaliteye yol açacaktır veya istisnaların yakalanmamasına veya müşteri deneyimini doğrudan etkileyecek uygunsuz işlemeye veya çok agresif işlemeye yol açacaktır. AI OPS bunu daha iyi telafi edebilir.İyi eğitimli bir algoritma, yürütme sonuçlarının yüksek tutarlılığını korurken, deneyimli operasyon ve bakım personeli tarafından grup karar vermenin sonucuna daha yakın bir yürütme kalitesi getirebilir.
3. Verimlilik
Operasyonel verimlilik de kullanıcı deneyimi için kritik öneme sahiptir. Hizmet kalitesi anormal olduğunda işlem 1 saat sürerse kullanıcı deneyimi 1 saat, işlem süresi sadece 5 dakika ise sadece 5 dakika etkilenir. Bilgisayar odasında ağ kalitesi geri dönüşü açısından, deneyimli personelin alarm vermesinden tamamlanmasına kadar geçen ortalama süre yaklaşık 15 dakikadır.Büyük ölçekli çevrimiçi hizmetlere ek olarak, arızalar nispeten hemen meydana gelir ve sınırlı sayıda ekibin izlemesine izin verir. Böyle büyük ölçekli bir hizmet kümesiyle, tüm istisnaların verimli bir şekilde ele alındığından ve geleneksel işletim ve bakımın uzatıldığından emin olmak gerekir. Bununla birlikte, otomatikleştirilmiş AI OPS, yürütme verimliliğinde doğal avantajlara sahiptir.
Geriye dönüp bakıldığında, bu geleneksel yapay OPS ağrı noktaları, AI OPS'nin en büyük avantajlarıdır:
- 7 D × 24 saat: Makinenin uyumasına gerek yoktur.
- Kalite sorunu: Eğitilen modelin yürütme kalitesi istikrarlı ve güvenilirdir.
- Verimlilik sorunları: Otomatik AI OPS sistemleri, manuel olanlardan çok daha verimlidir.
02 AI OPS Mühendisliğindeki Zorluklar
Spesifik uygulama sürecinde, AI OPS mühendisliğinde hala birçok zorluk var.

Standardizasyon: AI OPS sektörü açısından bakıldığında, tüm sektör şişirilmiş beklentiler dönemindedir.Teknolojiler ve araçlar sürekli tanıtılırken, sektör standartlardan yoksundur ve olgun ve istikrarlı bir platform ve araç zinciri yoktur. Şirket gelişimi açısından, AI OPS keşif aşamasındadır ve standardizasyon olmadan mühendislik maliyetleri ve riskleri çok yüksektir. Örneğin bulut üzerinde var olan servisleri container mimarisine almak istiyoruz ama günümüzde çok olgun olan Docker ve K8S araçlarına sahip değiliz. Mimari tasarım ve geliştirme çalışmalarını çok artıracak. Bu, AI OPS'nin uygulanmasında karşılaşılan ilk zorlu sorundur.
Tutarsız beklentiler: Bir kuruluşta, işletmede, işletmede ve bakımda, algoritmada ve hatta büyük veri takımlarında genellikle farklı AI OPS anlayışları vardır. Son birkaç yıldaki akıllı sürüş kaza haberleriyle ilgili herkesin bir takım izlenimleri olmalı.Bunun nedenlerinden biri de insanların akıllı sürüşe yönelik beklentilerinin "gerçek otomatik sürüş" olmasıdır.Ancak şu anki aşamada yapay zekanın çalışması zor. insan olmadan tamamen otonom. Sürüş sırasında Ortam AI'nın yeteneklerini aştığında sürücü devralmadığında Trajedi ortaya çıkar. Şu anda yapay zeka çok moda bir kelimedir, ancak farklı alanlardaki insanların ondan farklı beklentileri vardır.Tutarsız beklentiler, yalnızca işbirliğinin ilerlemesini etkilemekle kalmayıp aynı zamanda çevrimiçi başarısızlıklara da neden olabilecek yetersiz bilgilere yol açar.
Altyapı için yüksek gereksinimler: Akıllı bir kadının pirinçsiz yemek yapması zordur.Mükemmel algoritmalara ek olarak, iyi AI ayrıca yüksek kaliteli verilere dayanır ve AI OPS istisna değildir. Örnek olarak küresel bir bulut hizmeti sağlayıcısını ele alırsak, AI OPS'nin temeli, iyi bir büyük veri işi yapmaktır.Gerçek zamanlı yüksek verimli bir veri merkezine ek olarak, aynı zamanda bir akış bilgi işlem arayüzü sağlaması gerekir.
03 Agora'nın AI OPS Uygulaması En İyi Uygulamaları
Ar-Ge ekibimiz, AI OPS uygulamasının özel uygulamasındaki sorunları nasıl çözdü?
- Kısa ve uzun vadeli hedefler belirlemek
Kısa vadeli hedef, uzun vadeli hedefi aşamalı hedeflere ayrıştırmaktır.Asıl işlevi, projemizin AI algoritmasını mümkün olan en kısa sürede uygulamak ve uzun vadeli hedefin temelini atmaktır. örgütler kurulmalıdır.

- Takımlar arasındaki beklentileri hizalayın ve birbirlerinin yeteneklerini tamamlayın
Birincisi, takımlar arasında anlama yeteneğidir. İş ekibimizin, algoritma ekibinin yeteneklerini aktif olarak anlaması gerekir.Gerçek zamanlı anormallik yakalama yeteneği ve tek indeksli zaman serisi anormallik tanımlamasına ek olarak, algoritma ekibi ayrıca kullanım tahmin yetenekleri de sağlayabilir.Veri kalitesi ve kullanım kalıplarına göre. , algoritma spekülasyonu bile uzun vadeli haftalık veya aylık tahminler sağlayabilir. SRE'ler için bu, trafik planlamasında ve maliyet kontrolünde büyük değer sağlayabilir.
İkincisi, çok önemli olan sınırların anlaşılmasıdır. Diğer ekiplerin yeteneklerinin sınırlarının belirsiz bir şekilde algılanması, çevrimiçi başarısızlıklara veya trajedilere yol açabilir. Makine öğreniminin kalitesi, manuel olarak etiketlenen verilerin kalitesine bağlıdır ve algoritmanın yetenek sınırı, insanları (grupları) etiketlemenin yetenek sınırına yaklaştırılabilir. İş ekipleri algoritmalara çok fazla güvenirse, çevrimiçi başarısızlıklar kaçınılmaz olabilir. İş ekibinin problemli algoritmayı bazı çok temel hizmetlere uyguladığını ve insan kısıtlamalarından tamamen arınmış olduğunu varsayarsak, bu insan otopilotundan tamamen arınmış gibidir.Murphy'nin teoremine göre bir şeyler olmalıdır.
Yetenekleri ve sınırları anladıktan sonra, ekiplerin genel optimalliğe ulaşmak için birbirini tamamlaması gerekir. Yapay zeka, işgücü tüketimini azaltmak için en iyi alanında yüksek kalite ve yüksek verimlilik elde ederken, geleneksel işletme ve bakım, genel kullanılabilirliği sağlamak için bazı beklenmedik durumları ele alır.
- İş, operasyonlar ve algoritmaları birbirinden ayırma
İşletme ve bakım nedir? Neden arazi? İşletme ve bakım, hizmet katmanı/işletme üzerindeki işlemleri ifade eder, ardından AI OPS'nin uygulanması, algoritma sonuçlarının işletme üzerinde hareket etmesidir. Ancak, doğrudan işletme işletim ve bakım arayüzünü ararsanız veya doğrudan algoritma katmanındaki veritabanını değiştirirseniz, önce risk çok büyüktür ve bağlantı çok ciddidir.Tersine, algoritma, iş ve işletme ve bakım geliştirmenin yinelemeli verimliliği Çok düşük. Bu, gerçek keşif aşamasında hızlı yinelemeye ihtiyaç duyan tüm proje ekibi için şüphesiz çok zordur.
Yukarıdaki sorunları çözmek için AI OPS'yi üç katmana ayırdık:
- İlk katman: AI katmanı
- İkinci katman: karar verme katmanı
- Üçüncü katman: yürütme katmanı
Bir: Modül araştırma ve geliştirmenin verimliliğini artırmak için algoritmalar, karar verme ve yürütme katmanları bağımsız olarak geliştirilebilir. Her modül, özellikle algoritma, hızlı ve yinelemeli olarak güncellenebilir ve aynı zamanda "tüm vücudu çekme" durumundan kaçınabilir ve yineleme maliyeti daha düşüktür. Keşif aşamasındaki AI OPS için ayrıştırma, inişe giden yolun vazgeçilmez bir parçasıdır.
İki: Sistem daha sağlam. Karar verme katmanı, sistemin sağlamlığını artırmak için daha fazla hata önleme ve güvenlik stratejisi yapabilir. Tek bir algoritma çökmesi veya anormal sonuç çıktısı karşısında, işlem alanı daha büyük ve daha zariftir.
Üç: Güçlü ölçeklenebilirlik. Standartlaştırılmış giriş arayüzü, sonraki algoritmalara ve hatta diğer otomatik komut dosyalarına erişim için daha uygun bir erişim yöntemi sağlar. AI OPS'nin standardizasyonu esas olarak şirket içinde yapılır.

- Birden çok göstergeyi tek bir bileşik göstergeye dönüştürün - karmaşıklığı basitleştirin
- "Sağlam" bir algoritma mutlaka uygun bir algoritma değildir
Örneğin, motor bir arabanın güç çekirdeğidir ve güçlü motorlar genellikle daha yüksek dereceli benzin gerektirir. Aynı şekilde, derin öğrenme gibi daha güçlü algoritmalar daha yüksek kaliteli veriler gerektirir. Bu aşamada, çok uzun bir bağlantı içeren daha kaliteli verilere ihtiyaç duyulmaktadır. İş katmanında uygun göstergeler tanımlanmalı, aktarım sürecinde veri kaybı ya da kirli veriler olabilir, algoritma eğitimi açısından çok fazla manuel açıklama gerekiyor. Bu üç nokta göz önüne alındığında, AI OPS'nin erken aşamasındaki zorluklar oldukça büyüktür ve mevcut aşamada işletmeye uygun bir algoritma seçmek, uygulamayı daha etkin bir şekilde teşvik edebilir.

Ayrıca işi düşünün. Algoritmanın iki temel göstergesi vardır: kesinlik ve geri çağırma. İşletmenin kendisi nispeten hataya dayanıklıysa, bazı doğruluk oranlarından vazgeçebilir ve bazı geri çağırma oranlarını artırabilirsiniz, bu da kullanıcı deneyimi için daha iyidir.
04 görünüm
Uzun vadeli hedeflere dayanarak, gelecekte daha fazla keşif içeriği eklemeyi umuyoruz. Bir yandan maliyet ve verimliliği hesaba katmayı, diğer yandan platformun daha fazla hizmete erişmesini umuyoruz.