Kaldırabilir. Ancak gerekli index ve partition çalışmaları yaparak.
Facebook hâlâ MySQL kullanıyor. Ve 1 milyar kullanıcıyı aştı, siz düşünün...
Bilginiz ve yorumunuz için çok teşekkür ediyorum. son olarak MySQL konusunda bize bu konuda yardım edebilecek, bahsettiğiniz index ve partition çalışmalarını yapabilecek bir kurum veya kişi var mıdır bildiğiniz?
Bu arada bir ekleme yapmak istiyorum. Facebookun kullandığı normal MySQL değil, kendilerine göre geliştirdikleri bir versiyonu.
Facebookun geliştirdiği repolara şuradan göz atabilirsiniz:
http://github.com/facebook
Kesinlikle adamlar çalışıyor
MySQL kaldırır, bunun için tablolarda partition kullanabilirsiniz diye düşünüyorum. Onun dışında PHP5 ile process ve alt process şeklinde yapılabilir
multi-curl araştırabilirsiniz. Bunu tamamen profesyonel ve tecrübeli kişilerin yapmasını tercih edin yoksa hem zaman ve maddi kaybınız olur
Teşekkürler.
Aslında o satırlarla ne kadar yoğunlukta bir iş yapacağınıza bağlı. Kaldırmasına kaldırır ama yine sizin kullanımınız belirleyecek ne kadar stabil çalışacağını.
Kesinlikle bende bunu düşünüyorum aslında... Örnek 125 milyon text satıra anlık 1000 arama sorgusu gelirse ne olur? Aslında düşündüğüm iş gizli saklı birşey değil..
Örnek veriyorum elimde aşağıdakine benzer 25.000 adet web sayfası ve 125 milyon alt URL var...
https://www.r10.net/php/1172376-gunde...mumkun-mu.html
Bizim yapmak istediğimiz de bu 25.000 adet web sayfasında almak istediğimiz alanların taglarını sisteme gireceğiz, sonra bot(lar) tüm url'lere giderek verdiğimiz taglar arasındaki verileri alacak ve veritabanına kaydedecek. (Başlık - Resim - Açıklama) gibi.. Resim yok bu arada örnekti sadece. Herhangi bir resim veya video çektirmeyeceğiz. Tamamen text tabanlı olacak.
Eğer gidilen url'ye daha önce girilmiş ise tekrar tekrar tüm veriyi taratmaktansa, (iş yükünü hafifletmek için) sadece konuda değişiklik var mı diye baktırarak update ettireceğiz. Yani ikinci girişlerde sadece tek bir tagı aldıracağız. Eğer sistem ikinci kez aynı url'ye giriyorsa tek tagı alıp çıkacak. (değişiklik olmasa da update olabilir, değişikliği algılatmak sistemi çok yorabilir.) Bu arada geçmişte girdiği bir siteye ulaşamıyor veya ilk kez giriş yapacağı bir siteye ulaşamıyorsa 404vs.. gibi hata kodunu alarak geri dönmesini istiyoruz. Sonraki yapacağımız manuel değerlendirme ile bir süre sonra bot(lar)ı sisteme tekrar gönderebiliriz.
Daha da açıkcası işin en genel hali ise, bir arama motoru yapmak istiyoruz. Fakat sadece tek bir alanda tarama yapacak. Tüm interneti taratmaya zaten gücümüz yetmez. Bizim amacımız blogları taratarak DB'ye kaydetmek. Yerel bir kütüphane oluşturmak peşindeyiz.
Beni burada korkutan 2 temel unsur var...
1. 25bin adet sitenin ve 125 milyon adet URL'nin haftada en az 1 kere update olması gerekiyor. Site yayından kalkmışsa konuların silinmesi ve pasif hale gelmesi gerekiyor. Haftada 125 milyon url de günlük kabaca 20 milyon url yapıyor. Ayrıca 25bin sitenin hergün kontrol edilerek site kapandığında sistemde pasife düşürmek gerekiyor.
2. 7-8 sutun ve 125 milyon satırdan oluşan bir mysql sistemde anlık yüzlerce belki binlerce insan arama yapmak adına sorgu gönderirse ne olur düşünemiyorum. Varnish tarzı cacheleme sistemleri kurtarır mı?
Yazmasına Yazarımda sunucuların kaldırırmı oda var ? cpu tavan yapıcaktır tek sunucu ile imkan yok datacenter olması lazım
Bana tek sunucu ile günlük taranabilecek ortalama limiti söyleme şansınız var mı? Örneğin i7 işlemcili 32gb ramli 100mbit çıkışlı ve sadece bu işe ayrılmış bir centos sunucu için?