Günde 20 Milyon Sayfa Taramak Mümkün Mü? - Sayfa 3

10-12-2013, 14:02:50

#19

~~EmrePirasa~~

Üyeliği durduruldu

functions adlı üyeden alıntı: mesajı görüntüle

Process'lere bölersen hacmi problem kalmaz diye düşünüyorum. Bkz: OOP

Kalır. her türlü işlem cpu yu yorucaktır.. ayrıca + oop kullanmakta sunucuyu yorucaktır

10-12-2013, 14:51:08

#20

functions

Kimlik doğrulama veya yönetimden onay bekliyor.

EmrePirasa adlı üyeden alıntı: mesajı görüntüle

Kalır. her türlü işlem cpu yu yorucaktır.. ayrıca + oop kullanmakta sunucuyu yorucaktır

Çözüm çok hocam aslında APC kullanılabilir

10-12-2013, 15:01:00

#21

~~EmrePirasa~~

Üyeliği durduruldu

functions adlı üyeden alıntı: mesajı görüntüle

Çözüm çok hocam aslında APC kullanılabilir

20 milyon sorguyu deneyin bakalım

sql ne hale gelicektir

10-12-2013, 15:30:28

#22

~~ArBiTeR~~

Üyeliği durduruldu

grafitus adlı üyeden alıntı: mesajı görüntüle

Kaldırabilir. Ancak gerekli index ve partition çalışmaları yaparak.

Facebook hâlâ MySQL kullanıyor. Ve 1 milyar kullanıcıyı aştı, siz düşünün...

Bilginiz ve yorumunuz için çok teşekkür ediyorum. son olarak MySQL konusunda bize bu konuda yardım edebilecek, bahsettiğiniz index ve partition çalışmalarını yapabilecek bir kurum veya kişi var mıdır bildiğiniz?

mtn adlı üyeden alıntı: mesajı görüntüle

Bu arada bir ekleme yapmak istiyorum. Facebookun kullandığı normal MySQL değil, kendilerine göre geliştirdikleri bir versiyonu.

Facebookun geliştirdiği repolara şuradan göz atabilirsiniz: http://github.com/facebook

Kesinlikle adamlar çalışıyor

functions adlı üyeden alıntı: mesajı görüntüle

MySQL kaldırır, bunun için tablolarda partition kullanabilirsiniz diye düşünüyorum. Onun dışında PHP5 ile process ve alt process şeklinde yapılabilir multi-curl araştırabilirsiniz. Bunu tamamen profesyonel ve tecrübeli kişilerin yapmasını tercih edin yoksa hem zaman ve maddi kaybınız olur

Teşekkürler.

F.Gungor adlı üyeden alıntı: mesajı görüntüle

Aslında o satırlarla ne kadar yoğunlukta bir iş yapacağınıza bağlı. Kaldırmasına kaldırır ama yine sizin kullanımınız belirleyecek ne kadar stabil çalışacağını.

Kesinlikle bende bunu düşünüyorum aslında... Örnek 125 milyon text satıra anlık 1000 arama sorgusu gelirse ne olur? Aslında düşündüğüm iş gizli saklı birşey değil..

Örnek veriyorum elimde aşağıdakine benzer 25.000 adet web sayfası ve 125 milyon alt URL var...

https://www.r10.net/php/1172376-gunde...mumkun-mu.html

Bizim yapmak istediğimiz de bu 25.000 adet web sayfasında almak istediğimiz alanların taglarını sisteme gireceğiz, sonra bot(lar) tüm url'lere giderek verdiğimiz taglar arasındaki verileri alacak ve veritabanına kaydedecek. (Başlık - Resim - Açıklama) gibi.. Resim yok bu arada örnekti sadece. Herhangi bir resim veya video çektirmeyeceğiz. Tamamen text tabanlı olacak.

Eğer gidilen url'ye daha önce girilmiş ise tekrar tekrar tüm veriyi taratmaktansa, (iş yükünü hafifletmek için) sadece konuda değişiklik var mı diye baktırarak update ettireceğiz. Yani ikinci girişlerde sadece tek bir tagı aldıracağız. Eğer sistem ikinci kez aynı url'ye giriyorsa tek tagı alıp çıkacak. (değişiklik olmasa da update olabilir, değişikliği algılatmak sistemi çok yorabilir.) Bu arada geçmişte girdiği bir siteye ulaşamıyor veya ilk kez giriş yapacağı bir siteye ulaşamıyorsa 404vs.. gibi hata kodunu alarak geri dönmesini istiyoruz. Sonraki yapacağımız manuel değerlendirme ile bir süre sonra bot(lar)ı sisteme tekrar gönderebiliriz.

Daha da açıkcası işin en genel hali ise, bir arama motoru yapmak istiyoruz. Fakat sadece tek bir alanda tarama yapacak. Tüm interneti taratmaya zaten gücümüz yetmez. Bizim amacımız blogları taratarak DB'ye kaydetmek. Yerel bir kütüphane oluşturmak peşindeyiz.

Beni burada korkutan 2 temel unsur var...

1. 25bin adet sitenin ve 125 milyon adet URL'nin haftada en az 1 kere update olması gerekiyor. Site yayından kalkmışsa konuların silinmesi ve pasif hale gelmesi gerekiyor. Haftada 125 milyon url de günlük kabaca 20 milyon url yapıyor. Ayrıca 25bin sitenin hergün kontrol edilerek site kapandığında sistemde pasife düşürmek gerekiyor.

2. 7-8 sutun ve 125 milyon satırdan oluşan bir mysql sistemde anlık yüzlerce belki binlerce insan arama yapmak adına sorgu gönderirse ne olur düşünemiyorum. Varnish tarzı cacheleme sistemleri kurtarır mı?

EmrePirasa adlı üyeden alıntı: mesajı görüntüle

Yazmasına Yazarımda sunucuların kaldırırmı oda var ? cpu tavan yapıcaktır tek sunucu ile imkan yok datacenter olması lazım

Bana tek sunucu ile günlük taranabilecek ortalama limiti söyleme şansınız var mı? Örneğin i7 işlemcili 32gb ramli 100mbit çıkışlı ve sadece bu işe ayrılmış bir centos sunucu için?

10-12-2013, 21:07:24

#23

~~BHCoder~~

Üyeliği durduruldu

burada iş ağırlıklı depolamaya düşüyor, PHP ile yapılabilir, postgresql veya mysql işinizi görür

10-12-2013, 22:33:16

#24

biomooj

php ile, yüksek performanslı bir sunucuda, aynı anda (multi curl) 500+ bağlantıyı açabilirsen günde 20 milyon bağlantıya ulaşabilir diye düşünüyorum. tabi çok gelişmiş bir fonksiyon yazılması gerekiyor. örneğin bir bağlantı için maximum bekleme süresi ne olacak, bağlantı başarısız olduğunda veya bir hatadan dolayı veriyi alamadığında bu bağlantıya birkaç saat sonra tekrar bağlanmayı deneyecek mi, kaldığı yerden devam etme özelliği vs..

10-12-2013, 23:31:20

#25

Naytu

Biz aktif olarak, Mongodb ile çalışmıştık. 20gb veritabanı boyutu + 100m fazla içerik de her hangi problem yaşatmamıştı (index iyi kullanmanız lazım).

10-12-2013, 23:59:52

#26

karakacan

basit çaplı da arama motoru yazacaksanız udacity.ye bir göz atmanız faydalı olacaktır diye düşünüyorum.
https://www.udacity.com/course/cs101

çok büyük yapılar olduğunda en mantıklı yol kendi yapınızı uygun şekilde oluşturmanız.
php ile yapılamaz değil yapılabilir. ancak bilinçli şekilde programlanmadığında diğer arkadaşların da dediği gibi kaynak tüketiminde sıkıntı olabilir. ve çok fazla sayfa crawl edeceğiniz için bu problemle karşılaşmanız çok uzun zaman da almayacaktır.

veritabanı konusuna gelecek olursak hadoop ve mongodb güzeldir..
mysql ile de işin içinden çıkılabilir ancak optimizasyonu çok iyi şekilde yapmanız gerekir.
bu kadar büyük çaplı olmasa da fazla veri yükü olan bir projede percona derdime deva olmuştu. (mysqlperformanceblog.com)

"php ile neler yapılabilir?" için bu videoyu da paylaşmak istedim.
http://www.paylas.com/video/istanbul...i-huseyin-mert

umarım projeniz rafa kalkmaz ve bir an önce gün yüzüne çıkar.
çok özel değilse (ki kullanıcılar arama yapacak demişsiniz) gelişmelerden haberdar ederseniz memnun olurum.

iyi çalışmalar..

11-12-2013, 00:03:48

#27

saintx

Kimlik doğrulama veya yönetimden onay bekliyor.

EmrePirasa adlı üyeden alıntı: mesajı görüntüle

Kalır. her türlü işlem cpu yu yorucaktır.. ayrıca + oop kullanmakta sunucuyu yorucaktır

OOP yoracak mı?

ilginç