Arkadaşlar merhabalar...
Google'daki spider botların mantığı ile web sitelerinden bazı verileri almak istiyoruz. Amacımız makale, video, resim vb. çekmek değil.
Bu anlamda kullanabileceğimiz en mantıklı ve en işlevsel fonksiyon hangisidir? Tabi ki burada hız da çok önemli..
Görüşleriniz için şimdiden teşekkürler..
Günde 20 Milyon Sayfa Taramak Mümkün Mü?
45
●3.665
- 08-12-2013, 22:30:56Üyeliği durdurulduBütçen yetmez bunu yapan birisini bulursan hocamikaan adlı üyeden alıntı: mesajı görüntüle
- 08-12-2013, 23:25:23Üyeliği durduruldu20 milyon URL demeliydim hatalı bir ifade oldu, dolayısı ile 20 milyon gibi bir tarama ile rakip olmak mümkün değil. benim verdiğim rakam ayda 600milyon url, senede de 720milyon url yapıyor ki bunu google 1 günde fazlası ile dolaşıyor.ikaan adlı üyeden alıntı: mesajı görüntüle
aslında benim merak ettiğim konu şu; altsayfaları olan 25bin site düşünürsek, her sitenin de 5000 alt sayfası olsa; 125.000.000url yapıyor toplamda. haftalık düzenli içerik kontrolü yapayım deseniz günlük 18milyon adet url gibi bir sayı çıkıyor.
benim merak ettiğim asıl nokta php'de bu mümkün olabilir mi? yoksa işin bot kısmı phyton felan mı olmalı? - 08-12-2013, 23:38:54PHP'nin bu yükün altından kalkabilmesi imkansız diye düşünüyorum. Mutlaka python kullanılmalı. Ayrıca farklı sunuculardan işlem yaparsanız ve yine sadece veritabanına ayrılmış ayrı bir sunucuya kayıt yaparsanız daha hızlı sonuç alabilirsiniz.ArBiTeR adlı üyeden alıntı: mesajı görüntüle
- 08-12-2013, 23:49:57Üyeliği durdurulduçok teşekkür ederim.. benim de kafamdaki düşüncede 30-50 arası bir sunucu kullanmak var. fakat 20 milyon url az bir rakam değil. boşa hayal de kurmak istemiyorum doğrusu...Ibolac adlı üyeden alıntı: mesajı görüntüle
bu konuda tecrübesi olan arkadaşlar veya geçmişte herhangi bir proje vs. için yüksek sayıda tarama yapmış olanlar bilgi aktarabilirse çok mutlu olurum. - 09-12-2013, 05:15:11Üyeliği durdurulduSizin düşünceleriniz nedir? Eklerseniz çok sevinirim. Tşkler.msgr adlı üyeden alıntı: mesajı görüntüle