• 08-12-2013, 22:21:06
    #1
    Üyeliği durduruldu
    Arkadaşlar merhabalar...

    Google'daki spider botların mantığı ile web sitelerinden bazı verileri almak istiyoruz. Amacımız makale, video, resim vb. çekmek değil.

    Bu anlamda kullanabileceğimiz en mantıklı ve en işlevsel fonksiyon hangisidir? Tabi ki burada hız da çok önemli..

    Görüşleriniz için şimdiden teşekkürler..
  • 08-12-2013, 22:24:45
    #2
    Üyeliği durduruldu
    günde 20 milyon sayfa taraması yapabilirsen googlenin büyük rakiplerinden birisi olursun diye düşünüyorum.
  • 08-12-2013, 22:30:56
    #3
    Üyeliği durduruldu
    ikaan adlı üyeden alıntı: mesajı görüntüle
    günde 20 milyon sayfa taraması yapabilirsen googlenin büyük rakiplerinden birisi olursun diye düşünüyorum.
    Bütçen yetmez bunu yapan birisini bulursan hocam
  • 08-12-2013, 23:25:23
    #4
    Üyeliği durduruldu
    ikaan adlı üyeden alıntı: mesajı görüntüle
    günde 20 milyon sayfa taraması yapabilirsen googlenin büyük rakiplerinden birisi olursun diye düşünüyorum.
    20 milyon URL demeliydim hatalı bir ifade oldu, dolayısı ile 20 milyon gibi bir tarama ile rakip olmak mümkün değil. benim verdiğim rakam ayda 600milyon url, senede de 720milyon url yapıyor ki bunu google 1 günde fazlası ile dolaşıyor.

    aslında benim merak ettiğim konu şu; altsayfaları olan 25bin site düşünürsek, her sitenin de 5000 alt sayfası olsa; 125.000.000url yapıyor toplamda. haftalık düzenli içerik kontrolü yapayım deseniz günlük 18milyon adet url gibi bir sayı çıkıyor.

    benim merak ettiğim asıl nokta php'de bu mümkün olabilir mi? yoksa işin bot kısmı phyton felan mı olmalı?
  • 08-12-2013, 23:38:54
    #5
    ArBiTeR adlı üyeden alıntı: mesajı görüntüle
    20 milyon URL demeliydim hatalı bir ifade oldu, dolayısı ile 20 milyon gibi bir tarama ile rakip olmak mümkün değil. benim verdiğim rakam ayda 600milyon url, senede de 720milyon url yapıyor ki bunu google 1 günde fazlası ile dolaşıyor.

    aslında benim merak ettiğim konu şu; altsayfaları olan 25bin site düşünürsek, her sitenin de 5000 alt sayfası olsa; 125.000.000url yapıyor toplamda. haftalık düzenli içerik kontrolü yapayım deseniz günlük 18milyon adet url gibi bir sayı çıkıyor.

    benim merak ettiğim asıl nokta php'de bu mümkün olabilir mi? yoksa işin bot kısmı phyton felan mı olmalı?
    PHP'nin bu yükün altından kalkabilmesi imkansız diye düşünüyorum. Mutlaka python kullanılmalı. Ayrıca farklı sunuculardan işlem yaparsanız ve yine sadece veritabanına ayrılmış ayrı bir sunucuya kayıt yaparsanız daha hızlı sonuç alabilirsiniz.
  • 08-12-2013, 23:49:57
    #6
    Üyeliği durduruldu
    Ibolac adlı üyeden alıntı: mesajı görüntüle
    PHP'nin bu yükün altından kalkabilmesi imkansız diye düşünüyorum. Mutlaka python kullanılmalı. Ayrıca farklı sunuculardan işlem yaparsanız ve yine sadece veritabanına ayrılmış ayrı bir sunucuya kayıt yaparsanız daha hızlı sonuç alabilirsiniz.
    çok teşekkür ederim.. benim de kafamdaki düşüncede 30-50 arası bir sunucu kullanmak var. fakat 20 milyon url az bir rakam değil. boşa hayal de kurmak istemiyorum doğrusu...

    bu konuda tecrübesi olan arkadaşlar veya geçmişte herhangi bir proje vs. için yüksek sayıda tarama yapmış olanlar bilgi aktarabilirse çok mutlu olurum.
  • 09-12-2013, 00:49:59
    #7
    Ne zaman PHP'nin altından kalkamayacağı büyüklükte bir konu olsa öneriler Python, Scala veya Java oluyor.
  • 09-12-2013, 05:15:11
    #8
    Üyeliği durduruldu
    msgr adlı üyeden alıntı: mesajı görüntüle
    Ne zaman PHP'nin altından kalkamayacağı büyüklükte bir konu olsa öneriler Python, Scala veya Java oluyor.
    Sizin düşünceleriniz nedir? Eklerseniz çok sevinirim. Tşkler.
  • 09-12-2013, 05:20:55
    #9
    Php gereksiz iş yükü olur python vb. kullanımı işlemci kullanımınızı düşürecektir. Eğer verileri kayıt altında tutacaksanız o zamanda mysql yetersiz kalacaktır. Veritabanı için de hadoop benzeri sistemler geliştirmenizi tavsiye ederim.