dotnetDeveloper adlı üyeden alıntı: mesajı görüntüle
Basit bir tool dediğiniz google ı crawl ettirmek oluyor.

Daha önce çalıştığım startup bu fikir etrafına kuruluydu. Ve emin olun hiçte basit bir tool değil.

Öncelikle elinizde sürekli canlı ve çok sayıda proxy olması gerekiyor ki google a sürekli istek atılabilsin.

Sonrasında google belirli aralıklarla xpath lerini tasarım yapısını değiştirdiği için bunun takibi yapılmalı ve değişiklik durumunda hızlıca önlem alınmalı.

Çıkan sonuçlarda sonuç listesinin arasında reklam giriyor, arama kelimesine göre harita, liste ve başka componentler giriyor. Bunların ayrımı yapılmalı.

Ondan sonra çıkan sitelerin crawl edilmesi var.

Böyle bir sistemin asenkron bir şekilde çalışması, fault tolerance olması, dağıtık bir şekilde çalışabilmesi lazım.

Bana kalırsa pekte basit bir tool değil bu.



Size tavsiyem, böyle bir tool yazdırmak yerine, bu hizmeti veren şirketlerden ürün satın almanız.

Google'ı crawl etmenize gerek yok hocam. Google bununla alakalı bir search api sunuyor zaten. Bu search api ile sonuçları kolay bir şekilde alabiliyorsunuz zaten. Sonrası ise sitede bulunan content alanındaki metnin kelime sayısını hesaplamak. Daha önce çalıştığınız startup ortaya ekstra caseler koymuş olabilir. Bizim ihtiyacımızı söylediğim bu iki madde çözüyor. Yine de konuya katkınız için teşekkürler.