İsteklerim şu şekilde:
- Liste halinde verilen detay url sayfalara gidecek
- Liste kaynağı mysql olarak yapılandırılacak
- Yazılan dilin hiçbir önemi yok yeter ki hızlı çalışsın. Tercihim sırasıyla Python, NodeJS, C#.
- Eğer gerçek bir browser kullanılacaksa mutlaka image istekleri kapatılmalı zira daha hızlı işlem sonlandırma ve bant genişliğini verimli kullanmak önemli bizim için.
- Uygulama çoklu örnek (instance) modeliyle çalışmalı. Örneğin: aynı anda 2 veya daha fazla bot farklı tablo satırlarındaki adreslere gidip çektiği kaynak kodlarını güncellemeli. Ve bu örnekler birbirlerinin görevlerini bozmadan ve takılmadan ilerlemeli.
- İsteklerde proxy desteği olmalı. Kendime ait bir proxy hizmeti bulunmakta. Proxy url, port, kullanıcı adı ve şifre ile kimlik doğruluyor.
- Bir istek başarısız olduğunda farklı bir proxy denemesi ile tekrar çalışıp aldığı son görevi yerine getirmeye çalışmalı.
Size ipucu olması amacıyla bazı çözümler paylaşıyorum:
- Python için Selenium
- C# için Cefsharp
- NodeJS için Puppeteer