Su an dunyada daha iyisi olmadigini bircok yabanci yayincidan ogrendim. Docker ve splashle inanilmaz isler yapilabiliyor. Birkac gundur kullaniyorum ve cektigim verileri SQLite filan yazdirabiliyorum. Bazen Json olarak kullaniyorum. Kusursuz bir arac. Hatta kurallar girerek kendi kendine istediginiz urlleri tarayip o sayfalardaki tum verileri dahi cekebiliyor. Net bir url girmenize bile gerek yok. Sayfalama kullanmayacaksaniz /product/ linkini tara diyip gecioyrsunuz


Merak ettigim su:
Orumcegimi yaratiyorum kusursuz calisiyor ama
scrapy crawl bocek ismi -O bilgi.json seklinde elle kodlamam gerekiyor!

from scrapy.crawler import CrawlerProcess kutuphanesi yardimiyla
Olusturdugumu class yapisindaki kodu artik kod yazmadan da calistirabiliyoruz.

Ancak ben bu classi loopa bagliyamiyorum. Biraz stackflow arastirdim ama cok fazla bilgi yok.

import scrapy
from scrapy.crawler import CrawlerProcess

class MySpider(scrapy.Spider):
    # Your spider definition
    ...

process = CrawlerProcess(settings={
    "FEEDS": {
        "items.json": {"format": "json"},
    },
})

process.crawl(MySpider)
process.start() # the script will block here until the crawling is finished
Mesela ben bu kodu While dongusune nasil alirim.. Bir sitede saat var, onu cekip surekli guncellemek ve json dosyasindan islem yapmak istiyorum diyelim. Hersey iyi guzel taramasi guzel ama otomasyonunu cozemedim

Bir yardimci olursaniz sevinirim.