1600'e yakın içeriğin bulunduğu wordpress tabanlı sitemin sunucusunda teknik bir arıza meydana geldi ve elimde yedek de olmadığından veritabanı tamamen gitti. Temiz bir veritabanı oluşturdum. Site dosyaları da eski haliyle duruyor. Ana dizindeki sitemap.xml dosyasında tüm içeriklerin url'leri var ve hepsi de google cache'de duruyor.
cache:http://www.site.com/konu-ismi-konuID/
şeklinde açınca temasıyla falan çıkıyor. Sitemap.xml dosyasından URL'leyi alıp, cache'yi adresin başına ekleyip google cache'den konu içeriğini çekebilecek bir bot yazdırmak istiyorum.
Konu başlıkları
<h1>BAŞLIK</h1>
şeklinde, konu içeriği ise
<div class="the_content">İÇERİK</div>
şeklinde yer alıyor cache'de. Etiketler ise;
<div class="andtags">ETİKET</div>
arasında yer alıyor.
Bu tür bir bota çok ihtiyacım var. Yapabilen biri çıkarsa emeğinin karşılığını vermeye hazırım.