• 15-07-2009, 15:43:24
    #1
    Bugün dikkatimi çekti sitem nedense archive.org/ yoktu. biraz bakınca anladımki robots.txt iğle engellenmiş gözüküyordu.bunu üzerine biraz araştırdım ve sonuçta sizinle paylaşmak istedim. Öncelik eğer siz de benim gibi en garantisi www.r10.net/robots.txt dir diyip kullanıyorsanız siz de yoksunuz archive.org/'da.
    öncelikle robots.txt yi açın ve şunlara bakın:
    User-agent: ia_archiver
    Disallow: /
    User-agent: ia_archiver/1.6
    Disallow: /
    eğer robots.txtniz bunlar varsa hemen silin kaldırın.
    daha sonra alexaya gideceğiz.malum archive.org alexa verileriyle işleyen bir sistem.
    Alexa - Information for Webmasters
    bu sayfaya gidiyoruz ve en altta Crawl my site yazan bir buton var. yanına sitenizin adresini yazıyorsunun ve butona basıyorsunuz.
    Gerisi sizden çıkar artık zamana alexa ve archive'e kalmış bir şeydir.
    Edit:
    "Why are there no recent archives in the Wayback Machine?
    It generally takes 6 months or more for pages to appear in the Wayback Machine after they are collected, because of delays in transferring material to long-term storage and indexing.
    siteniz archive botu tarafından indexlenemeye başladıktan 6 ay sonra hatta daha fazla sürede gözükmeniz mümkün olabilir diye belirtilmiştir."

    umarım faydalı olmuştur
    yazan:archslayer
  • 15-07-2009, 16:33:24
    #2
    evet ref için olan ve diğer pek çok zararlı bot ve program için olan şeyler mevcut r10 robotsunda aynen bende de duruyor onlar.Tek tek açıklamak uzun sürer sarım onları da mesela teleport ve offline explorer var html sitelerin o program sayesinde direk olarak çekip sitenizi kopyalayabilirler.email collector gibi sitenizdeki mailleri toplayıp spam yollattıranlar var,onun harici olanlardan gereksiz bant genişiliği yiyen botlar var mesela.özellikle sınırlı bant genişliğine sahip hostları olanların ay sonunu göremeden bandwidth excited uyarısı çıkartabilir