Ciddi bir sorum var, bir siteden başlayıp, aldığı tüm linklerin içeriklerine gidecek ve oradan başka linkler alacak bir içerik çeken programın, gezdiği tüm sitelerin Türkçe olacağından nasıl emin olabilirim?
İlk aklıma gelen, bulduğum URL'yi Google üstünden "Türkçe sayfalar"da aramak, eğer yoksa esgeçmekti. Bunun da "ama"sı var elbet, ama diyelim ki yüksek başarı elde ettim, problem şu ki Google bir süre sonra seni blokluyor. (deneyen bilir). Yahoo search api var, ama günlük 5000 query hakkın var.
Zor bir soru, charset garantisi değil, utf-8 de seçebilir adam. Kelime yoğunluğundan bir çıkarım yapmak için çok ciddi sunucu gücü ve ön çalışma gerek.
Neden soruyorum, 2009 içinde Türkçe semantik web çalışmasına ayıracağım. Tema sır, ama sadece Türkçe birkaç milyon siteyi indekslemek istiyorum.
Tek dil içerik toplayan spider
0
●453