Aslında noktalama işaretlerinden ziyade digiklan hocamın dediği gibi. Zaten terimler indirgeniyor. Kök bulunuyor. Kök bulma işlemlerinde zaten tüm işaretler temizleniyor. Php deki strip_tags gibi düşünün.Bazı arkadaşlar mesaj atmışlar siteni incelemek istiyoruz filan demişler.Sitemi incelemenize gerek yok. Ben size en önemli yaptığım işlemi yine bir alıntı ile açıklayacağım. Ben açıklarsam sayfalarça yazmak icap edicek.
Alıntı
Her bir terimin ağırlığını hesaplarken, terimin belgede geçme sayısıyla, bütün belge arşivinde geçme sayısını oranlayarak bir ağırlık elde eder
Bir terimin belgedeki ağırlığı hesaplanırken, uzun belgeler kısa belgelere göre avantajlı duruma geçebilir. Bu yüzden belge uzunluklarını normalleştirmek gerekmektedir.
İşlemler:
a. Yüksek terim frekansları: Uzun belgeler, genelde aynı terimi çokça kez tekrar eder. Bu yüzden terim sıklık etkeni uzun belgeler için çok yüksek olur. Bu da belgedeki terimlerinin ağırlığının artmasına; sorgu ve belge benzerliği değerinin yüksek olmasına ve uzun belgelerin kısa belgelere göre daha avantajlı hale gelmesine sebep olur [2].
b. Fazla sayıda terim: Uzun belgeler fazla sayıda farklı terim içerir. Bu da bir sorgu ile belgenin eşleşme sayısını arttırırken aynı zamanda da belge doküman benzerliğini arttırır ve erişimde kısa belgelere göre uzun belgeleri daha şanslı bir konuma getirir
Benim size tavsiyem uzun belgeler ile alaka düzeyini biraz daha fazlalaştırmanız olacak.