zagor75 adlı üyeden alıntı: mesajı görüntüle
"Bunun için sıralamadaki web sitelerini özenli bir şekilde tarayıp, db'ye yüklemeniz gerekiyor." Cümlenizden anladığım, veritabanımı, bir web sitesindeki sadece yakın anlamlı kelimeleri değil, sitenin tamamını yakın anlamlıları bir veri setine dönüştürebilecek şekilde modellemeli ve verileri bu şekilde ölçümlendirmeliyim? Sanırım başlangıç için böyle bir yol izlemem gerekiyor? Söylemesi kolay ancak yapması oldukça zor görünüyor? Yoksa ben tam anlamadığım için olayı biraz karıştırıyor muyum?
Sadece yakın anlam ilişkisindeki sayfaları toplarsanız LSI elde edemezsiniz. Sitenin tamamına ve tüm içeriğine ihtiyacınız var. Google bu sitedeki hangi içeriklere, değer vermiş ise, yakın anlam ilişkili o kelime ile, sorguladığınız içerik arasında LSI bağlantı vardır demektir.

Mesela aşağıdaki SERPs incelemesi :

Tost Makinası için :
  1. akakçe
  2. hepsiburada
  3. teknosa
  4. gittigidiyor
  5. donanımhaber
  6. tefal
  7. istoç sepeti
  8. webdenal
  9. arçelik

Narenciye Sıkacağı için :
  1. akakçe
  2. istoç sepeti
  3. donanım haber
  4. teknosa
  5. sahibinden
  6. narenciye sıkacağı
  7. elektroworld
  8. philips
  9. teknosa
  10. arzum
  11. gittigidiyor
  12. arçelik
  13. bosch
  14. teknosa
  15. esse
  16. hepsiburada

Bu iki kelime için benzerlik oranı nedir sizce? Sonuçlar artırıldıkça, benzerlik oranı büyüyecektir.

Son ihtiyacın olan ise Google Kategori ağacı sistemidir :

http://www.dosya.tc/server2/IJoA2K/c....json.txt.html

1426 kategori ağaca dahil edilmiş. Kategoriler arası ilişkiler işine yarayacaktır.