"Bunun için sıralamadaki web sitelerini özenli bir şekilde tarayıp, db'ye yüklemeniz gerekiyor." Cümlenizden anladığım, veritabanımı, bir web sitesindeki sadece yakın anlamlı kelimeleri değil, sitenin tamamını yakın anlamlıları bir veri setine dönüştürebilecek şekilde modellemeli ve verileri bu şekilde ölçümlendirmeliyim? Sanırım başlangıç için böyle bir yol izlemem gerekiyor? Söylemesi kolay ancak yapması oldukça zor görünüyor? Yoksa ben tam anlamadığım için olayı biraz karıştırıyor muyum?
Sadece yakın anlam ilişkisindeki sayfaları toplarsanız LSI elde edemezsiniz. Sitenin tamamına ve tüm içeriğine ihtiyacınız var. Google bu sitedeki hangi içeriklere, değer vermiş ise, yakın anlam ilişkili o kelime ile, sorguladığınız içerik arasında LSI bağlantı vardır demektir.
Mesela aşağıdaki SERPs incelemesi :
Tost Makinası için :
- akakçe
- hepsiburada
- teknosa
- gittigidiyor
- donanımhaber
- tefal
- istoç sepeti
- webdenal
- arçelik
Narenciye Sıkacağı için :
- akakçe
- istoç sepeti
- donanım haber
- teknosa
- sahibinden
- narenciye sıkacağı
- elektroworld
- philips
- teknosa
- arzum
- gittigidiyor
- arçelik
- bosch
- teknosa
- esse
- hepsiburada
Bu iki kelime için benzerlik oranı nedir sizce? Sonuçlar artırıldıkça, benzerlik oranı büyüyecektir.
Son ihtiyacın olan ise Google Kategori ağacı sistemidir :
http://www.dosya.tc/server2/IJoA2K/c....json.txt.html
1426 kategori ağaca dahil edilmiş. Kategoriler arası ilişkiler işine yarayacaktır.