öncelikle "reçel" kelimesiyle ilgili bulduklarınız
- yemek tarifi
- ekmek yapımı
- salça yapılışı
- dordurma yapımı
- şeker hamuru
- pekmez yapımı
- şarap malzemeleri
kendi tahminleriniz mi yoksa yazılımınızın sonuçları mı? şunun için soruyorum, bizim böyle bir yazılımla çalışma imkanımız yok. eğer bu bir yazılım sonucuysa bir kanaat hasıl olacak.
Keşke benim tahminlerim olsaydı.

Çok iyi bir dil bilgisine sahip olduğumu düşünürdüm. (latife ediyorum) Bunlar yazılımdan çıkan sonuçlar ve sadece 7 LSI kelime öbeğini yazdım. Sonuç çok daha fazla.
alkadraz'ın lsi ile söyledikleri arasında ilk 10 veya 5 neyse siteyi kelime dağılımları itibariyle incelemek ve içeriklerin onlara benzer bir şekilde üretilmesi vardı. Yanlışım varsa düzeltsin.
@Alkadraz hocam, manuel işlemler için en makul olanı söylemiş. Bu konuda hemfikiriz. (detaylı inceleme sevmeyenler için fazla bile) Daha belirgin sonuç için benim düşüncem, alakalı sonuçların ilk 30 sonuca kadar incelenmesi yönündedir.
Bize yazılımınızın sonuçlarından oluşacak şekilde sizin belirlediğiniz 3-4 kelimede hangi lsi sonuçlarını verdiğini belirtebilir misiniz? o kelimelerde ilk 5 sıradaki siteleri analiz edelim ve bu bilgilerle karşılaştıralım. Sizin sonuçlarınıza daha çok odaklanmış olanların durumlarını analiz edelim ve böylece yazılımımız olmasına rağmen örnekler üzerinden, bir kelimede nereye kadar açılabileceğimizi tesbit edelim.
Anahtar kelime öbeğimiz :
iphone 5
LSI listesi :
- Turkcell (iphone varyasyonları)
- Ipod (ipod versiyona göre varyasyonları)
- ucuz (iphone varyasyonları)
- mac (macintosh)
- cep telefonları
Anahtar kelime öbeğimiz :
narenciye sıkacağı
LSI listesi :
- tost nakinası
- braun ürünleri
- tefal çaycı
- philips 1861
- waffle makinesi
Anahtar kelime öbeğimiz :
istanbul gezilecek yerler
LSI listesi :
- istanbul tarihi yerler
- istanbul rehberi
- istanbul haritası
- istanbul otelleri
- istanbul tatil
- istanbul otel
- istanbul hava durumu
- haftasonu istanbul
Anahtar kelime öbeğimiz :
En güzel yemek
LSI listesi :
- diyet yemek tarifleri
- yemek tarifleri videolu
- kız oyunları
- makarna tarifleri
- yemek tarifleri
- italyan yemek tarifleri
- ekonomik yemek tarifleri
vs.
Arama sonuçlarında, semantik üstünlüğü bulunan websitelerinin hepsinin ilk sayfada oluşuna dikkat ediniz. Nadiren 2-3. sayfaya düşüyorlar. Gerilere düşme nedenleri : yakın anlam ilişkisindeli kelime öbekleri hakkında kaliteli içerik içermemesi, ya da hiç içeriğe sahip olmamalarıdır.
Örnekleri çoğaltabiliriz. Ancak bu arama sonuçlarının yeterli olduğu kanaatindeyim.
Aslında buna benzer tahminleri kafadan yapmak da mümkün olabilir. Yukarıdaki listede dikkat ettim ortak noktaları şeker Biraz kafa yormak ve mantık yürütmek yoluyla belki tam olmasa da benzer sonuçlar almak mümkün olabilir.
Yakın anlam ilişkili kelime öbeklerini çok hızlı bir şekilde tespit edebiliriz. Çünkü bizim aklımıza gelenlerin hepsi, ilk olması gerekenler kümesinde yer alıyor. Ancak LSI için aynı şeyi söylemek çok zor. Benim kanaatim, ben tahmin edebiliyorsam, bir başkası da tahmin edebiliyordur. Bu nedenle araştırmak en iyisi.
Buraya kadar yazdıklarınızdan çıkardığım sonucun, sorumla ilgili olacak kısmını anladığım kadarı ile özetleyecek olursam; yakın anlam ilişkisi olan kelimelerle, LSI kelimelerinin aynı şey olmadığı sonucuna varıyorum. Yorumunuzda, LSI programlarının, daha çok yakın anlam ilişkisindeki kelime öbeklerini sunduğunu belirtmişsiniz. Bu sonucu "Google için, yakın anlam ilişkisi ile, LSI farklı verilerdir." cümlenizden çıkarıyorum.
Kesinlikle evet.
"Yakın ilişkili kelimeleri ve sıralamada çıkan sonuçlarını kendi oluşturduğum database'e kaydediyorum." Database'e aldığınız yakın ilişkili kelimeleri anladım(ancak bu yakın ilişkili kelimeleri curl gibi bir dille otomatik olarak mı çekiyorsunuz? yoksa bu kelimeleri manuel olarak database kendiniz mi ekliyorsunuz?)
Yakın ilişkili kelime verilerini direk Google'dan alıyorum. İpucu Google Toolbar'ı deneyin. Belki bazı kelime öbeklerini size json, xml, atom formatlarında sunabilir

Hep google bizden veri topluyor, sıra bizde.
"Daha sonra, geniş öbekli sorguları ufak bir programcıkla tetikliyorum. Yaklaşık arama sonuçları tetiklendikten sonra, Semantic Static sonuçlarına göre derliyorum." Burada "geniş öbekli sorgular", "bir programcıkla tetikliyorum"(kısmını anlayamadım, LSI kelimeleri bu aşamada mı elde ediyorsunuz? yoksa bir sonraki aşamada mı?), "Semantic Static sonuçlarına göre derliyorum". Sakıncası yoksa, bu kısımla ilgili olarak yaptıklarınızı, ya da bu tarz bir uygulama geliştirmek isteyen arkadaşlara yol göstermek için, yararlı olacak detayları bizlerle paylaşmanız mümkün mü acaba?
LSI kelimeleri bu aşamada değil, en sonunda elde ediyorum.
Semantic statistic mantığını anlamak için;
-
http://en.wikipedia.org/wiki/Statistical_semantics
-
http://en.wikipedia.org/wiki/Latent_semantic_analysis
sayfalarına bakınız. Sizin yapmanız gereken kendinize ait ya da başkalarının yazmış olduğu formüller arasında kaybolmak değil, sıralama sonuçlarında çıkan web sitelerindeki benzerlikleri, benzerlik skoruna göre ortaya çıkarmaktır.
Bunun için sıralamadaki web sitelerini özenli bir şekilde tarayıp, db'ye yüklemeniz gerekiyor. Bazı web siteleri için bu veri miktarı 1-2 TB'a kadar çıkabiliyor. Daha büyük veri isteyen siteleri incelemiyorum. HDD müsaade etmiyor.
Bundan sonrası sizin kabiliyetinize kalmış. Şöyle düşünün : Ben minik bir google'ım. Kullanıcılar benim db'den yakın anlamlı aramalara başladılar (program tetiklemesi) şimdi bu kişilere cevap verme ve istatistiklerini kaydetme zamanı. Sorguları bitince istatiklere bir bakalım, pasta nasıl bölünmüş?
pastadan çıkanları, google search api ile sorgulayalım, bakalım yeni gelen dostlar arasında eski dostlardan kaç tanesi var? büyük google minik google'a ne kadar ipucu verecek?