Weya adlı üyeden alıntı: mesajı görüntüle
Aslında konu oldukça basit bir yoğunluk hesabına dayanıyor. Gerçek hayatta yaptığımız yoğunluk bulma işleminin internete aksettirilmiş hali gibi düşünebiliriz. Aynı yoğunlukta olan iki saf madde için aynı maddeler ( elementler ) diyebiliriz.
Benzer şekilde aynı yoğunlukta iki makale için de çalıntı diyebiliriz.

Şimdi gerçekte hayattaki yoğunluk işlemine bir bakarsak =

Kütle / Yoğunluk

olarak görürüz. İnternette ise yazdığımız makaleler, kütle görevini üstlenmiştir, diğer eş benzer makaleler ise yoğunluk görevini görüyorlar. Örnek alacak olursak, başka bir siteden aldığımız bir makale ile aldığımız yerdeki makalede geçen kelime sayıları aynı. Cümleleri devrik yazsanız bile kelime sayıları sizi ele veriyor.

Bizim Sitemizdeki Kelime Sayıları / Diğer Site Kelime Sayıları = 1

sonucunu verecektir. Böylece Google makaleyi çaldığımızı anlayacaktır. Fakat bu konuda dikakt edilmesi gereken 2 önemli husus var :

1- Noktalama işaretleri: noktalama işaretleri, makalenin can damarı gibidir. Duygu, heyecan gibi duyguları noktalama işaretleri ile algılarız. Bu konuya ben girmeyim burda bir makalede yazarım olmazsa.

2- Bağlaçlar: Şöyle düşünelim, bir makaleyi çalacaksınız, "internet" kelimesini ne kadar değiştirebilirsiniz ki, ama bağlaçlar değişir ve mutlaka bir alternatifleri vardır. Kelime yoğunluklarında önemli yere sahiptirler. Bu yazımda kaç defa "ve" dediğimi siz düşünün. "ve" leri "ile" değiştirebilir, "ile" leri "ve" ile değiştirebilirsiniz fakat bu size çok yarar sağlamayacaktır, daha makul iyi bir algoritma ortaya çıkarmak gerekecektir.
Noktalama işaretleri ve bağlaçlar ile semantik motor tarafından kolaylıka elenebilirler. (ki deneyimlerimde elendiklerini gördüm) Zaten kök bulma olayında kelime köklerine iner. Yani eklerini bile temizletebilirsiniz köke indiğinizde. Böylece aynı kelimenin devrik ve farklı çekim ekleri ile değiştirilmiş hallerini de atlatabilirsiniz.
Lakin Türkçe ingilizceden farklı. Yapım ekleri kelimenin köküne inilmesinde ciddi problem. Bu biz webmasterlara avantaj sağlıyor aslında. Google'ın Türkçe semantiğinin zayıf olması bizim bun avantaja çevirmemizi sağlayabilir.