sql adlı üyeden alıntı: mesajı görüntüle
ben bu iş üzerine 2 yıl önce çok kafa yordum ve ciddi bir ilerleme de kat ettim. daha sonra deymeyeceğini düşündüğüm için bıraktım. çünkü bunların sanıldığı kadar etkisi yok. linki olan her türlü diğer siteleri yer. tamamen özgün sitemdeki yazıları çekip benim üstümde çıkanlar bunun delilidir.

bir kere bu tarz olaylara giriyorsanız nlp hakkında bilgi sahibi olmanız lazım. php güzeldir ama kapsam büyünce yetersiz kalıyor. türkiyede de nlp adına çalışmalar var. openoffice ın imla kontrolünü yapan modülde kullanılan proje mesela açık kaynak. köklerle, eklerle ilgili işleri bununla yapabilirsiniz https://zemberek.dev.java.net/ .

benim ilgili çeken bir diğer konu da şu oldu. google makalenin içeriğini belirlerken her kelimeye eşit ağırlık vermiyor. mesela bu postu dikkate alın. ağırlık verdiği kelime zemberek ve open office olur. çünkü geri kalan her kelime gündelik hayatta sıkça kullanılan ve kayda değer değeri olmayan, konuyu belirlemeyen kelimeler.

bu açından baktığınızda str_replace ile "ama" ları "fakat" a "ya da" ları "veya" ya çevirmenin falan hiçbir esprisi yok. çünkü asıl kilit kelimelerin ağırlığını değiştiremezsiniz. zemberek e ya da open office a alternatif kelime yok çünkü. saçma alternatifler bulursanız da konuyu saptıracağınızdan, başlıkla ilgili olması gereken kelime ağırlığı bozulacağından eksi puan alırsınız.

bir diğer nokta da translate mevsuzu. bunun üzerine fazla düşmedim ama bence google devrik cümleleri algılayabilecek seviyeye sahiptir. bunun için ingilizceden türkçeye çevirdiğimiz yazılarda iyi sıralamalar elde etmek zor oluyor. ( tabi sağlam link olayını dışarda tutuyorum, özgün yazı ile kıyasladığımızda zor oluyor. )

bir de pratik örnek vereyim. bir ara başlık değiştirme, paragraf atma olayı çok meşhurdu bilirsiniz. kopya yazıyı alırsınız bir haber sitesinden, başlığı değiştirsininiz. konuyla ilgili bir kaç cümle atarsınız. böylece özgün başlığınız olur, kelime yoğunluğu üzerinde de değişiklki yapmış olursunuz. yazı kopya olmaktan büyük ölçüde uzaklaşır. aslında dikkat ederseniz bunu yaparak yukardaki bahsettiğim başlık uyumu ~ ağırlıklı kelime oranı ilişkisini dengelemiş oluyorsunuz.

bu mevzuyu, bu kadar detaya inerek. yani kök - gövde meselesine kadar inerek incelerseniz geçerli bir çözüm bulamazsınız. basit çözümler var ama çok da stabil değiller ben o nedenle artık bu işleri araştırmayı büyük ölçüde bıraktım. kopya içerik / sağlam link bundan çok daha geçerli bir yöntem gibi duruyor. street smart olaylarını falan da bırakın derim. kafadan 1 yılımı yedi o ayaklar .

biri size teknik söylüyor ama tool vermiyorsa, bilin ki 2 ay sonra onun toolunu pazarlamaya çalışacaktır. bunu dp'de de bhw'de de iranjava da sıkça gördük. şimdi bu olayı kendi yarı çapında tr de uygulamaya çalışanlar var. arkanızı kollayın derim.
Fikirler için teşekkürler. Bazı konularda hem fikiriz. Bazı konularda uzlaşmamız zor.Sizin yaptığınız araştırma 2 yıl önce. Değişen bir çok sistem bulunmakta sizde tahmin edebiliyorsunuzdur. Bana göre terim ve kelime köklerine indirgenerek bir makalenin sıralamadaki yeri belirlenebilir.
Örnek vermek gerekirse hemde google nin dilinden verelim.
Alıntı
Bir site bir anahtar kelime ile ilgili iyi bir sıralama elde ederse, bunun nedeni site içeriğinin, kullanıcının sorgusuyla daha ilgili olmasını algoritmik olarak belirlemiş olmamızdır.
Burdada gördüğümüz üzere google zaten bize ipucu bile vermiş. Tabi bu sonuçlar 200 i aşkın algoritma ile denetleniyor. Bizim burda bahsettiğimiz en önemli unsurlardan biridir bana göre.

Birde benim bu konudaki amacım bir betik çıkarıp insanlara parayla satmak değildir. Biri size bir ipucu veriyorsa ve tool vermiyorsa bunun altında ark niyette aramamak lazım. Ben bu şekilde bir betik yazarsam sevdiklerime ve kendi sitelerime fayda için düşünmüştüm. Bilgiyi parayla satanlardan değilim. Bilgiyi bilgi ile satanlardanım. Yabancı forumlardaki sahıslarlar beni mukayese etmeniz üzdü açıkcası. Mukayese etmek ispat etmek değildir.

Saygılar...