S.a. arkadaşlar,

Database silinmesinden dolayı 30-09-2011, 01:21:24 ve 10-12-2011, 22:11:52 tarihinde açmış olduğum iki konuyu tekrar talep eden değerli meslektaşlarım için yeniden açıyorum. Umarım ufkunuzu açmış olurum. Hoşcakalın.


Özgün İçerik - Makine Öğrenmesi Ve Data Mining Tahminleri

S.a. arkadaşlar,

Seo da yeniyseniz ve kendinize güvenmiyorsanız lütfen bu makaleyi okumayın. Kafa karışlığına, yanlış kullanımlardan ötürü başarızlığa neden olur..


Makine Öğrenmesi (Machine Learning)

Şimdi bu konuda söylebilecek o kadar çok şey varkı. Sayfalarca bilgi verilebilir.Fakat buna vaktimiz pek yeterli değil. Ondan giriş seviyesinde bir bilgi vereceğim. Zaten ismindende anlayacağınız gibi makinelerin yani bilgisayarların ve diğer makinelerin öğrenmesiyle alakalı bir bilim dalı olduğunu tahmin edebilirsiniz.
İnternet alemindeki devasa büyüklükteki verilerin elle işlenmesi veya analiz edilebilmesi mümkün değildir. İşte burda devreye makine öğrenmesi giriyor. Bir web sitesi sayfasının google bot tarafından The indexer yani dizinleyiciye gönderildiğini biliyoruz. Peki bu The indexer sayfaları düz mantıktamı ayıklıyor.
The indexer görevi :Her sayfadaki her kelimeyi ayıklar, sınıflandırır.Sonuça ulaştığında kelime dizinini devasa bir veritabanında saklar...

Sizin web sitenizdeki bir sayfanın
  • Sınıflandırılması
  • Kümelenmesi
  • Regresyon Örnek: Motor gücü bilenen bir araçın maximum hızı tespiti regresyon sayesinde tespit edilebilir.
  • Özellik çıkarımı
  • İlişki belirleme
Gibi bir çok aşamadan geçtiğini adım gibi biliyorum. Text tabanlı ve meta tabanlı arama motoru yani dünya devi olan google bünyesinde bu anlattığımız tarzda bundan çok daha üstün uygulamalar barındırıyor. Fakat Türkiyede bu uygulamaların bir çoğu kullanılmıyor nedense. Hatta ingilizce aramalarda kullanılmayan bazı uygulamaların bile olabileceğini tahmin ediyorum. Bunun nedeni tahminen tamamen duygusal herhalde.

Bu kadar şeyi nerden biliyorsun kardeşim dediğinizi duyar gibiyim..
Şimdi benim elimde bazı uygulamalar var. Örnek vermek gerekirse iki sayfa arasındaki text bazında benzerlik ölçümünü algoritmik olarak yapan bir uygulamadan bahsediyorum. Bu sayede makaleler arası benzerlik oranını tespit edebiliyorum.Hemde matematiksel açıdan. Yani bu sayede X sitesi Y sitesinin kopyasıdır diyebiliyorum..

Bu sistem sayfalara 0 ila 1 arasında not verir. Eğer bir sayfaya 1.00 veriyorsa bu %100 benzerlik demektir. Kimi sayfaya 0.67 -0.85 v.s. bir çok değer alabiliyor.

İncelediğim bir çok keywordde rakiplerin hepsi birbirine benziyor. Hatta bazı kategoriler özellikle ürün satışı veya tek ürüne odaklı sitelerde bu oran 0.98 gördüğüm bile oldu. Yani tamamen benzerler kopyalar. Bu konuda çok uzun süredir çalışmalarım oldu.

Bende tüm seocuların söylediği gibi yazdığım makalelerde özgünlüğe dikkat eden birisiyim. Sistemin doğruluğu ölçmek yani google sıralama algoritmasında ipucları aramak için denemeler yaptım. Bu denemeleri yaparken tüm rakiplerin benzerlik oranları çıkardım. Ve benim eklediğim makale diğerleri ile tamamen alakasız bir benzerlik olmuştu.Yani güya özgündü. Ama aranan keywordle alakalı idi.

Örnek vermek gerekirse benim sayfamın ilk 10 la arasındaki benzerlik oranı şuydu
1. 0.23
2. 0.25
3 0.30
v.s. maximum benzerlik 0.36 idi.

Bu denemeler alt sayfalar için yapıldı tabiki. Rekabet çok fazla değildi. Fakat başarısız oldu. Daha sonra bende benzerlik oranını artdırmaya karar verdim. Yani kopyaya doğru gidiyoruz Benzerlik oranlarını 0,85 e kadar çıkardım. Ve sayfa başarı sağladı. Şok şok şok İşte bunları bu denemeler sayesinde biliyorum. Bir keywordle alakalı olabilmek için diğerlerinede benzemek gerekiyor içeriksel açıdan.Burayı karıştırmayın içeriksel açıdan

Yani burdan bir makalenin sınıflandırıldığını, kümenlediğini, özellik çıkarımını, ilişki çıkarımını anladım. Aralarında bir ilişki olmak zorunda.

Yani şunu demek istiyorum aslında sizin özgünlük kavramı dediğiniz şey çok farklı bir algoritma üstüne kurulu. Madem sayfalar kategorilendiriliyor kümeleniyor v.s. Sitelerinde kategorisel açıdan değerlendirilmesi gerekir.
Yani bir video sitesi ile içerik portalını bir tutmanız saçmadır. Bir ürün satışı yapan site ile r10.net İ bir değerlendirmeniz mantıksızdır.Velasıl her kategorinin özgünlük kavramı farklıdır. Bunu 300 kelime veya 800 kelime ile sınıflandırmak özgünlük kavramına ve algoritmasına yakışmaz. Çok daha derindir.

Ve bu algoritma üstüne algoritma var. Örnek vermek gerekirse tamamen kopya tamamen hacklink siteler var. O biçimde sıralama elde etmiştir. Kullanıcı algoritmaları, içerik algoritmaları, zamanlama algoritmaları v.s. bir çok algoritma denenerek karar veriliyor. Siz hacklink yapmış olsanız bile başarı sağlayabilirsiniz. Siz kopya içerik yapıpda başarı sağlayabilirsiniz. Bu tür örnekler mevcut. İşte bu sitelerin neden başarılı olduklarını tespit ederseniz bazı ipucları elde edersiniz.

Kendi sitemden bir örnek verim size. Ben e-ticaret ile meşgülüm. Geçenlerde birisi e-ticaret sitesini satılığa çıkarmış. Burdan değil. 12 milyara satıyor. Ben almaya niyetlendim. Dedim kaç ürün var 50 bin dedi.Şoke oldum benim sitede 600 ürün var Ne kadar zamanda oluştu dedim 3-4 ayda girmiş. Manuel girilmemiş xml entegrasyonu ile.

Benim sitenin hiti günlük 1 k 600 ürün var. Piyasa değeri 1xx.xxx TL.
Adamın hiti ortalama 500 tekil. 50 bin ürün var. Satışı 12 milyar.Buda bir zamanlama algoritmasına örnektir. Yani üç kuruşa beş köfte mevzusu Tabi hızlı ilerleme takdikleri var. Yok değil. Kardeşim bu seo o kadar ilginç bir şeyki ne tarafa çeksen o tarafa geliyor hahaha ... Çok şey var ya html den anlam çıkarma v.s. bir çok şey var aslında bu kadar kısıtlı değil seo onu anlatmaya çalışıyorum.
Mesala google üye olmayan bir kullanıcı bile tanımlıdır. Google ana sayfasına girdiği anda bir ID Eklenir ve ID nedense hiç değişmez anasını satım MAC Adresi alınır tarayıcılar sayesinde. Ve o ID ye ait tüm aramalar kullanıcının pc sinde cookiee olarak saklanır. Yani bu ne demek oluyor. Her kullanıcı tanımlı ve her kullanıcı sınıflandırılmış demek oluyor kullanıcının ilgi alanları tespit ediyorsunuz.. Buda muhtiş bir seo tekniğidir.
Mesala ilgi alanı webmasterlik olan bir kullanıcı topluluğu düşünün.Google tespit ettiği ve sınıflandırdığı bir kullanıcı topluluğundan bahsediyorum. Google networküne toy yenimi yeni bir site girdi. Ve bu tanımlı webmaster topluluğu bu yeni siteyi ziyaret etti ve menmun bırakmadı. Buda seoya etki eden faktörler arasındadır. Valla arkadaşlar konu saçma sapan bir hal aldı ordan oraya burdan oraya karıştı. İdare edin artık Çok farklı konulara değindik.


PHP İLE İKİ MAKELE ARASINDAKİ BENZERLİĞİ ÖLÇEN UFAK BİR KOD YAZDIM. BELKİ İŞİNİZE YARAR ONUDA VERİM.GOOGLE ALGORİTMASINA YAKIN OLMASADA BENZERLİK ORANLARINI İYİ TESPİT EDİYOR.
$makale = "makale 1";   
$makale1 = array("makele 2","makale 3",);   
$a=array();
foreach($makale1 AS $mak)   
{   
    similar_text($makale,$mak,$benzerlik);
    if($benzerlik >= 20)  $a[$mak]=floor($benzerlik);
}
arsort($a);
foreach ($a as $val => $key) {
    echo $val."--".$key."<br>";
}
Kendinize göre değiştirip kullanabilirsiniz. Bu kategoride daha paylaşım yapamayacağımıda belirtmek isterim. Baya uzun süredir bu forumdayım fakat paylaştığım bazı şeylerin webte kötüye kullanıldığını ve bunların kötü sonuçlar doğurduğunu fark ettim. Ve hatta bazı arkadaşlar yaptığımız paylaşımlardan bilgi çıkarıp bunu para ile sattıklarınada şahit oldum. Kimseye bir kızmışlığım yok ama kötüye kullanılması pek hoşuma gitmedi açıkcası. Ondan arkadaşlar Hakkınızı helal edin. Hayatınızda mutluluk esinlikler diler çalışmalarınızda başarılar dilerim. Hoşcakalın..

Saygılarımla...


Diğer konu:
Google Data Mining Tahminleri

S.a. arkadaşlar,

Öncelikle bu makaleyi yazarken çok sıkıntı çektiğimi belirtmek isterim. Bazen bazı şeyleri anlatmakta zorlanıyorum. Yani bu tür konuları modelleyerek anlatmak gerekiyor. Arada kopukluklar olabilir ondan şimdiden kusura bakmayın diyorum.

Bu makalem aslında SEO daki herşeye hitap edebilecek bir makale. Çünkü web madenciliğine giriyor.Neyse konuya giriş yapalım..

Googleun böyle devasa bir arama motoru olmasının veya sürekliliğini sağlamasının en önemli nedeni şudur bence. Bilgi kazanımı yani bilgiyi elde edebilecek herşeyi yapmasıdır.Google çeşitli verileri çevrimiçi veya dışı olmasına bakmaksızın bir veri havuzunda topladığı düşünün.Ve bu havuzdaki yapısal olmayan verileri. Yapısal hale getirip grafiksel veya istatisliksen bazda kendisine sunduğunu düşünün.Bu veri havuzunda webte elde edilebilecek her veri var zaten. Bu veri havuzundan elde ettiği deneyim kısaca şöyle eksik parametreler olabilir.
  • İnsan tecrübelerinden öğrenme yeteneğine sahip
  • Bilgiyi bulma ve kullanma yeteneği var
  • Raslantılardan yararlanabilme yeteneği var
  • Farklılar arasındaki benzerlikleri görebilme yeteneği var
  • Benzerler arasındaki farkları görebilme yeteneği var
  • Muhakeme edebilme yeteneği var
  • Sahtekarlık (Fraud) tespiti
  • Tanımsal istatislik çıkarma
  • İlişkilendirme kuralları
  • Gruplama kümele
  • Bunun yanında Problem çözebilme yeteneğinede sahip diye tahmin ediyorum.
Ve benim tahmin bile edemiyeceğim bazı maddelerde mutlaka vardır. Madde eklemek isterseniz şöyleyin lütfen. Bir arama motoru neden sosyal ağa yönelik bir algoritma çıkarır. Google bulduğu her bilgiyi işliyor. Bu sayede kendisine uygulama, yeni proje, seo algoritması v.b. bir çok şeyi elde etmiş oluyor.Yani insanlar arası sosyal ilişkilerden bile yapısal veri çıkartmayı hedefleyen bir arama motoru çok daha iyi uygulamalara imza atacaktır.

Yukarda yazdığım şeyler web madenciliğine giriyor.Web madenciliğide kendi içinde bölümlere ayrılıyor onlardanda bahsedelim.

Web madenciliği
  • Web içerik madenciliği - Web sayfaları içinde metin,link, ses, görüntü, metadata v.b. ne varsa bulur. Ve filtreler
  • Web yapı madenciliği - Buda sayfalar arası link yapısından veri bilgi çıkarmak için kullanılıyor
  • Web kullanım madenciliği - Kullanıcı istatislikleri(Tıklamalar, ziyaretler kullanıcı namına alınabilecek herşey, access log, çerezler, session, GET/POST/REQUEST v.b. yöntemlerle bilgi gönderimi.)
Mesala google mutlaka log analizi yapıyordur. Adamlar derlenmiş apache kullanıyorlar adıda GWS. Aslında yukardaki şıkların içine bir çok şey giriyor. IR sistemleri, makine öğrenmesi bu konularda makale yazmıştım zaten.

Neyse bu konudaki ipucu kısaca şudur. Google elde edebileceği bazı verileri tahmin etmek mümkün. Yukarda googleun verileri işyerek elde edebileceği bazı yeteneklerdende bahsettik. Bu yetenekler google de mutlaka var. Yani arkadaşlar kısacası google webin boyutunu komple analiz edebilecek bir kapasitesi var. Yukarıdaki donelere göre adımlarınızı atarsanız mutlaka başarı elde edersiniz. Örnek vermek gerekirse benzerler arasında bile bir fark yaratınız... Hoşcakalın...