Terim-Döküman Matrisi

04-08-2010, 23:32:19

#1

aLKaDraZ

S.a. Arkadaşlar,
Uzun zamandır paylaşım kapılarını kapatmıştım. Hatta baya düşünerek yazdım saçma oldugunu düşündüm silmek istedim fakat çok şey yazmıştım. İyi veya kötü bir şeyler paylaşmak istedim ve yazımı yayınlamaya karar verdim. Kendi araştırmam olan ve programa dökmeyi düşündüğüm konuda sizlere tamamen bilimsel olan bir araştırmadan bahsetmek ve ufkunuzu bir nebzede olsa açmayı hedefliyorum. Öncelikle konumuz çok derin ve içinden çıkılamaz bir konu oldugunu belirtmek isterim(Kendi adıma konuştum). Zaten bu konuyu tam anlamıyla çözdüğünüz zaman alt sayfalarınızdan aşırı derecede hit almaya başlıyorsunuz. Backlink felan gerekmiyor.Bu konuya beni sevkeden bazı forum üyelerinede burdan teşekkür etmek istiyorum. Onların bazı yorumlarından meraklanarak bu konuya yöneldim aslanbahs ve digiklan.Aslanbash ın paylaşım yapmamasıda üzücü bir haber oldu benim için. Fikrine saygı duyuyorum. Paylaşımlarını her zaman beklediğimizide belirtmek isterim.

Alıntı Özet:

Alıntı

Özet: İnternetin bilgiye erişimde sağladığı büyük kolaylıklar beraberinde faydalı bilgiye erişim problemlerini de doğurmuştur. Bu anlamda, bilgiye erişim sistemlerinde doküman arama ve eşleştirme algoritmalarının önemi gün geçtikçe artmaktadır. Bu çalışmada yapısal
olmayan Türkçe dokümanlar için bir arama ve eşleştirme algoritması sunulmuştur. Bu makalede, doküman doğrusallaştırma (document linearization), kök bulma (stemming), ağırlık verme (weighting) ve kosinüs benzerliği (cosine similarity) teknikleri dokümanların karşılaştırılmasında ve eşleştirilmesinde kullanılmıştır

Google google yapan "FAYDALI BİLGİYE ERİŞİMDE SAĞLADIĞI BÜYÜK KOLAYLIKTIR"

Arama motorları yazmış oldugunuz makalede bir kelimenin veya bir metnin 1 yada daha fazla kez bulunup bulunmadığını ararlar.(Kelime veya metin yoğunluğu) Bunun için kelime yogunlugu backlinkten daha önemli hale geliyor.Sırasıyla (Sahsi fikrim):Önce kelime yogunlugu daha sonra referans baglantılar(Backlink). Tabi şöyle düşünebilirsiniz. Ahantar kelimeleri bir veya daha fazla kes tekrarlarsam kelime yogunluğunu sağlamış olabilirim.İşte bu bilimsel araştırmada bunu çok rahat bir biçimde fark ediyor.Bu bilimsel araştırmadaki insanlar bir makalenin kopya veya benzer olup olmadığını veya faydalı bilgiye götürüp götürmediğini anlayabiliyorsa google da hayli hayli anlayacaktır.

Terim-döküman matrisi bir çok aşamadan oluşuyor. Dökümanlar veya terimler eşletiriliyor.Kısaca bilindik aşamalar.

Alıntıdır:

Alıntı

1. Doküman doğrusallaştırma
2. Kök bulma
3. Ağırlık verme
4. Kosinüs benzerliği

Test
Algoritmanın uygulanabilirliğini test etmek için internet üzerinden haber yayını yapan farklı web sitelerinden toplam 1000 sayfa seçildi. Seçilen bu sayfalar test dokümanlarını oluşturmaktadır. Kullanılan dokümanların birbirinden tamamen faklı olmasıyla birlikte benzer konuları içeren dokümanlar da bulunmaktadır.
Test edilen döküman örnekleri:
Aşağıdaki dört dokümanı ele alırsak:
- Doküman 1: “Microsoft Windows
Vista'nın çekirdeğinde başka hata
bulundu.”
- Doküman 2: “Microsoft'un Web tabanlı
Office'i internet üzerinden dosya saklama
olanağı sunuyor.”
- Doküman 3: “Yapılan ölçümlere göre
Microsoft Kasım ayında PC pazarında
düşüş yaşadı.”
- Doküman 4: “Microsoft'un internet
tarayıcısının kullanım oranı %68.15’e
düştü.”
Yukarıdaki dokümanlara algoritmanın 1.
adımı uygulanırsa sonuç olarak dokümanlar
aşağıdaki formu alır.

- Doküman 1 : [çekirdek, bul, vista,
windows, başka, ha, microsoft]
- Doküman 2: [olanak, sunuyor, sakla,
office, dosya, üzer, internet, tabanlı,
microsoft]
- Doküman 3: [düşüş, ay, kas, gör, yapıla,
yaşadı, ölçüm, pazar, microsoft]
- Doküman 4: [düş, ora, kulla, tarayıcı,
internet, microsoft]

Tüm dokümanlar terimlerine indirgenmiştir.
Bu aşamadan sonra algoritmanın diğer
adımları uygulanarak dokümanlardan bir
terim matrisi oluşturulur (Tablo 1)

Metin matris eşleştirmesi tablolar:
Tablo 1:

Uploaded with ImageShack.us

Tablo 2:

Sonuçlar:
Tasarlanan algoritma gerçek hayatta gerçekleştirilerek dokümanların birbirleriyle karşılaştırılması sonucunda şu veriler elde
edilmiştir:
- Toplam 1000 doküman içinde 230873 terim, 14457 köküne indirgenmiş tekil
terimden oluşmaktadır.
- Bu veriler ışığında birbiri ile karşılaştırılan dokümanlardan benzerlik
değeri 0,3 seviyesinde olan dokümanlar farklı konulardan oluşmaktadır.
- Birbiri ile benzer konular taşıyan ama birbirinden farklı olan dokümanların
benzerlik değerleri ise 0,7 – 0,8 civarındadır. Örnek olarak teknoloji ile
ilgili dokümanların benzerlik değerleri bu aralıktadır.
- İçerik bakımından da aynı konuları kapsayan dokümanların benzerlik
değerleri ise 0.94 ve üzeridir.
KAYNAK

Velasıl kalem bu algoritma sayesinde ve kendimce oluşturdugum bazı işlemler ile alt sayfalarım çok iyi yerlere geldi. Günümüz şartlarında çok iyi dene bilecek rakamlar kazanmaya başladığımıda söylemek istiyorum.Ve bu algoritma üzerine bazı çalışmalar yapmaya başladım. Bunu programlaştırmaya çalışıyorum.Kısacası google sıralama sırrını çözmeye çalışıyorum. Sıralamadaki en büyük sırrı zaten ortada bu konuda tamamen onu anlatıyor. Geometri ve matematik konularında başarılı iseniz. Basit anlamda sizde sıralama algoritmalarına yönelik bazı betikler geliştirebilirsiniz.Daha çok anlatılacak şey var fakat kafa durdu şuan. Başka bir iş geldi aklıma ve yazıyı burda kesiyorum.

Umarım yazının size faydası olur. Özgün ve güncel siteler diliyorum.
05-08-2010, 12:00:00

#2

mahmutsoylu

güzel çalışma emeğine sağlık +rep
05-08-2010, 19:12:49

#3

aLKaDraZ

Sağol Kardeş.
Bu arada bir şeyi yazmayı unutmuşum. Tablo 2 deki veriler bize. döküman 4 ve 2 nin diğerlerine göre birbirine daha yakın olduğu göstermektedir.
05-08-2010, 21:40:27

#4

digiklan

Sonunda forumda birileri düzeyi yükseltmeye başladı.
Bu şekilde yazılacak botlarla sayfaların alaka düzeyleri bir birlerine otomatik olarak yaklaştırılabilir.
Hatta ben bunu bir adım daha ileri götürüp botla çekilen verinin anahtar kelime yoğunluğunu değiştiren ve bunu metni bozmadan semantik sınırlar içinde yapan botlar yazdım.
Burada herkesin index yakınmalarına rağmen tamamen makine tarafından üretilen içeriklerimin hepsi indexlendi problemsizce.
Ama bu konular black hate girdiği için sadece deneysel aşamada bıraktım.

Sonuçta SEO da street smart türk kafasına matematik ekleyebilen kazanır.

ve görüldüğü üzere abuk sabuk konular 5-10 sayfa teşekkür alırken, bu kadar ciddi ve üst düzey bir konu hem okunmamış hem de kimse yanıt da yazmamış doğru düzgün ))
05-08-2010, 22:30:19

#5

aLKaDraZ

digiklan adlı üyeden alıntı: mesajı görüntüle

Sonunda forumda birileri düzeyi yükseltmeye başladı.
Bu şekilde yazılacak botlarla sayfaların alaka düzeyleri bir birlerine otomatik olarak yaklaştırılabilir.
Hatta ben bunu bir adım daha ileri götürüp botla çekilen verinin anahtar kelime yoğunluğunu değiştiren ve bunu metni bozmadan semantik sınırlar içinde yapan botlar yazdım.
Burada herkesin index yakınmalarına rağmen tamamen makine tarafından üretilen içeriklerimin hepsi indexlendi problemsizce.
Ama bu konular black hate girdiği için sadece deneysel aşamada bıraktım.

Sonuçta SEO da street smart türk kafasına matematik ekleyebilen kazanır.

ve görüldüğü üzere abuk sabuk konular 5-10 sayfa teşekkür alırken, bu kadar ciddi ve üst düzey bir konu hem okunmamış hem de kimse yanıt da yazmamış doğru düzgün ))

Hocam konuya katkınız için teşekkür ederim.
05-08-2010, 22:54:26

#6

volera

aLKaDraZ adlı üyeden alıntı: mesajı görüntüle

S.a. Arkadaşlar,
Uzun zamandır paylaşım kapılarını kapatmıştım. Hatta baya düşünerek yazdım saçma oldugunu düşündüm silmek istedim fakat çok şey yazmıştım. İyi veya kötü bir şeyler paylaşmak istedim ve yazımı yayınlamaya karar verdim. Kendi araştırmam olan ve programa dökmeyi düşündüğüm konuda sizlere tamamen bilimsel olan bir araştırmadan bahsetmek ve ufkunuzu bir nebzede olsa açmayı hedefliyorum. Öncelikle konumuz çok derin ve içinden çıkılamaz bir konu oldugunu belirtmek isterim(Kendi adıma konuştum). Zaten bu konuyu tam anlamıyla çözdüğünüz zaman alt sayfalarınızdan aşırı derecede hit almaya başlıyorsunuz. Backlink felan gerekmiyor.Bu konuya beni sevkeden bazı forum üyelerinede burdan teşekkür etmek istiyorum. Onların bazı yorumlarından meraklanarak bu konuya yöneldim aslanbahs ve digiklan.Aslanbash ın paylaşım yapmamasıda üzücü bir haber oldu benim için. Fikrine saygı duyuyorum. Paylaşımlarını her zaman beklediğimizide belirtmek isterim.

Alıntı Özet:
Google google yapan "FAYDALI BİLGİYE ERİŞİMDE SAĞLADIĞI BÜYÜK KOLAYLIKTIR"

Arama motorları yazmış oldugunuz makalede bir kelimenin veya bir metnin 1 yada daha fazla kez bulunup bulunmadığını ararlar.(Kelime veya metin yoğunluğu) Bunun için kelime yogunlugu backlinkten daha önemli hale geliyor.Sırasıyla (Sahsi fikrim):Önce kelime yogunlugu daha sonra referans baglantılar(Backlink). Tabi şöyle düşünebilirsiniz. Ahantar kelimeleri bir veya daha fazla kes tekrarlarsam kelime yogunluğunu sağlamış olabilirim.İşte bu bilimsel araştırmada bunu çok rahat bir biçimde fark ediyor.Bu bilimsel araştırmadaki insanlar bir makalenin kopya veya benzer olup olmadığını veya faydalı bilgiye götürüp götürmediğini anlayabiliyorsa google da hayli hayli anlayacaktır.

Terim-döküman matrisi bir çok aşamadan oluşuyor. Dökümanlar veya terimler eşletiriliyor.Kısaca bilindik aşamalar.

Alıntıdır:
Test
Algoritmanın uygulanabilirliğini test etmek için internet üzerinden haber yayını yapan farklı web sitelerinden toplam 1000 sayfa seçildi. Seçilen bu sayfalar test dokümanlarını oluşturmaktadır. Kullanılan dokümanların birbirinden tamamen faklı olmasıyla birlikte benzer konuları içeren dokümanlar da bulunmaktadır.
Test edilen döküman örnekleri:
Aşağıdaki dört dokümanı ele alırsak:
- Doküman 1: “Microsoft Windows
Vista'nın çekirdeğinde başka hata
bulundu.”
- Doküman 2: “Microsoft'un Web tabanlı
Office'i internet üzerinden dosya saklama
olanağı sunuyor.”
- Doküman 3: “Yapılan ölçümlere göre
Microsoft Kasım ayında PC pazarında
düşüş yaşadı.”
- Doküman 4: “Microsoft'un internet
tarayıcısının kullanım oranı %68.15’e
düştü.”
Yukarıdaki dokümanlara algoritmanın 1.
adımı uygulanırsa sonuç olarak dokümanlar
aşağıdaki formu alır.

- Doküman 1 : [çekirdek, bul, vista,
windows, başka, ha, microsoft]
- Doküman 2: [olanak, sunuyor, sakla,
office, dosya, üzer, internet, tabanlı,
microsoft]
- Doküman 3: [düşüş, ay, kas, gör, yapıla,
yaşadı, ölçüm, pazar, microsoft]
- Doküman 4: [düş, ora, kulla, tarayıcı,
internet, microsoft]

Tüm dokümanlar terimlerine indirgenmiştir.
Bu aşamadan sonra algoritmanın diğer
adımları uygulanarak dokümanlardan bir
terim matrisi oluşturulur (Tablo 1)

Metin matris eşleştirmesi tablolar:
Tablo 1:

Uploaded with ImageShack.us

Tablo 2:

Sonuçlar:
Tasarlanan algoritma gerçek hayatta gerçekleştirilerek dokümanların birbirleriyle karşılaştırılması sonucunda şu veriler elde
edilmiştir:
- Toplam 1000 doküman içinde 230873 terim, 14457 köküne indirgenmiş tekil
terimden oluşmaktadır.
- Bu veriler ışığında birbiri ile karşılaştırılan dokümanlardan benzerlik
değeri 0,3 seviyesinde olan dokümanlar farklı konulardan oluşmaktadır.
- Birbiri ile benzer konular taşıyan ama birbirinden farklı olan dokümanların
benzerlik değerleri ise 0,7 – 0,8 civarındadır. Örnek olarak teknoloji ile
ilgili dokümanların benzerlik değerleri bu aralıktadır.
- İçerik bakımından da aynı konuları kapsayan dokümanların benzerlik
değerleri ise 0.94 ve üzeridir.
KAYNAK

Velasıl kalem bu algoritma sayesinde ve kendimce oluşturdugum bazı işlemler ile alt sayfalarım çok iyi yerlere geldi. Günümüz şartlarında çok iyi dene bilecek rakamlar kazanmaya başladığımıda söylemek istiyorum.Ve bu algoritma üzerine bazı çalışmalar yapmaya başladım. Bunu programlaştırmaya çalışıyorum.Kısacası google sıralama sırrını çözmeye çalışıyorum. Sıralamadaki en büyük sırrı zaten ortada bu konuda tamamen onu anlatıyor. Geometri ve matematik konularında başarılı iseniz. Basit anlamda sizde sıralama algoritmalarına yönelik bazı betikler geliştirebilirsiniz.Daha çok anlatılacak şey var fakat kafa durdu şuan. Başka bir iş geldi aklıma ve yazıyı burda kesiyorum.

Umarım yazının size faydası olur. Özgün ve güncel siteler diliyorum.

Çok açıklayıcı bir metin oldu. Hakkaten bu yazdıgınız yazı bile artık işin ucunda matematiksel işlemlerin olduğunu bizlere kanıtlar biçimde. (digiklan dediği gibi katsayılar.)
05-08-2010, 22:57:42

#7

aLKaDraZ

Dünyanın en iyi matematikçileri ile google gizli anlaşmalar yaptığını çok yerden duydum. Php ve mysql biliyorum. Formülü çözersem bir betik yazağım ALLAH ın izni ile.
Aslanbash dediği gibi Gayret kuldan Başarı Allah tan
05-08-2010, 23:05:01

#8

hakang

Yazınızı şimdi okuma fırsatı buldum. Sizi tebrik ederim çok güzel bir noktadan olayı yakalamışsınız. Mümkünse yaptığınız çalışmaları ara ara paylaşmanızı bekliyorum. aslanbashı banlanmasına üzüldüm iyi analiz yapan üyelerden biriydi. Sanırım seorosta paylaşımlarına devam edecek.
05-08-2010, 23:16:32

#9

aLKaDraZ

hakang adlı üyeden alıntı: mesajı görüntüle

Yazınızı şimdi okuma fırsatı buldum. Sizi tebrik ederim çok güzel bir noktadan olayı yakalamışsınız. Mümkünse yaptığınız çalışmaları ara ara paylaşmanızı bekliyorum. aslanbashı banlanmasına üzüldüm iyi analiz yapan üyelerden biriydi. Sanırım seorosta paylaşımlarına devam edecek.

Hocam ben teşekkür ederim. Çalışmalar iyi sonuçlanırsa neden olmasın.