bu konuda gentleRain dediklerine katılıyorum. Ben 8-9 ay kadar önce yazdığım bir arama moturu mevcut. örnek yada demo isteyen olursa yapabilirim. Geliştirmek için halen üzerinde çalışıyorum. Tek makine tek sunucu ile olacak bir iş değil kesinlikle. Olur belki ama linkler güncel olmaz. Ayrıca günlük tarayıp indexleyebileceğin sınır var. Bunlara takılmak istemiyorsanız öncelikle; minimum 16 makine ile düşünmeye başlamalısınız. Diskleri mümkün olduğu kadar hızlı, ramleri yüksek olmalıdır. "-Bu makineler ne olacak?" derseniz. 16/16 sında da veri dağınık olarak indexlenecek. İlla 16 olmak zorunda değil amaç 2 ve katları olmasıdır. veri dağımı kolay olsun diye. 8/16/32/64 gibi yayılabilir. Makinenin bir kaçı arama moturun web işini görür sanıyorum.

Arama moturunda minimum 3 ayrı bot. Opsiyonel olarak 5-6 ya kadar çıkabilir.
1. Bot : Link sömürgeni : site site gezer link toplar. rss'e dek gelirse rss tablosuna yazar. Tek işi budur.
2.Bot : Link sömürgenin kayıt ettiğin linklerin içeriğini alır ve bir yığına istifler. Tek işi budur.
3.Bot : Yığından bir dosya alır. Text'ini , linklerini ve Imagelerini çıkarır.
Text'in içindeki bilgiyi kelime kelime, kelimeler tablosuna kayıt eder. Tüm text'i 3'lü 3'lü kelimelere ayrırır ve kelimesira tablosuna yazar. (Bu öneriler için gereklidir.) Kelimeler tablosu yazılan kelimeler ayrıca; sesli benzerler, sessiz benzerler, sonu 3 harfi aynı bitenler, ilk 3 harfi aynı olanlar gibi ayrı ayrı tablolara da eklenmelidir.

Bu arada unutulmaması gereken bir işlemde. Bir sitedeki herhangi bir sayfade bulunan tüm içeriği değil o sayfaya özğü olan öz metini bulmaktır. Taranan kayıtların domain bazlı olarak saklanması gerekmektedir. o domainin daha önce taranmıış kayıtlarına bakılmalı ve belli bir sayının üzerine çıktığında, tekrar eden kelimeler, bulunup yeni gelen texten direkt olarak silinmeklidir. Bu size öz metni verir. Bu bir iterasyon işlemidir. Başlangıçta çok kötü netice verir. domain taranan sayfa sayısı artıkta daha güzel sonuçlar verecektir.

Kelimelerin 3'erli olarak kelime sira tablosuna kayıt edilmesi gerektiğin söylemiştim. Bu arama motoruna şu özelliği kazandırıyor. 2 kelime bir şey aradığınızda size önerilerde bulunmak için arama sonuçlarının üst tarafına 2 kelimeden sonra gelebilecek kelimeleri tahmin ediyor.

Image linklerini işlenecek image tablosun kayıt etmelidir.

4. Bot : İşlenecek imageler tablosun bi image indirir md5 ini hesaplar. daha önce indexlenen sonuçların id'is ile ilişkilendirir. İmage arama yapıldığında arama moturu mantığı ile aynı çalışır fakat bu sefer linkler yerine indirdiği resimleri gösterir. Burada başarılı bir sonuç alınmak isteniyorsa. gösterilen resimler oy sistemi ile en çok hit alanlar ilk sayfaya gibi bi optimizasyon yapılmalıdır.

5. bot : rss

6. bot : İndexlenmiş linkleri, ölümü güncellenmiş mi kontrolü yapan bot.

7. bot : PR hesaplama motoru. Eğer 1. botta her okunan linkten gelen linkler ilişkilendirilip saklanırsa. Kim kime link vermiş ortaya çıkar. Belirli filtreler uygulayarak kendi pr sini verir. Pr değer hesaplamarı hiç bir zaman ne değildir. dönüp dolaşıp gelen linkler olabilir. amaçsız alakasız verilmiş linkler olabilir. Karşılıklı verilmiş olabilir. vs.


Arama moturu yazmak sorun değil gereçekten. Yazılabilir. Önemli olan bu botların hızlı çalıştırabilmek. Botları bi başlatıyorsun. 3 gün içinde kelime tablosunda 5 milyondan fazla kelime oluyor. kelime index tablosunu sorma zaten.

Bu proje üzerine çalışıyorum halen. Gün olur bir sponsor çıkıpta 16 makine verirse kurar çalıştırırız. Yada ne zaman 16 makinem olur o zaman işletirim.