Arkadaşlar merhaba
Bir arama motoru yaptırmak istiyorum google tarzında siteleri kandisi indexleyecek
veya bende var olan bir script var sphider buna düzenlemeler yapılacak
1.türkce karakter sorunu var
2.siteliri veritabanına manuel olarak kaydediyor bunu otomatik yapsın istiyorum yani siteleri ben değil o bulsun
msn:maltepe_turkyucel@hotmail.com
Arama motoru yaptırılacak
8
●454
- 23-01-2009, 15:51:23Kimlik doğrulama veya yönetimden onay bekliyor.Bilgi:kibrix adlı üyeden alıntı: mesajı görüntüle
- Arama motoru yaptığınızda limitleri çok kesin çizgilerle belirlemek durumundasınız. Google veritabanında 1 trilyon url bulunmaktadır. Bunun için yaklaşık 1 milyon işlemci paralel olarak web'i taramasına rağmen bu işlem yaklaşık 2-3 hafta almaktaktadır, pr algoritmalarıyla birlikte.
Siz tek makinayla çok sınırlı bir alanda belki faaliyet gösterebilirsiniz. Özel bir alan isteyin, mesela Türkçe haber siteleri gibi.
Ya da Yahoo-search API ile birşeyler derleyebilirsiniz.AMa bulduklarınız yahoo sonuçlarından fazlası olmaz, ben bir ara yapıyordum. Günde 5000/ip arama sınırı var. Maksimum 5000 sonuç (belki limit artmıştır bilmiyorum).
Başka bir api de video araması için Blinkx API. Video Search Engine - Blinkx
Buradaki gibi sample edilmiş videoları tek bir çatıda birleştirebilirsiniz. Host'um çökmemiş olsaydı örnek gösterebilirdim.
Son olarak, adsense-custom search'de çeşitli sitelere bağlı arama motoru seçeneği de oluşturabilirsiniz.
Bulduğunuz script'in yaptığı şey zor değil, zor olan verileri toplayıp derleyebilmek, yoksa hepimiz birer Google kurardık
Tolga - 24-01-2009, 01:23:14Üyeliği durdurulduGoogle amca şuanda o parayı belki 100 kat katladı ama..hikmetg adlı üyeden alıntı: mesajı görüntüle
adamlarda keskin ticaret zekası var gerçekten hayranım. o parayı nasıl katlıyorlar hayret doğrusu..
- 24-01-2009, 03:59:26bana kalirsa,, amerikalilari takip etmekten vazgecmeliyiz

windows isletim sistemi kesfedileli yillar oldu.
bugun isletim sistemlerinin en kralini yapacak SIRADAN YAZILIMCILARLA DOLU BU DÜNYA, hic bir ise yaramaz 
ay , günes kesfedileli yillar oldu,,
bugun WINDOWS isletim sistemini ALIVELI isimli bir arkadas programlasaydi, dünyaya sunsaydi, ticareti baslasaydi, bir süre sonra BILL GATES isimli süper zeka kalkip ayni sistemin benzerini yapsaydi,, bugunkü BILGATES yine ayni BILL GATES olabilirmiydi sizce
)
birakalim bos seyleri,, zaten neden gelisemedigimiz belli, ayni seylerin pesinde kosmakdan gelismeye zamanimiz yok.
mühim olan bir seyi yokken kesfetmek, ayni seyi ikinci kez kesfetmenin ne anlami var nede alemi var ,,
2000 yilinda GOOGLE nin G si yoktu.. ama bugun var. ayni seyi tekrar yapmanin hic bir anlami yok. gerekde yok. her türlü ihtiyaci karsiliyor..
google baktiki, bir eksiklik var, yetersizlik var, yapti motor, bugun 100.000 dolari olan adammi yok dünyada,, ? kim 100.000 dolar verip karsiliginda MILYONLAR KAZANMAK ISTEMEZ ? demekki isler para ile dönmüyor. demekki isler farkli dönüyor..
demekki isler = olmayan , henuz kesfedilmemis seyleri kesfetmekle oluyor.
google dogru zamanda dogru seyi yapti.
bill gates dogru zaman da dogru seyi yapti..
bugun EN KRAL, WINDOWS , GOOGLE , yapilsada HIC BIR ISE YARAMAZ, sadece gülerler adama,,
benim düsünceme göre ,, ilerleyen yillarda yani ( 5 - 10 ) yil sonrasi.. GOOGLE ve BENZERI arama motorlari,, cökecek, yani GÖRSELLIKLERINI AGIRLIKLARINI YITIRECEKTIR...
sonsuza dek insanoglu , karsisindaki bir kutuya bir yazi yazip karsisina 5000000000 tane aradigi kelimeyle ilgili siteler cikacak.. ve tek tek hepsini gezecek öylemi
bugun kim google ve benzeri arama motorlarinda bir sey ariyorsa,,karsisina en az 1000000 tane site cikti görünür.. kim o kadar siteyi gezdi ve o sitelerin varligini gerceklik payini ISPATLADI SIZCE ?
belkide ALIVELI isimli bir kelime ariyoruz googlede,, ALIVELI arama sonucunda google 100.0000 tane SITE BULUYOR.bu kadar siteyi kimse gezmedigine göre en fazla 5 tane siteye tiklar,, sonra baska SEYLER ARAMAYA KOYULUR HERKES...
belkide , aranan kelimenin ciktisindaki 100.000 sitenin 1000 den sonrasi , FOS , belkide FOS degil,, belkide BOS DEGIL , BELKIDE BOS , bilemeyiz,, ISPATLAYAN OLURMU OLMAZMI BILEMEM. ama bir gercek varki ,,
kimse ALIVELI diye aratip,, googlenin buldugu 100.0000 tane siteyi tek tek tikliyarak gezmiyor, gezemez,zaten gezmeye kalksa tahminime göre 3-4 ay sürer , sadece tek kelime
kisacasi her insan her ne ararsa googlede,, karsisina indexlenen URL lardan site adreslerinden en fazla 5 veya 10 siteye tiklanir, sonrasi BASKA KELIME ARICAKSA ARAR, aramicaksa kapatir..
1 trilyon tane URL var deniyor.. ben inanmiyorum,, hatta 1 TRILYON az bile denmis olabilir,,, dünyada YENI DOGAN COCUGUN BILE WEB SAYFASI VAR O ZAMAN
tabiri caizse,, bence UCMAMAK, ABARTMAMAK LAZIM..
google simdilik her insana yetiyor, zaten GÖRSELLIGE DOGRU GIDIYOR,, arama motorunuda geride birakarak, zaten bilindigi üzere YOUTUBE, FACEBOOK gibi siteleri google almis,, ne kadar dogru ne kadar yanlis bilemiyorum,, kisacasi ADAMLAR YENI KESIFLER DERDINE DÜSMÜS,, ki ATLAS , GÖRÜNTÜLER vs vs ilerliyorlar güzelce,,
bizim millette GOOGLE nin geride biraktigi seyleri kesfetmeye calisiyor
)
birde 100.000 dolar kadar SERMAYA PARA OLMASI gerekiyor deniyor.
kardesim,, vakti zamaninda bu GOOGLE yi düsünen kisiler INTERNETTEn okudugumuz üzere,, iste 100.000 dolarla baslamislar,, adamlarin farkli FIKIRLERI, FIRMA ACMAK , ISCI CALISTIRMAK BIR SÜRE , VS ve benzeri AYRINTILARI oldugu icin o kadar IHTIYAC DUYMUSLAR,, ki ( isci olmasi kacinilmazdi zaten ) baslangicda siteleri toplucak, indexlicek , vs vs vs vs botlar vs vs vs ) derken ISCILER KACINILMAZDI TABI..
google nin ilk gününde kullandigi server emin olun arkadaslar ,, bir bilgisayari sanal makine olarak kullanmis olabilirler, ki bunu HEPIMIZ YAPIYORUZ DEGILMI BIR COK PROJEDE,,
ilk günden zaten google HEMEN MILYONLARCA URL mi indexledide,, güclü sunuculara ihtiyac duysunlar,,, adamlarin tahminime göre,, 100 bin yada fazla paraya ihtiyac duymalarinin sebebi , ILERLEYEN GÜNLERDE KARSILARINA CIKACAK engelleri, gerekecek donanimlara , server vs konularina HAZIR OLMAK ICIn o kadar sermaye bulundurmuslardir,,,
aksi halde,, pat diye 100.000 yada bu kadar ortalama da para NE ICIN HARCANABILIRKI,, henuz DEMOSU yeni kurulmus bir SITE , veya SISTEM varsa elde,,
hic iste,, bugun herkes farkli bir sey konusuyor, adamlardan biri suray agelse,, emin olun INCE VE IC HESAPLARI KIMSE BILEMEZ,
bugun ARAMA MOTORUNA GEREK YOK ARTIK DIYORSAMDA, bugun kalkip arkadasin biri ARAMA MOTORU YAZMAK yapmak , kurmak ISTERSE,,
illa bu GOOGLE deki kisilerin BIREBIR UYGULADIGI YAPTIGI, ALDIGI NEFESLER, KURUSU KURUSUNA ÖDEDIGI PARALAR VS VS VS ayni islemlerdenmi gecmek gerekiyor.
ne sacma bir mantik tasiyan arkadaslar var,,, arama motoru yazmak istiyorsan 100.000 dolar kadar paran olacak deniyor,, sanki yazdilarda battilar
mühim olan insanlarin amaci , hedefi, amaci dogrultusunda hesabina kattigi ARACLAR , ve engeller, ve gereken miktar paradir.. hersey bundan ibaret dünyada..
bence DÜSÜNCELERIMIZI DEGISTIRMELIYIZ...
var olan seylerin pesinde kosmayi birakmaliyiz..
degisik olmuyan seylerin kesfetme hayalina girmeliyiz,,
dolayisi ile dünya , cag, teknolojii böyle gelisiyor iste..
herkes bir seyler ekliyerek kücük cark halinde,, internet okyonusunda birlesince bu kücük eklentiler,, siteler vs derken OKYONUSA DÖNÜSÜYOR..
bugun TOLGA, ALI , VELI , MEHMET, TOMY , JERY , PASKAL , MOSKAL vs vs vs isimler site yapmasa,, siteler programlamasa GOOGLE ne arayipda bulacak ??
google sadece gece gündüz emek veren kisilerin yapip, internete koydugu sitelerin iceriginde bot gezdirip,, aranan kelime varsa AHA BU URLDA DOSTUM ARADIGIN KELIME dedirtiyor...
lafim sözüm uzadi ama.. iyi oldu, canimda SIKILMISTI bu gece,,
kisacasi arkadaslar,, zamaninda IYI BIR SEY KESFETTI GOOGLE, tebrikler,,
herkesin isine yariyor, yariyacakta bu tür bir mantik ve sistem,, buda bir gercek.
ama degisik hedefler pesinde kosmak , degisik fikirlere, yönelmek gerekir diyorum.., - 24-01-2009, 04:34:58bu konuda gentleRain dediklerine katılıyorum. Ben 8-9 ay kadar önce yazdığım bir arama moturu mevcut. örnek yada demo isteyen olursa yapabilirim. Geliştirmek için halen üzerinde çalışıyorum. Tek makine tek sunucu ile olacak bir iş değil kesinlikle. Olur belki ama linkler güncel olmaz. Ayrıca günlük tarayıp indexleyebileceğin sınır var. Bunlara takılmak istemiyorsanız öncelikle; minimum 16 makine ile düşünmeye başlamalısınız. Diskleri mümkün olduğu kadar hızlı, ramleri yüksek olmalıdır. "-Bu makineler ne olacak?" derseniz. 16/16 sında da veri dağınık olarak indexlenecek. İlla 16 olmak zorunda değil amaç 2 ve katları olmasıdır. veri dağımı kolay olsun diye. 8/16/32/64 gibi yayılabilir. Makinenin bir kaçı arama moturun web işini görür sanıyorum.
Arama moturunda minimum 3 ayrı bot. Opsiyonel olarak 5-6 ya kadar çıkabilir.
1. Bot : Link sömürgeni : site site gezer link toplar. rss'e dek gelirse rss tablosuna yazar. Tek işi budur.
2.Bot : Link sömürgenin kayıt ettiğin linklerin içeriğini alır ve bir yığına istifler. Tek işi budur.
3.Bot : Yığından bir dosya alır. Text'ini , linklerini ve Imagelerini çıkarır.
Text'in içindeki bilgiyi kelime kelime, kelimeler tablosuna kayıt eder. Tüm text'i 3'lü 3'lü kelimelere ayrırır ve kelimesira tablosuna yazar. (Bu öneriler için gereklidir.) Kelimeler tablosu yazılan kelimeler ayrıca; sesli benzerler, sessiz benzerler, sonu 3 harfi aynı bitenler, ilk 3 harfi aynı olanlar gibi ayrı ayrı tablolara da eklenmelidir.
Bu arada unutulmaması gereken bir işlemde. Bir sitedeki herhangi bir sayfade bulunan tüm içeriği değil o sayfaya özğü olan öz metini bulmaktır. Taranan kayıtların domain bazlı olarak saklanması gerekmektedir. o domainin daha önce taranmıış kayıtlarına bakılmalı ve belli bir sayının üzerine çıktığında, tekrar eden kelimeler, bulunup yeni gelen texten direkt olarak silinmeklidir. Bu size öz metni verir. Bu bir iterasyon işlemidir. Başlangıçta çok kötü netice verir. domain taranan sayfa sayısı artıkta daha güzel sonuçlar verecektir.
Kelimelerin 3'erli olarak kelime sira tablosuna kayıt edilmesi gerektiğin söylemiştim. Bu arama motoruna şu özelliği kazandırıyor. 2 kelime bir şey aradığınızda size önerilerde bulunmak için arama sonuçlarının üst tarafına 2 kelimeden sonra gelebilecek kelimeleri tahmin ediyor.
Image linklerini işlenecek image tablosun kayıt etmelidir.
4. Bot : İşlenecek imageler tablosun bi image indirir md5 ini hesaplar. daha önce indexlenen sonuçların id'is ile ilişkilendirir. İmage arama yapıldığında arama moturu mantığı ile aynı çalışır fakat bu sefer linkler yerine indirdiği resimleri gösterir. Burada başarılı bir sonuç alınmak isteniyorsa. gösterilen resimler oy sistemi ile en çok hit alanlar ilk sayfaya gibi bi optimizasyon yapılmalıdır.
5. bot : rss
6. bot : İndexlenmiş linkleri, ölümü güncellenmiş mi kontrolü yapan bot.
7. bot : PR hesaplama motoru. Eğer 1. botta her okunan linkten gelen linkler ilişkilendirilip saklanırsa. Kim kime link vermiş ortaya çıkar. Belirli filtreler uygulayarak kendi pr sini verir. Pr değer hesaplamarı hiç bir zaman ne değildir. dönüp dolaşıp gelen linkler olabilir. amaçsız alakasız verilmiş linkler olabilir. Karşılıklı verilmiş olabilir. vs.
Arama moturu yazmak sorun değil gereçekten. Yazılabilir. Önemli olan bu botların hızlı çalıştırabilmek. Botları bi başlatıyorsun. 3 gün içinde kelime tablosunda 5 milyondan fazla kelime oluyor. kelime index tablosunu sorma zaten.
Bu proje üzerine çalışıyorum halen. Gün olur bir sponsor çıkıpta 16 makine verirse kurar çalıştırırız.
Yada ne zaman 16 makinem olur o zaman işletirim.
- 24-01-2009, 07:07:21
- 24-01-2009, 19:20:48xTROxTRO adlı üyeden alıntı: mesajı görüntüle
demissin , diyelim ben verdim sana 16 makina, sonra ?
insanlarin günlük aliskanligi olmus Google yazma aliskanligini nasil degistireceksin,,
veya baska arama motorlari kullananlarin aliskanligini ,,nasil degistirebilirsin.
sonucta birileri degil yüzlerce binlerce hatta milyonlarca kitlenin kullanmasini hedef alir ARAMA MOTORLARI.. ee kullanacak insan yoksa veya KULLANMAYA GEREK DUYMUYAN INSANLARLA DOLUYSA SU DÜNYA ( google, yahoo, vs vs vs ) sayilabilecek herkesin bildigi bir cok aliskanlik edindigi , yorulmadigi , bildigi MOTORLAR DURURKEN,,
senin , benim , baskasinin yapacagi yeni bir MOTORA kim neden ihtiyac duysun, en fazladan DUYAN YÜZ IKIYÜZ KISI merak eder bakar reklamini gördüm diye,, hepsi o , nede olsa hepsi ayni MANTIKDA DEGILMI ?
bu isin birde MAKINA masrafindan ziyade REKLAM fasillari var,,
zaten bugun bir TV reklami vereyim desen ki MILYONLARA ULASMANIN en kisa yolu.. BIR SÜRE cok izlenen kanalda O SEYIN REKLAMINI YAPMAKTIR.. sonrasida INTERNET te yapilan reklamlar olabilir..
bugun cok izlenen bir TV KANALINA GITSEN , tv reklami istesen 1 ay boyunca , 30 saniye gösterilecek desen bu REKLAM
bu reklam = 50.000 dolar derler.
benzeri bir projede reklam yaptirmak istedigimde arastirmistim , ordan biliyorum
ee o kadar masraf edip MOTORU kullanacak insan olmadiktan sonra,, neye yararki,,,
bu is MAKINA ALMAKLADA BITMIYOR, bu isi para bile cözemez.
para herkesde var.
16 makina demissin, 16 makina neki,,bu is icin paradan bile sayilmaz 16 makina. ama 100 makinan olsada bu is yürümücek. en fazladan aldigin makinalari kiralatirsin
emin olunki , PARA ESKIDEN ACARDI HER KAPIYI. ama bugun acmiyor artik.
konumuz ARAMA MOTORU olduguna göre.
hadi 1.00000 ( 1 milyon ) dolar lazim olsun bir arama motoru masraflari vs.. dünyada bir sor bakim. 1 MILYON DOLARI OLAN ADAM VARMI DIYE. sana olmayan 1 trilyon insan PARMAK KALDIRIR. hal böyle ise,,
google gibi 1 yatirip 1000 kazanacagini bilen adam NIYE BU ISE GIRMESIN?
hic iste.. bos mantiklarla yatip kalkan var,,,PARA CÖZMEZ BU ISI.
cünkü INSANLARIN ALISKANLIGINI para ile yok edemeyiz,,insanlarin gözlerini su kadar masraf edilmis sistemdir bu diye BOYAYAMAYIZ...
100000000000000 tane koyunu güder 1 coban.
ama 100000000000 tane insan 1 cobani güdemez.
bu budur özet olarak... insanlari YÖNETMEK , YÖNLENDIRMEK , AKAN SULARI YÖNETMEK , OKYONUSU YÖNETMEK, KASIRGAYI YÖNETMEK, vs vs vs PARANIN ISI DEGILDIR.
para bugun her isi cözüyor olsaydi, bugun yasamiyor olurduk.
heves kirmis gibi oluyorum belki ama.. burdaki konu SISTEMIN KALITESI veya SISTEMIN SAGLAMLIGI VEYA SISTEMIN GÖRSELLIGI degildir.
buradaki tek konu ( VAR OLAN BIR SEYIN BENZERINI VEYA AYNISINI YAPMAK )
bu yüzden ben düsmanimin dahi.. bos is pesinde kosmasini istemem.
ben cok eminimki,, bugun bir cok AMATOR daha iyi sistemler yazabilirler, ama neye yaricak ? ayni seyin benzeri oldukdan sonra.
kisacasi ,, bunlar benim 12 yillik bilgisayar yasantimin verdigi ( kendimce edindigim tecrübelerimden yola cikilarak edilmis yorumlardir )
asla heves kirmak, niyeti olamaz sözlerimizde,,
ben biliyorumki bugun 1 yillik yazilimci bile 10 yillik yazilimcidan daha iyi isler cikartir. sonucda hersey HAYAL EDIP UYGULAMAKDAN IBARET DEGILMI.
hayal gücü alakalidir bu yazilim olayi. bu yüzden, IYI - KÖTÜ mevzusu degil aslinda bu dünyadaki REKABET. herkes herseyin en iyisini yapmak ve öne cikmak ister. bugun dünyada KÖTÜ MAL YOK. hersey herseyin en iyisi.
ama tek sorun ( AYNI SEY OLMASI , YADA BENZERI OLMASI )
ihtiyaclari karsilayan sey varsa. benzerien gerek duyulmuyor...
bugun WINDOWS OFFICE PROGRAMLARI DÜNYANIN PARASI...
bugun WINDOWS ISLETIM SISTEMI DÜNYANIN PARASI..
eee ayni OFFICE PAKETI,, linuxdede var. OPENOFFICE
ee daha güvenli isletim sistemi olan UNIX TÜREVLERI.. windowsdan daha güvenli ve BEDAVA...
ee hem bedava hem güvenli olan isletim sistemi degilde WINDOWS tercih ediliyorsa. demek burda söz konusu olan sey PARA , BEDAVALIK, IYI , KÖTÜ mevzusu degildir.
ALISKANLIK MEVZUSUDUR... PSIKOLOJIK ALISKANLIK MEVZUSUDUR.
bu yüzden yapilmak istenen bir sey varsa ( KITLELERIN PSIKOLOJISI, ALISKANLIGI ) hesab edilerek hareket edilmelidir...
emin olun dogru yolda oldugunuz sürece 1 ytl nin cözdügü isi 1 trilyon ytl cözemez..
anliyana,,,
bu baslik altinda yazdigim son MESAJIMDI BU.. fazlasina,, gerek yok zaten
eyvallah..
sevgilerimle,,,
